ナレッジ

コミュニティナレッジグラフの抽象化:リンク予測強化の新たなアプローチ

ナレッジグラフ(KG)の抽象化による、大規模知識ベースの俯瞰と汎化性を備えたリンク予測技術の開発

KG上で特定の属性を持つエンティティ間のコミュニティ関係を捉えるために、デロイトアナリティクスはリバプール大学との共同研究により、リンク予測性能の向上を目指したコミュニティナレッジグラフ(CKG)の抽象化手法を提案し、CKGにおけるリンク予測技術の改良を行いました。本研究はJournal of Biomedical Informatics誌に発表され、さらに医師間のつながり予測の案件にも応用されました。

ナレッジグラフを活用したリンク予測

ナレッジグラフとは

ナレッジグラフ(Knowledge Graph: 以下KG)は、現実世界の情報を構造的に整理した有向グラフであり、エンティティがノード、エンティティ間の関係がリンクとして表現されます。KG内の情報は、「トリプル」形式で表され、各トリプルは「ヘッドエンティティ、関係、テールエンティティ」(例:「エッフェル塔 – 場所 - パリ」)として記述されます(図1)。

KGの構成要素は次のように定義されます: 

  • ノード(エンティティ): 例としては、名前、地名、建物、生年月日などが含まれます。
  • エッジ(関係):エンティティ間の関係を表します。例としては、’is born on’, ‘likes’, ‘is a’ , ‘is located in’ などの関係があります。
  • コンピュータ上での表記(head,relation,tail):KGは(ヘッドエンティティ、関係、テールエンティティ)のトリプルとして表現されます。

この構造化された表現は機械にとって理解しやすく、データの連携や分析が効率的に行えるようになります。

図1. KGとコンピュータ上の表記

 

ナレッジグラフの構築

KGの構築は、①体系的なデータ収集、②エンティティの抽出、③関係の特定というプロセスで行われます。

例えば、図1に示すようにオープンな知識ベースからデータを収集し、多様なエンティティ(例:人物、地名、出来事など)を取得します。次に、「エッフェル塔」や「パリ」などの名詞をエンティティとして抽出し、これをKGのノードとして追加します。エンティティ間の関係を特定する際には、「エッフェル塔はパリにある」といった文から "is located in" の関係を抽出し、エッフェル塔とパリの間にリンクを作成します。このように、KGはデータ収集、エンティティ抽出、関係特定という手順を経て構築され、知識を組織的に表現する重要な手段となります。

ナレッジグラフの活用

近年では、さまざまな分野の知識を網羅する新たなKGが次々と開発されており、これらは質問応答、情報検索、意思決定支援、レコメンデーションシステムなど、多岐にわたる分野での応用が急速に広がっています。KGを活用することで、異なるデータ間の意味的な関連性を表現・分析できるようになり、精度の高い検索結果の提供や、ユーザーに合わせた情報提示が可能となっています。

KGの活用事例

① 推薦システム

ユーザーの好みや過去の行動を基に、KG上でノード間のつながりやパスを考慮することで、ユーザーに特化した推薦を生成することが可能です。KGにより、ユーザーの興味に関連するノードをネットワーク内で探索し、類似したアイテムや関心のあるコンテンツを効率的に推薦することができます。

② 契約書リスクチェック

契約締結プロセスの効率化において、KGを活用することで、契約担当者が一次チェックを迅速に行う環境が実現できます。

③ ネットワーク分析

KG上のノードが人や組織を表し、エッジがそれらの間の関係性やつながりを示します。この構造により、情報の拡散、影響力の測定、コミュニティの検出など、さまざまなネットワーク解析が可能になります。

④ KGを活用した生成AIの向上

KG+Retrieval-Augmented Generation (RAG)の組み合わせは、生成AIの性能向上において重要な役割を果たします。このアプローチにより、従来のRAGが直面している課題、特に質問に必要な手がかりが含まれていない場合や、チャンク化されたテキスト内に関連情報が欠けている場合に対応できます。

ナレッジグラフを活用したリンク予測

ナレッジグラフ(KG)における代表的な分析タスクには、「リンク予測」があります。

リンク予測は、グラフベースの関係性学習手法の一つであり、KG内でエンティティ間の隠されたリンクや関係性を発見し、データセットにおける不足情報を補うための重要な技術です。グラフ上のリンク予測はAI技術が抱える「欠損データ」や「データラベリング」の課題にも有効です。多くのビジネス領域、特に医療や金融分野では欠損データが常態化していますが、リンク予測により隠れたデータを推定することで、データの有効性や分析の精度を高めることができます。

KGのリンク予測はKGを補完し、データの整合性を維持しながら、新たな知識の発見、洞察の生成における重要な手法として注目されています。自然言語処理(NLP)の先行研究において、Knowledge Graph Embedding(KGE)技術は一般的なKGのリンク予測に有効であることが検証されています。このアイデアに触発され、デロイトアナリティクスはKGE技術を生物医薬分野の既存KGに適用し、薬物と疾患間の有意な関連性や、研究者とバイオエンティティ間の潜在的な関係を探索することで、新たな共同研究の機会を提供することを提案します。

リンク予測を強化するためのコミュニティナレッジグラフの抽象化

研究背景

生物医学分野では新しい知識が急速に生成され、既存の生物医学KGを手動で適時に更新することが困難です。先行研究では、リンク予測を活用してKGの欠如した知識を補完する手法が検証されており、これに基づき、既存の生物医薬分野のKGにリンク予測を適用し、欠けている知識を補完することを提案します。既存KG上の特定の属性を持つエンティティのコミュニティ間の関係を捉えるために、デロイトアナリティクスは英国リバプール大学(University of Liverpool)計算機科学科のボレガラ・ダヌシカ教授との共同研究で、リンク予測の性能向上向けたコミュニティナレッジグラフ(CKG)の抽象化手法を提案し、論文をJournal of Biomedical Informatics誌内で発表しました [1]。

本研究では、生物医薬分野の既存KGであるPubMedナレッジグラフ(PKG)を用いて、CKGを抽象化する手法を提案しました。さらに、抽象化されたCKGでリンク予測を行うために、既存のKGE手法を拡張するアプローチも提案しました(図2)。複数のKGEモデルでの予測結果は、提案した拡張アプローチが既存のKGEモデルの性能を向上させ、汎用性があることを示しています。今後は、新たに導入されたエンティティに対するリンク予測も期待されます。

図2. 提案手法のフレームワーク

 

新規性

本研究が提案したKGの抽象化技術により、元の大規模KGの全体像を把握しやすくなると同時に、CKGにおけるリンク予測の計算コストやストレージコストが削減されています。さらに、従来のリンク予測技術と比較して、新たなエンティティの導入や関係予測への拡張も期待されます(図3)。そのうえ、提案するCKGリンク予測向けの改良技術により、既存のKGEモデルよりも精度が向上し、汎化性も確認されました。

図3. 提案手法の新規性

 

コミュニティナレッジグラフの抽象化

PubMedナレッジグラフ

大規模な学術医療論文データベースである「PubMed」から抽出されたPKGは、生物医学分野の論文、著者、雑誌、研究分野などをノードとして表現し、どの論文がどの著者によって書かれたか、どの雑誌がどの論文を出版したかといった関係がエッジによって定義されています。PKGを活用することで、著者と研究テーマ間の潜在的な関係を予測し、研究者に興味を持たれそうな研究を推薦することが可能です。また、単に推薦するだけでなく、グラフ内の関係を辿ることで、推薦の根拠も提示することができます。

本研究では、既存のPKGを活用しました。図4には、PKG内のエンティティのグループとそれらの間の関係を示しています。この図示のように、PKGには著者、論文、機関、プロジェクト、雑誌、バイオエンティティの6つのエンティティグループに分類されます。

図4. PKGにおけるエンティティと関連関係の図解

 

コミュニティナレッジグラフの構築

PKGから特定の属性を持つコミュニティを抽出し、それらの関係を分析することで、研究の方向性の明確化やドラッグリパーパシング、新たな共同研究の発見など、さらなる研究に役立つエンティティのコミュニティを特定することが可能になります。

本研究では、PKGからCKGを抽象化するためのエンティティ間距離に基づくアプローチを提案しました。具体的には、PKGの各エンティティグループに対して、そのグループ内のエンティティ間の距離を計算し、クラスタリング法を用いて同種類のエンティティのコミュニティを特定します。図5は著者エンティティ間の距離計算の例を示します。この距離は、PKGの構造を考慮する上で、二つのエンティティに関連する確率分布の間のジェンセン–シャノン(JS)ダイバージェンスを測定することによって計算されます。数式の詳細は論文上で確認できます。

図5. 著者エンティティ ei と ei 間の距離計算の例

 

CKGを抽象化するために、クラスタリング技術を適用してエンティティコミュニティを特定し、元のPKG内の関係情報を保持します。図6は、PKGからCKGへの抽象化プロセスを示しています。このプロセスでは、各エンティティグループの距離行列に対してクラスタリングを行い、各エンティティタイプ内の異なるコミュニティを特定します。異なるコミュニティタイプ間の接続性と情報の流れを確保するために、抽象化プロセス中に異なるコミュニティ内のエンティティ間のすべての関係が保持されます。最終的に、PKGの圧縮表現を提供し、検出されたコミュニティとその相互接続を強調する抽象化されたCKGが得られます。抽象化されたCKGでは、各ノードが元PKGのエンティティのコミュニティを示します。

図6. CKGの抽象化プロセス

 

コミュニティナレッジグラフにおけるリンク予測

CKGにおけるリンク予測に対する既存のKGE手法の性能を向上させるために、PKGから抽象化されたCKGへの情報を連携する拡張アプローチを提案しました。このアプローチでは、トレーニングプロセス中に既存のKGE手法にブリッジング項を導入することにより、PKG内のエンティティの情報を抽象化されたCKGに紐づけます。

複数のKGEモデルを用いてこのアプローチを評価した結果、提案した手法がリンク予測の精度を向上させ、汎用性を持つことが示されました。具体的な実験設定、評価指標、および実験結果の詳細については、論文で確認できます。

ビジネスにおける多領域への広がり

ライフサイエンスへの応用

提案のCKG抽象化手法は生物医療分野の情報を特化したPKGを基盤とし、医療や創薬における効率化や新たな洞察の発見が可能となります。

1. 医師間のつながり予測

医師の背景情報および講演会参加情報を基にKGを構築し、医師同士のつながりを予測します。これにより、直接的な共通点がなくても、医師間の潜在的なつながりを明らかにすることが可能です。

2. 創薬のための薬剤と疾患のリンク予測

薬剤と疾患の関連性を予測し、創薬プロセスの効率化を図るサービスを提供します。

3. メディカルアフェア向けKOL(Key Opinion Leader)先生と新規研究の推薦システム

医療分野の専門家であるKOLと新しい研究のマッチングを行う推薦サービスを提供します。

4. 医師向け処方関連KGの構築と薬品推薦サービス

患者レセプトや電子カルテなどのデータから処方に関するKGを構築し、医師に対して薬品の推薦を行います。

その他領域への広がり

提案手法の柔軟性と汎用性により、以下のようなさまざまな分野での活用が可能です:

5. 企業向け知財データを活用したKG構築と特許出願の推薦サービス

大規模な知的財産データを用いてKGを構築し、競合他社の特許出願状況を把握するとともに、特許出願の推薦を行います。

6. 企業向け取締役推薦サービス
7. 企業向けスタートアップ企業データを用いた買収推薦サービス

まとめ

最近、デロイトアナリティクスが発表したリンク予測を強化するためのCKG抽象化技術についてご紹介しました。ビジネスユースケースの一例として、医師間のつながり予測への応用を取り上げています。この提案手法は柔軟性と汎用性を備えており、他のドメインにおける構造化データにも効果的に活用できるため、今後さらに多様な領域への応用が広がることが期待されています。

参考文献

 [1] Zhao Y, Bollegala D, Hirose S, Jin Y, Kozu T. Community knowledge graph abstraction for enhanced link prediction: A study on PubMed knowledge graph. J Biomed Inform. 2024 Oct;158:104725. doi: 10.1016/j.jbi.2024.104725. Epub 2024 Sep 10. PMID: 39265815.

お役に立ちましたか?