top of page

Graph Embeddingを使った出願人名寄せ(前半)

更新日:3月16日

1.はじめに

・出願人の名寄せは検索や分析の際に悩ましい問題で、表記ゆれや名称変更などが混在しており、どこまで名寄せするかで苦労することが多いです。

・人工知能学会の論文誌を読んでいると、論文著者の名寄せの方法が詳しく載っており、出願人の名寄せにも利用できるものがあったので、これをもとに名寄せ方法を検討しました。


2.関連情報

・この論文は論文データべース、学術ドメインの事前学習済モデル、研究者(論文著者)の名寄せ、研究者の特徴表現など結構幅広いトピックについて説明しています。


・この中の、論文著者の名寄せの方法は、以下のようなものが紹介されています。


利用するデータ:メタデータ(著者名、出版年、タイトル、出版会場)、テキスト(タイトル、アブスト、本文)、研究者ホームページ、ウェブ情報(プレスリリース、インタビュー

、後援)

方法:メタデータ間の(非)類似度、相関ルール、機械学習系の分類器の作成、埋め込み類似度計算・・・など


アルゴリズム:機械学習(サポートベクトルマシーン、ナイーブベイズ、ランダムフォレスト、LDA)、グラフ埋め込み、BERT




3.方法

(1)上記のような様々な方法があったので、どれを使おうかと思ったところ、出願情報にもメタデータが含まれており、その特性上、下記のような情報が使えそうと思っています。

・出願人名の編集距離(ex:ロッテとロツテ) ・住所の編集距離or一致度 ・技術分野(IPC) ・代理人? ・発明者ネットワークの被り具合(同姓同名の発明者が2名以上かぶるのは稀だろう) ・優先権


(2)テキスト情報の利用も良さそうなのですが、量が多く埋め込み表現にするのが大変そうなので断念。google patetnsの埋め込み表現の利用も今後検討します。



(3)グラフ埋め込みへ

・その結果、グラフ埋め込み手法の1つであるPyTorch-BigGraph facebookresearch/PyTorch-BigGraph: Generate embeddings from large-scale graph-structured data. (github.com)

がよさそうと判定し、準備中です。





 グラフ埋め込みについてはリンクなど参照ですが、

・今回上記のような様々なメタデータが出願人とリンクしており、すべて包含できそう

・ノード数とエッジ数が多くなりそう(日本の出願人だと30~40万人ほど存在*メタデータの種類)なので大規模データ(ノード数100,000以上)に向いているということで採用しました。


後半へつづきます。


その他:同じ雑誌の「引用分析における暗黙の仮定との向き合い方 —論文引用情報を用いた研究の動向とAI ×論文の発展に向けて—」もとても面白く読みました。これも特許の引用にも展開できる考え方があったので、考えてみたいと思います。


閲覧数:162回0件のコメント

最新記事

すべて表示

Comments


bottom of page