この論文 。特許文章もテキスト埋め込み手法を使うと良いというのはわかるけれど、ではどれを選べばいいのかを実験したものです。
1.目的
・特許情報はイノベーション、特許ランドスケープ、技術マッピング、および特許品質評価をより深く理解するのに役立つ。 ・多くの場合、テキスト埋め込みは、特許分析タスクの重要な前段階であるので、どのテキスト埋め込み手法が良いのかを知りたい。
2.結果
・PatentSBERTa が一番性能が良い。
・ただし、いくつかの技術分野(セクション単位ですが)で詳細を見ていくと、Bert-for-patentsががいい性能を出している分野があります。分野やタスクによって使い分けるとよい、とのこと。
3.詳細
(1)特許データの使い道ー要約参照
特許データはイノベーション研究にとって重要な知識源である一方、特許ペア間の技術的類似性は特許分析を可能にする重要な指標です。最近、研究者は、さまざまな NLP 埋め込みモデルに基づく特許ベクトル空間モデルを使用して、特許ペア間の技術的類似性を計算し、イノベーション、特許ランドスケープ、技術マッピング、および特許品質評価をより深く理解できるようにしています。
そこで、特許文章のテキスト埋め込みについて実験した、というもの
(2)従来のテキスト埋め込み手法の整理
・従来のWord Embeddings Techniquesを3つに分類
①Traditional
②Static
③Contextualized
このあたりの歴史はウェブ上にもいろいろとありますね。個人的にはCourceraの「Natural Language Processing with Attention Models | Coursera」が良かったです。
さらに単語レベルだったEmbeddingsを文章単位にする方法で2種類に分類
・word Embeddinngの結果を平均化したり重みづけしたり(左の枝)。
・ワードレベルを文章レベルまで拡張(SBERT-WKなど)
Sentence Embedding Approaches
4.特許データを使った実験
利用したデータはEPO(EPO PATSTAT Worldwide Patent Statistical Database (2M patents for abstracts))とUSPTO(PatentsView dataset (1.5M patents for claims) provided by the US Patent and Trademark Office (USPTO))
実験したテキスト埋め込み手法は2つ。他の特許分析でも見ますが、みんなsentenceBERT好きですね。
・Non-Parameterized: TF-IDF Weighted Word Embeddings
PATSTAT にある約 6,500 万件の英語の特許要約でカスタム word2vec モデルをトレーニング
次に、調査データセット (350 万) のサンプルに対して TF-IDF モデルをトレーニング。TF-IDF モデルにより、350 万行 (特許) と 349790 列の行列化
続いて、各 TF-IDF 用語の 300 次元のトレーニング済み word2vec 埋め込みベクトルを計算。
最後に、サンプルの文埋め込みは、単語埋め込み行列と請求項の高密度 TF-IDF 重み付けバッグオブワード表現を乗算して内積をとることによって計算されました。
・Parameterized: SBERTー4つのモデル利用
この研究では、Sentence Transformers に基づいて、4 つの異なるモデルを使用(PatentSBERTa、Bert-for-patents、Bird-pegasus-large-bigpatent、および RoBERTa)
Transformer は、これを可能にする PyTorch および Transformer モデルに基づくフレ
埋め込み計算は事前トレーニングされたモデルを適用しただけ。150 万件のクレーム(第1請求項)と200 万件の特許要約に対して埋め込み計算。
評価方法
類似すると判定した文章が、同じ特許分類が付与されているか。
PatentSBERTa が総合で一番性能が良いそうですね。
一方、いくつかの技術分野(セクション単位ですが)で詳細を見ていくと、Bert-for-patentsががいい性能を出している分野があります。分野やタスクによって使い分けるとよい、とのこと。
5.その他
日本語でも少し実験中。
Commentaires