特許審査における AI の活用
- NISHIO KEI
- 10月1日
- 読了時間: 2分
1.はじめに
この論文に掲載されてたもの。特許庁の中の人が書いたものです。
表にしただけですが、クラウドモデルがかなり性能良いというのが見えます。
2.比較表
タスク | モデル区分 | 使用モデル | 主な結果・評価 | 評価方法 |
機械分類付与タスク | エンコーダモデル | 特許BERT, DeBERTa, ALBERT, Longformer 等 | - DeBERTaが最高精度(Precision, Recall, F値)- 従来のSVM, LightGBMを上回る性能- 外国文献への分類付与に導入進行中 | - 精度指標:Precision, Recall, F値 |
類似文章ランキングタスク | エンコーダモデル | 特許BERT, DeBERTa | - Recall@10, 100, 1000 においてDeBERTa(TripletLoss学習)が最高精度- BM25より語順・同義語処理で優位- 入力長制限(約1000字)が課題 | - 精度指標:Recall@k(k=10,100,1000) |
特許文献の要約 | クラウドモデル | GPT-4o, Claude 3.5 sonnet, Gemini 1.5 pro | - 読みやすさ:クラウドモデルが高評価- 文献特定率:Claude 68% が最高- 実務利用は補助的に有望 | - 人手評価(読みやすさ・特定率)- 機械評価(G-Eval, FineSurE) |
オンプレミスモデル | Llama-3.1-70B-Japanese-Instruct, tsuzumi | - Llamaが63%で健闘- 精度はクラウドにやや劣る | - 同上 | |
他庁ドシエ情報の要約 | クラウドモデル | GPT, Claude, Gemini | - 読みやすさ・正確性:平均3〜4点- 引用文献網羅率:約80% | - 人手評価(読みやすさ・正確性・網羅性)- 機械評価(LLM as a judge, G-Eval, FineSurE) |
オンプレミスモデル | Llama, tsuzumi | - 読みやすさ・正確性:2点未満- 引用文献網羅率:20%以下 | - 同上 | |
表の構造化(画像表→JSON変換 & キャプショニング) | クラウドモデル | GPT, Claude, Gemini | - JSON変換:Gemini 3.09 > GPT 2.93 > Claude 2.49- キャプショニング正確性:Claude最高(3.11)- 本文考慮キャプショニング:GPT最高(3.21) | - JSON変換:人手評価(499件, 五段階評価)、機械評価(ルールベース・LLM包括評価)- キャプショニング:人手評価(正確性・本文考慮の2観点, 五段階評価) |
オンプレミスモデル | tsuzumi, Qwen2-VL-72B | - JSON変換で出力途中終了が多発- 精度はクラウドに劣後 | - 同上 |
3.その他
・・・多くの目的に対して十分な性能となり、進化が緩やかになった面もある。例えば、事前学習のモデルの規 模や学習に用いるデータ規模、コンテキスト長といった面においては、特許審査の目的において十分な性能が得ら れた状況である。
ということで、特許庁でも審査にAIが使われる日が近そうです!