top of page

最も多く使われている特許明細書のフレーズは何か

更新日:2023年3月31日

1.最初に

  • 特許明細書で最も使われるフレーズを調べてみました。

  • 結果:最も使われるフレーズは



  についても説明した(7600回)



  でした!


2.利用したデータ

  • 利用したのは2016~2021年の登録公報(約100万件)をBigQueryに投入したもの

  • 実際のデータはこんな感じです。





3.内容

(1)全分野共通

  • 数字や記号はできるだけ除いて・・・

WITH tempt as (
SELECT SPLIT(REGEXP_REPLACE(descd.desctext,"[0-9]{1,3}|[0-9]{1,3}|[a-zA-Za-zA-Z]","#"),"。") as desctextlist
FROM `{project}.{dataset}.desc` ,UNNEST(description) as descd
GROUP BY descd.desctext
)
SELECT desctext ,COUNT(*) as text_cnt
FROM tempt,UNNEST(desctextlist) as desctext
GROUP BY desctext
ORDER BY text_cnt DESC
LIMIT 100


・・・・これは、、先行技術文献の表示が集まってしまっている!

これを避けるため、明細書の「発明の詳細な説明」(description-of-embodiments)のみを対象に再計算!+意味なさそうな文章を除く意図で10文字以上の文章に限定



WITH tempt as (
SELECT SPLIT(REGEXP_REPLACE(descd.desctext,"[0-9]{1,3}|[0-9]{1,3}|[a-zA-Za-zA-Z]","#"),"。") as desctextlist
FROM `{project}.{dataset}.desc` ,UNNEST(description) as descd
WHERE descd.headline = "description-of-embodiments"
GROUP BY descd.desctext
)
SELECT desctext ,COUNT(*) as text_cnt
FROM tempt,UNNEST(desctextlist) as desctext
WHERE LENGTH(desctext) >10
GROUP BY desctext
ORDER BY text_cnt DESC
LIMIT 100

  • 結果(上位100位)⇓

  • 図の説明関連やフローチャートの話が多そうでした。「これらは、#種単独で使用してもよいし、#種以上を併用しても」はバイオでしょうか。






(2)各分野・出願人ごと

  • IPCなどで区切りやってみたい。あとは別カテゴリだけど請求項の記載


(3)特徴のあるフレーズ

  • tfidfで抽出してみました。・・・工事中


閲覧数:13回0件のコメント

最新記事

すべて表示

Comments


bottom of page