top of page

世界一 被引用回数が多い特許

1.はじめに

  • 世界一被引用件数が多い特許は何か?たぶんUS特許の化学かバイオ系ではないかと思いつつ、分析してみました。


2.クエリ

  • 結構大きなデータを扱うことが予想されたので、BigQuery+google patents public datasetで分析実施しました。


WITH bibtable as (
  SELECT
    pub.application_number AS appnum,
    pub.publication_number AS pubnum,
    pub.filing_date as appday,
    STRING_AGG(DISTINCT(applicants.name)) AS applicants ,
    STRING_AGG(DISTINCT(title.text)) AS texts,
    SUBSTR(STRING_AGG(ipcs.code),0,1) AS ipc4,
    STRING_AGG(DISTINCT(title.text)) AS title
  FROM `patents-public-data.patents.publications_201912` AS pub,
     UNNEST(title_localized) AS title,
     UNNEST(assignee_harmonized) as applicants,
     UNNEST(ipc) as ipcs
     GROUP BY appnum,pubnum,appday
)

SELECT 
  bibtable.pubnum,
  SUBSTR(bibtable.pubnum,0,2) AS appcountry,
  SUBSTR(STRING_AGG(DISTINCT(CAST(bibtable.appday AS STRING))),0,4) AS appyear,
  #STRING_AGG(DISTINCT(cit.application_number)) as appnum,
  #STRING_AGG(DISTINCT(cit.type)) AS cit_type,
  COUNT(main.application_number) AS total_cit_count,
  COUNT(DISTINCT(main.family_id)) AS unique_cit_count,
  STRING_AGG(DISTINCT(ipc4)) AS ipcs,
  STRING_AGG(DISTINCT(title)) AS titles,
  STRING_AGG(DISTINCT(applicants)) AS applicants,
  ARRAY_AGG(STRUCT(SUBSTR(ipcs.code,0,1) AS ipc_sec,
                   SUBSTR(main.publication_number,0,2) AS cc,
                   SUBSTR(CAST(main.filing_date AS STRING),0,4) AS year,
                   appls)
            ) AS fcit,
   #STRING_AGG(cit.type),STRING_AGG(DISTINCT(family_id))
FROM 
  `patents-public-data.patents.publications_201912` as main,
  UNNEST(main.citation) AS cit,
  UNNEST(main.ipc) AS ipcs,
  UNNEST(main.assignee) AS appls
LEFT JOIN bibtable
  ON cit.publication_number = bibtable.pubnum
WHERE SUBSTR(main.publication_number,0,2) IN ('US','JP','EP','CN','KR','WO') AND pubnum IS NOT NULL AND ipcs.first = TRUE
GROUP BY appnum,pubnum
ORDER BY total_cit_count DESC,pubnum DESC


3.出力結果(上位10位)

  • 実行時間は5分ほど。合計30,262,060件の文献が抽出されました。下記は被引用回数上位10位です。

※列の後ろの方の「IPC_~」というのは、どのIPCセクションからその文献が引用されているか(回数)、国名はどの国の出願から引用されているか(回数)の数字です。



結果

1.全体

被引用回数の分布

  • とりあえず被引用回数でヒストグラムを作成します。


from google.cloud import bigquery
project_id = '~~~~~'
client = bigquery.Client(project=project_id)

#クエリ
query =  """
                SELECT total_cit_count,count(*) AS fcit_count
                FROM `bqml_tutorial.fcitdata`
                GROUP BY total_cit_count
                ORDER BY total_cit_count DESC
         """
# pandasで受ける。
df_count_fcit = client.query(query).to_dataframe()



被引用年代の分布

  • どの年代の文献が一番引用が多いのか?どんどん増加しているけれど、2012~2013年あたりが現時点では最多でした。


#dataframeにデータを取得する部分は列名変更くらいなので省略。 fig=px.bar(df_count_fcit[df_count_fcit['appyear'].astype(int)>1990],x='appyear',y='count')
fig.show()


どの国の出願が被引用が多い?

  • もともとのデータが、USは審査官引用+出願人引用(IDS)が入っているのに対し、他の国は入ってないと思われるので、一概に言えないけれど。中国の引用はJPに迫って近年の増加がすごそうです。


SELECT appcountry,SUM(unique_cit_count) AS count
FROM `bqml_tutorial.fcitdata`
GROUPBY appcountry
ORDERBYcountDESC

fig=px.bar(df_count_fcit[0:10].sort_values(by='count'),y='appcountry',x='count',orientation='h',text='count')
fig.show()



閲覧数:55回0件のコメント

最新記事

すべて表示

Comments


bottom of page