top of page

Gemini Proに画像を読み取って説明してもらう

更新日:3月29日

1.はじめに

  • googleが提供するGeminiが開発者にもveretexAIで利用可能になりました!GoogleCloudのヘビーユーザとしてはとても嬉しい年末です。

  • Geminiの特徴が、画像などのmultimodal対応ということで、テキストだけではない情報を抽出できないか、ということで特許図面や表からの情報抽出に挑戦してみました。




2.特許文献などからの情報抽出

  • 特許調査の際、スクリーニングは図面さえ見りゃOKという技術分野があったり、意匠や商標調査などでは、画像の占める割合が大きいことがあります。

  • 画像専用のモデルは結構あるので、それ使えばいいじゃないか、というのもありますが、さくっと精度高いモデルが使えます。






3.実験

  • まずはvertexAI→Multimodalに行って、「Extract text from images」を選択します。




  • ModelがGemini Proになってますね!



  • ではやってみます。右側のparameterとりあえずデフォルトです。



(1)アルカリ水電解の(過)電圧

  • またアルカリ水電解ですが、下記の画像から電圧の最小〜最大値を読んでもらいます。


37ページ


  • 「Insert Media」から画像を入れて、指示は「表中のセル電圧のレンジを教えてください」にしました。


データは読み取ってるようですが、間違ってますね(正解は1.95-2.60)。

ほんとに全部読み取ってるか不明だったので、「表中のセル電圧を列挙してください。」にしてみます。


おしいとこまでいくのですが、抜けてますね。

もうちょっと工夫しないときれいに過電圧の情報など抜いてくれないかもですね。もっと簡単な表ならうまく行ったので、その部分の画像のみ抜き出す(電圧部分の行のみ抽出)ような前処理がいるかもでした。










(2)意匠の説明のさらなる補足



いちおう意匠の説明がありますが「この形状を説明してください」と入れてみます。


雪だるまとかは読み取って説明してくれていますね。意匠検索のときに、これでより詳細に検索できるといいなと思います。特に「意匠にかかる物品の説明」の記載が貧弱なときなど。









(3)たぬきの説明



どんな反応になるでしょうか?文字も入っている商標だったので、文字も抽出してもらいました。


画像中の文字を抽出してください。

この画像の内容を説明してください。




なんか説明が間違ってますが、ここまで説明してくれるとすれば、検索のときに楽ですね。特に図形でなんて言ったらいいか説明しずらい(=文章で検索しにくい)商標のときに効果的と思います。







4.最後に

  • 結構いい感じに出ることが分かったので、コード化しつつ読み込みを楽にしていけないか検討しようと思います!

  • Describe video contentも調査可能範囲を広げるのに役立ちそうなので実験中です。

  • わずかこれだけのコードで実行できるのは本当に便利です。



閲覧数:349回0件のコメント

最新記事

すべて表示

特許明細書を生成するためのPydanic Outputparser

1.はじめに 機械に明細書のたたき台を生成してもらうべく、LangChainのoutputparserを検討しました。 過去の実験結果から、なるべく生成させる部分を限定すること、出力形式を指定することなどが重要とわかってきたので、とりあえず出力形式を揃えるべく、LangChainのPydanic Parserを使います。 2.工夫点 先行する特許明細書の書き方を見てみたところ、概ね下記のような構造

Comments


bottom of page