top of page

埋め込み表現の性能比較(前半)

更新日:4月18日

1.はじめに

  • テキスト埋め込み表現は、意味的な関連性の抽出、機械学習モデルの学習、テキスト生成などに使われる重要な機能です。

  • 生成AI関連のサービスだとchatmodelなどと共に、ほぼ必ずセットでついてきます。

  • 最近色々とテキストの埋め込み表現が出てきているので、特許文章に適用した場合の性能を比較してみます。


2.実験

(1)埋め込み表現モデル

  • 実験しようと考えている埋め込み表現は下記のものです。もしかしたら追加するかもしれません。OSSもあるので自前のGPUが欲しくなりますね。

企業名

モデル名

次元数

最大token数

備考

Google

768

3072

多言語対応。よくお世話になっている。

OpenAI

3072

8191

新世代の大規模モデル。高精度。費用が相対的に高い

OpenAI

1536

8191

text-embedding-3-largeの軽量版

infloat

1024

512

最大token数が少なめ

BAAI

1024

8192

GPUで最大tokenいれると死ぬ

Cohere

1024

8191(2048)

多言語対応。英語以外でも高性能

vectara

?

?

単体で使ったことない

Anthropic

不明(1536?)

不明(16000?)

単体で使ったことない

nomic

768?

8192

GPT4Allのほうが有名かも.v1.5もあった。








こういう記事もあるので、試そうとしているDenseだけでなくて、multivectorなどもできれば試したいところです。


(2)実験方法:

  • 特許文章でfine-tuningできるモデルもありますが、デフォルトのまま使ってみます。

  • 論文に記載の方法か、特許庁の審査情報で審査で引用された文献(X,Y文献)が当てられるかの方法で試す予定です。

  • 今年中に完了するといいなあ。後半に続きます。

閲覧数:149回0件のコメント

最新記事

すべて表示

Yorumlar


bottom of page