Embeddingとは


Embedding(埋め込み表現)とは、単語や文章等の自然言語の構成要素をベクトル表現に変換する処理を指します。

簡単にいうと、単語や文章などの自然言語の意味を数値化して表現するということ。

Embeddingモデルと呼ばれる、大量のテキストデータを学習した言語モデルによって、単語や文章などの自然言語を空間上にベクトルとして数値化されます。

Untitled

また、embeddingによってベクトル化したデータの関連性を測る際は、多くの場合コサイン類似度が利用されます。

コサイン類似度とは


数学/統計学/機械学習におけるコサイン類似度Cosine Similarity)とは、2つのベクトルが「どのくらい似ているか」という類似性を表す尺度で、具体的には(ベクトル空間における)2つのベクトルがなす角のコサイン値のことである。この値は、2つのベクトルの内積(=向きと大きさを持つベクトル同士の掛け算)を、2つのベクトルの大きさ(=L2ノルム)で割ることで計算される。

Untitled

ファインチューニングとの違い


簡潔に説明すると、データの保管場所が違う。

ファインチューニングの場合は、LLM(大規模言語モデル)にデータを保管(学習)させる。

対してEmbeddingは、LLMではなく特定のデータベースにデータを保管する。