埋め込み(Embedding)
概要
埋め込み(Embedding)は、単語・文・画像などを 意味を反映した密ベクトル として表現する技術です。意味的に近いものはベクトル空間上でも近くに配置され、類似度計算・検索・分類の基盤になります。大規模言語モデル の入力(埋め込み層)から、RAG のセマンティック検索まで、あらゆる場面で使われます。
分布仮説
埋め込みの背景には 分布仮説(Distributional Hypothesis) があります。「語は、その仲間(共起する語)によって知られる」——文脈が似た語は意味も似る、という考え方です。
用途
- モデル内部の表現 — トークンを埋め込み層でベクトル化(Transformer の入力)
- セマンティック検索 — クエリと文書をベクトル化し近いものを探す(RAG)
- クラスタリング・分類・レコメンド
- ベクトルは ベクトルデータベース に格納して高速に近傍検索する
関連ライブラリ
- Sentence Transformers — 文の埋め込みを算出(実践 LLM アプリケーション開発 --- プロトタイプを脱却し、実用的な実装に迫るための包括的な手引き で言及)