AIにおける「チャンク(Chunk)」とは、「情報のまとまり」を指す
U3
2026/1/15
2026/1/15
AIにおける「チャンク(Chunk)」とは、「情報のまとまり」を指す言葉です。文脈によって主に2つの意味で使われます。
1. RAG(検索拡張生成)におけるチャンク
大規模言語モデル(LLM)に外部知識を参照させる「RAG」において、膨大な文書を扱いやすいサイズに分割した断片のことです。
- 目的: LLMには一度に読み込める文字数(コンテキストウィンドウ)に制限があるため、長い文書を数百〜数千文字程度の「チャンク」に切り分けて保存し、関連する部分だけを取り出してAIに渡します。
- 重要性: 分割が細かすぎると文脈が失われ、大きすぎるとノイズが増えて精度が落ちるため、適切なサイズ設定(チャンキング)が不可欠です。
2. 学習・処理の単位
AIがテキストを処理する際、単語や文字そのものではなく、意味を持つ最小単位(トークン)をいくつか組み合わせたデータの塊として処理することを指す場合があります。

コメント
コメントはまだありません。