AIにおける「チャンク(Chunk)」とは、「情報のまとまり」を指す

U3
2026/1/15
2026/1/15

AIにおける「チャンク(Chunk)」とは、「情報のまとまり」を指す言葉です。文脈によって主に2つの意味で使われます。


1. RAG(検索拡張生成)におけるチャンク

大規模言語モデル(LLM)に外部知識を参照させる「RAG」において、膨大な文書を扱いやすいサイズに分割した断片のことです。

  1. 目的: LLMには一度に読み込める文字数(コンテキストウィンドウ)に制限があるため、長い文書を数百〜数千文字程度の「チャンク」に切り分けて保存し、関連する部分だけを取り出してAIに渡します。
  2. 重要性: 分割が細かすぎると文脈が失われ、大きすぎるとノイズが増えて精度が落ちるため、適切なサイズ設定(チャンキング)が不可欠です。


2. 学習・処理の単位

AIがテキストを処理する際、単語や文字そのものではなく、意味を持つ最小単位(トークン)をいくつか組み合わせたデータの塊として処理することを指す場合があります。


コメント

コメントはまだありません。