チャンク設定

このドキュメントは AI によって自動翻訳されています。不正確な部分がある場合は、英語版を参照してください。

チャンクとは？

ナレッジベースにインポートされたドキュメントは、チャンク と呼ばれる小さなセグメントに分割されます。チャンクとは、大きな本を章や段落に整理するようなものです。大きなテキストブロックから特定の情報をすぐに見つけることはできませんが、適切に整理されたセクションなら効率的に検索できます。ユーザーが質問すると、システムはこれらのチャンクから関連情報を検索し、LLM にコンテキストとして提供します。チャンク化がなければ、クエリごとにドキュメント全体を処理することになり、遅くて非効率的です。 主要なチャンクパラメータ

区切り文字：テキストを分割する文字またはシーケンス。例えば、\n\nは段落区切りで分割し、\nは改行で分割します。
区切り文字はチャンク化の際に削除されます。例えば、Aを区切り文字として使用すると、CBACDはCBとCDに分割されます。情報の損失を避けるために、ドキュメント内に自然に出現しない非コンテンツ文字を使用してください。
最大チャンク長：各チャンクの最大サイズ（文字数）。この制限を超えるテキストは、区切り文字の設定に関係なく強制的に分割されます。

汎用モード vs 親子モード

チャンクモードは、ナレッジベースを作成した後は変更できません。ただし、区切り文字や最大チャンク長などのチャンク設定はいつでも調整できます。

モードの概要

汎用モード
親子モード

汎用モードでは、すべてのチャンクが同じ設定を共有します。マッチしたチャンクは検索結果として直接返されます。チャンク設定区切り文字と最大チャンク長に加えて、チャンクのオーバーラップ を設定して、隣接するチャンク間で重複する文字数を指定できます。これにより、意味的なつながりが保持され、重要な情報がチャンクの境界で分断されることを防ぎます。例えば、50 文字のオーバーラップを設定すると、あるチャンクの最後の 50 文字が次のチャンクの最初の 50 文字としても表示されます。

比較表

項目	汎用モード	親子モード
チャンク戦略	単一階層：すべてのチャンクが同じ設定を使用	二階層：親チャンクと子チャンクで別々の設定
検索ワークフロー	マッチしたチャンクが直接返される	子チャンクがクエリのマッチングに使用され、親チャンクがより広いコンテキストを提供するために返される
対応するインデックス方式	高品質、経済的	高品質のみ
最適な用途	用語集や FAQ などのシンプルで自己完結したコンテンツ	技術マニュアルや研究論文などコンテキストが重要な情報密度の高いドキュメント

チャンク化前のテキスト前処理

テキストをチャンクに分割する前に、不要なコンテンツをクリーンアップして検索品質を向上させることができます。

連続する空白、改行、タブを置換
- 3 つ以上の連続した改行 → 2 つの改行
- 複数の空白 → 単一の空白
- タブ、フォームフィード、特殊な Unicode 空白 → 通常の空白
すべての URL とメールアドレスを削除
この設定は全文モードでは無視されます。

チャンクをプレビュー

プレビュー をクリックして、コンテンツがどのようにチャンク化されるかを確認できます。クイックレビュー用に限られた数のチャンクが表示されます。結果が期待と完全に一致しない場合は、最も近い設定を選択してください。後で手動でチャンクを微調整できます。詳細はナレッジコンテンツの管理を参照してください。複数のドキュメントの場合、プレビューパネル上部のファイル名をクリックして、ドキュメントを切り替えることができます。

オーケストレーション

公開

モニタリング

ナレッジ

統合

ワークスペース

チャンク設定

チャンクとは？

汎用モード vs 親子モード

モードの概要

比較表

チャンク化前のテキスト前処理

チャンクをプレビュー

​チャンクとは？

​汎用モード vs 親子モード

​モードの概要

​比較表

​チャンク化前のテキスト前処理

​チャンクをプレビュー

チャンクとは？

汎用モード vs 親子モード

モードの概要

比較表

チャンク化前のテキスト前処理

チャンクをプレビュー