メインコンテンツへスキップ
⚠️ このドキュメントはAIによって自動翻訳されています。不正確な部分がある場合は、英語版を参照してください。

ドキュメントの管理

ナレッジベース内では、インポートされたすべてのアイテム(ローカルファイル、Notion ページ、またはウェブページなど)がドキュメントとして扱われます。ドキュメント一覧から、すべてのドキュメントを閲覧・管理し、ナレッジの正確性、関連性、最新性を維持できます。
画面上部のナレッジベース名をクリックすると、他のナレッジベースへ素早く切り替えできます。
ナレッジドキュメントの管理
操作説明
追加新しいドキュメントをインポートします。
チャンク設定の変更ドキュメントのチャンク設定を変更します(チャンク構造を除く)。
各ドキュメントには個別のチャンク設定を持たせることができますが、チャンク構造はナレッジベース全体で共通であり、一度設定すると変更できません。
削除ドキュメントを完全に削除します。削除は元に戻せません。
有効/無効一時的にドキュメントを検索対象に含める/除外します。
Dify Cloud では、一定期間更新または検索に使用されていないドキュメントは、自動的に無効化されパフォーマンスが最適化されます。

非アクティブ期間はプランごとに異なります:
  • Sandbox:7日
  • Professional/Team:30日
Professional および Team プランのユーザーは、ワンクリックでこれらのドキュメントを再有効化できます。
アーカイブ/アーカイブ解除検索には不要だが保持しておきたいドキュメントをアーカイブします。アーカイブ済みドキュメントは読み取り専用で、いつでもアーカイブ解除可能です。
編集ドキュメント内のチャンクを編集して、コンテンツを修正します。詳細は チャンクの管理 を参照してください。
名前を変更ドキュメントの名前を変更します。

チャンクの管理

チャンク設定に基づき、すべてのドキュメントは検索の基本単位であるコンテンツチャンクに分割されます。各ドキュメント内のチャンク一覧からそれらを閲覧・管理し、検索の効率と精度を最適化できます。
左上のドキュメント名をクリックして、別のドキュメントに素早く切り替えられます。
チャンクの管理
操作説明
追加新しいチャンクを1つまたは複数まとめて追加します。

親子分割モード(階層分割モード)のドキュメントでは、親チャンクと子チャンクの両方を追加可能です。
「チャンクを追加」は有料機能です。Dify Cloud で利用するには Professional または Team プラン へのアップグレードが必要です。
削除チャンクを完全に削除します。削除は元に戻せません。
有効/無効一時的にチャンクを検索対象に含める/除外します。無効化されたチャンクは編集できません。
編集チャンクの内容を修正します。編集されたチャンクは 「編集済み」 と表示されます。

親子分割モード(階層分割モード)のドキュメントでは:
  • 親チャンクを編集するとき、子チャンクを再生成するか保持するかを選択できます。
  • 子チャンクを編集しても、親チャンクには影響しません。
ドキュメント内の画像が添付ファイルとして抽出される場合、そのURLはチャンクテキスト内に残ります。これらのURLを削除しても、抽出された画像の添付ファイルには影響しません。
キーワードの追加/編集/削除経済的インデックス方式を使用するナレッジベースでは、各チャンクに対してキーワードを追加・編集して検索精度を向上させることができます。

1つのチャンクにつき最大10個のキーワードを設定可能です。
画像の追加/削除ドキュメントから抽出された画像を削除したり、対応するチャンク内に新しい画像をアップロードしたりできます。

画像の添付ファイルとチャンクは独立して編集でき、互いに影響しません。
各チャンクには最大10枚まで画像の添付が可能で、検索時に一緒に返されます。これを超える画像は抽出されません。

セルフホスティング環境では、環境変数 SINGLE_CHUNK_ATTACHMENT_LIMIT を変更してこの制限を調整できます。
クロスモーダル検索(テキストと画像の両方を意味的関連性に基づいて検索)を有効にするには、ナレッジベースに多モーダル埋め込みモデル(Vision アイコン付き)を選択してください。画像の添付ファイルは埋め込み・インデックス化され、検索に利用されます。

ベストプラクティス

チャンク品質の確認

ドキュメントをチャンク分割した後は、各チャンクを丁寧に確認し、意味的に完結し、検索精度と回答の関連性を最適化できるサイズであることを確認してください。 注意すべき一般的な問題:
  • チャンクが 短すぎる:文脈不足により意味情報が失われ、回答の精度が低下します。
  • チャンクが 長すぎる:不要情報を含み、意味的ノイズを引き起こして検索精度を下げます。
  • チャンクが 意味的に不完全:文や段落の途中で強制的に区切られた結果、検索時に情報が欠落または誤解を招く場合があります。

子チャンクを親チャンクの検索フックとして使用

親子分割モード(階層分割モード)で分割されたドキュメントでは、システムは子チャンクを検索し、結果として親チャンクを返します。子チャンクを編集しても親チャンクは更新されないため、子チャンクを親チャンクの セマンティックタグ(意味的タグ)検索ヒント として活用できます。 そのためには、子チャンクを キーワード要約ユーザーの一般的な質問 のいずれかに書き換えることを推奨します。 たとえば、親チャンクが 返品ポリシー 全体を扱う場合、子チャンクを次のように設定できます:
  • 「商品を返品するにはどうすればいいですか?」
  • 「返金期間はどのくらいですか?」
  • 「返品時の送料はかかりますか?」