ナレッジベースおよびドキュメントのメンテナンス
1 テキストチャンクの確認
ナレッジベースにアップロードされた各ドキュメントは、テキストチャンクの形式で保存されます。チャンクリストで各チャンクの具体的なテキスト内容を確認できます。
2 チャンクの品質を確認
ドキュメントチャンクはナレッジベースアプリケーションのQ&A効果に影響を与えるため、ナレッジベースをアプリケーションに関連付ける前に、チャンクの品質を人工的に確認することが推奨されます。
文字数、識別子、またはNLPセマンティックチャンクなどの自動化されたチャンク方式は、大規模なテキストチャンクの作業量を大幅に削減できますが、チャンクの品質はドキュメント形式のテキスト構造や前後の文脈のセマンティクスにも関係します。人工的なチェックと修正を行うことで、機械によるチャンクのセマンティック認識の欠点を効果的に補うことができます。
チャンクの品質を確認する際には、一般的に以下の点に注意が必要です:
短すぎるチャンク、意味が不足する可能性がある;
長すぎるチャンク、ノイズが多すぎるためマッチングの精度が低下する可能性がある;
明らかなセマンティックカットオフ、最大チャンク長制限を使用すると強制的なセマンティックカットオフが発生し、リコール時に内容が失われる;
3 チャンクの追加
チャンクリスト内で「チャンクを追加」をクリックすると、ドキュメント内にカスタムチャンクを1つまたは複数追加することができます。
複数のチャンクを追加する場合は、まずCSV形式のチャンクアップロードテンプレートをダウンロードし、テンプレートに従ってExcelで全てのチャンク内容を編集し、CSVファイルを保存してからアップロードします。
4 チャンクの編集
チャンクリスト内で追加したチャンク内容を直接編集・修正することができます。テキスト内容やキーワードを含めます。
5 メタデータ管理
異なるソースドキュメントのメタデータ情報(例:ウェブページのタイトル、URL、キーワード、説明など)をマークするために使用されます。メタデータはナレッジベースのチャンクリコールプロセスで使用され、構造化フィールドとしてリコールフィルタリングや参照元の表示に参加します。
メタデータフィルタリングと参照元機能は現在のバージョンではサポートされていません。
6 ドキュメントの追加
「ナレッジベース > ドキュメントリスト」で「ファイルを追加」をクリックすると、作成済みのナレッジベースに新しいドキュメントをアップロードするか、Notionページを同期することができます。
ナレッジベース(Knowledge)はいくつかのドキュメント(Documents)の集合体です。ドキュメントは開発者や運営者がアップロードするか、他のデータソースから同期されます(通常、対応するデータソースの1つのファイル単位)。
7 ドキュメントの無効化とアーカイブ
無効化:データセットは一時的にインデックス付けしたくないドキュメントやチャンクを無効化することをサポートしています。データセットドキュメントリストで無効化ボタンをクリックすると、ドキュメントが無効化されます。また、ドキュメントの詳細で無効化ボタンをクリックして、ドキュメント全体または特定のチャンクを無効化することもできます。無効化されたドキュメントはインデックスされません。無効化されたドキュメントは、有効化をクリックして無効化を解除できます。
アーカイブ:使用しなくなった古いドキュメントデータを削除したくない場合、アーカイブすることができます。アーカイブされたデータは表示または削除のみ可能で、編集はできません。データセットドキュメントリストでアーカイブボタンをクリックすると、ドキュメントがアーカイブされます。また、ドキュメントの詳細でアーカイブをクリックすることもできます。アーカイブされたドキュメントはインデックスされません。アーカイブされたドキュメントもアーカイブ解除をクリックして解除できます。
8 ナレッジベースの設定
ナレッジベースの左側ナビゲーションで設定をクリックすると、以下の設定項目を変更することができます:
ナレッジベース名、ナレッジベースを識別するための名前を定義します。
ナレッジベースの説明、ナレッジベース内のドキュメントが示す情報を説明します。
ナレッジベースリコールモードがN選1の場合、ナレッジベースはLLMに推論呼び出し用のツールとして提供され、推論の根拠はナレッジベースの説明に基づきます。説明が空の場合、Difyの自動インデックス戦略が使用されます。
表示権限、「自分のみ」または「全チームメンバー」を選択できます。権限を持たない人はデータセットを閲覧および編集することができません。
インデックスモード、参考文献
エンベディングモデル、ナレッジベースのエンベディングモデルを変更します。エンベディングモデルを変更すると、ナレッジベース内の全てのドキュメントが再度エンベディングされ、以前のエンベディングは削除されます。
検索設定、参考文献
9 ナレッジベースAPI管理
Difyナレッジベースは標準的なAPIセットを提供しています。開発者はAPI呼び出しを通じて、ナレッジベース内のドキュメントやチャンクのCRUD操作を行うことができます。詳細はナレッジベースAPIドキュメントを参照してください。
Last updated