ナレッジベースとドキュメントの管理

ナレッジベースの管理

ナレッジベースのページは、チームオーナーやチーム管理者、編集権限があるユーザーのみがアクセスできます。

Difyチームのホームページで、「ナレッジベース」タブをクリックし、管理したいナレッジベースを選択して、左のナビゲーションパネルで 設定 をクリックして調整を行います。ナレッジベースの名前、説明、表示権限、索引モード、埋め込みモデル、および検索設定を変更することができます。

ナレッジベースの名前:異なるナレッジベースを区別するために使用されます。

ナレッジの説明:ナレッジベースのドキュメントで表現される情報を説明するために使用されます。

表示権限:ナレッジベースへのアクセス制御を定義します。3つのレベルがあります:

  1. 「自分だけ」:ナレッジベースの所有者のみがアクセスできます。

  2. 「全チームメンバー」:チームの全メンバーにアクセス権を付与します。

  3. 「一部のチームメンバー」:特定のチームメンバーに対して選択的なアクセスを許可します。

適切な権限を持たないユーザーはナレッジベースにアクセスできません。チームメンバーにアクセス権を付与する場合(オプション2または3)、権限を持つユーザーは、ナレッジベースのコンテンツの表示、編集、削除などの全権限を受け取ります。

索引モード:詳細な説明については、ドキュメントを参照してください。

埋め込みモデル:ナレッジベースの埋め込みモデルを変更できます。埋め込みモデルを変更すると、ナレッジベース内のすべてのドキュメントが再埋め込みされ、元の埋め込みが削除されます。

検索設定:詳細な説明については、ドキュメントを参照してください。


ナレッジベースAPIの管理

Difyナレッジベースは、標準APIの完全なセットを提供しています。開発者はAPI呼び出しを行うことで、ナレッジベース内のドキュメントやチャンクの追加、削除、変更、クエリなどの日常的な管理およびメンテナンス操作を実行できます。詳細については、ナレッジベースAPIドキュメントを参照してください。

ナレッジベースにおけるテキストのメンテナンス

テキストチャンクの表示

ナレッジベースにアップロードされた各ドキュメントは、テキストチャンクの形式で保存されます。チャンクリストで各チャンクの具体的なテキストコンテンツを表示できます。


チャンクのクオリティの確認

ドキュメントチャンクの品質は、ナレッジベースアプリケーションのQ&Aパフォーマンスに大きく影響します。アプリケーションとナレッジベースを関連付ける前に、チャンクの品質を手動で確認することをお勧めします。

文字数、識別子、またはNLPセマンティックチャンクに基づく自動化されたチャンク方法は、大規模テキストチャンクの作業量を大幅に削減できますが、チャンクの品質は異なるドキュメント形式のテキスト構造やセマンティックコンテキストに関連しています。機械チャンクの欠点を効果的に補うためには、手動での確認と修正が有効です。

チャンクの品質を確認する際には、以下の状況に注意してください:

  • 過度に短いテキストチャンク:意味の損失を引き起こす可能性があります;

  • 過度に長いテキストチャンク:一致精度に影響を与える意味のノイズを引き起こす可能性があります;

  • 明らかなセマンティック切り捨て:最大セグメント長制限を使用した際に発生し、強制的なセマンティック切り捨てやリコール中のコンテンツ欠落を引き起こす可能性があります;


テキストチャンクの追加

チャンクリストで「セグメントの追加」をクリックして、ドキュメントに1つまたは複数のカスタムチャンクを追加します。

一括でチャンクを追加する場合は、まずCSV形式のチャンクアップロードテンプレートをダウンロードし、Excelでテンプレート形式に従ってすべてのチャンクコンテンツを編集し、CSVファイルを保存してからアップロードします。


テキストブロックの編集

テキストブロックの一覧では、追加したテキストブロックの内容を直接編集できます。これには、テキストの内容やテキストブロックのキーワードが含まれます。


メタデータ管理

ウェブページデータのタイトル、URL、キーワード、説明など、異なるソースの文書に関連するメタデータ情報をマークすることに加えて、メタデータはナレッジベース内でテキストブロックを検索する際の構造化フィールドとして、検索のフィルタリングや引用元の表示に使用されます。

現在のバージョンでは、メタデータのフィルタリングおよび引用元の機能はサポートされていません。


文書の追加

「ナレッジベース > ドキュメント」から「ファイルを追加」をクリックすることで、新しい文書やNotion ページを作成したナレッジベースにアップロードできます。

ナレッジベース(Knowledge)は文書(Documents)の集合体です。文書は開発者や運営者によってアップロードされるほか、他のデータソースから同期することも可能です(通常はデータソース内のファイル単位に対応しています)。


文書の無効化とアーカイブ

無効化:データセットは、一時的にインデックスを必要としない文書やテキストブロックを無効化することをサポートしています。データセットのドキュメントリストで無効化ボタンをクリックして文書を無効化できます。また、文書の詳細画面で全体の文書や特定のテキストブロックを無効化することも可能です。無効化された文書はインデックスに含まれません。無効化された文書の有効化をクリックすると、無効化状態が解除されます。

アーカイブ:使用しなくなった古い文書データは削除せずにアーカイブすることができます。アーカイブされたデータは閲覧または削除のみ可能で、編集はできません。データセットのドキュメントリストでアーカイブボタンをクリックして文書をアーカイブできます。また、文書の詳細画面で文書をアーカイブすることもできます。アーカイブされた文書はインデックスに含まれませんが、アーカイブを解除することも可能です。

Last updated