ナレッジベースとドキュメントの管理
Last updated
Last updated
ナレッジベースのページは、チームオーナーやチーム管理者、編集権限があるユーザーのみがアクセスできます。
Difyチームのホームページで、「ナレッジベース」タブをクリックし、管理したいナレッジベースを選択して、左のナビゲーションパネルで 設定 をクリックして調整を行います。ナレッジベースの名前、説明、表示権限、索引モード、埋め込みモデル、および検索設定を変更することができます。
ナレッジベースの名前:異なるナレッジベースを区別するために使用されます。
ナレッジの説明:ナレッジベースのドキュメントで表現される情報を説明するために使用されます。
表示権限:ナレッジベースへのアクセス制御を定義します。3つのレベルがあります:
「自分だけ」:ナレッジベースの所有者のみがアクセスできます。
「全チームメンバー」:チームの全メンバーにアクセス権を付与します。
「一部のチームメンバー」:特定のチームメンバーに対して選択的なアクセスを許可します。
適切な権限を持たないユーザーはナレッジベースにアクセスできません。チームメンバーにアクセス権を付与する場合(オプション2または3)、権限を持つユーザーは、ナレッジベースのコンテンツの表示、編集、削除などの全権限を受け取ります。
索引モード:詳細な説明については、ドキュメントを参照してください。
埋め込みモデル:ナレッジベースの埋め込みモデルを変更できます。埋め込みモデルを変更すると、ナレッジベース内のすべてのドキュメントが再埋め込みされ、元の埋め込みが削除されます。
検索設定:詳細な説明については、ドキュメントを参照してください。
Difyナレッジベースは、標準APIの完全なセットを提供しています。開発者はAPI呼び出しを行うことで、ナレッジベース内のドキュメントやチャンクの追加、削除、変更、クエリなどの日常的な管理およびメンテナンス操作を実行できます。詳細については、ナレッジベースAPIドキュメントを参照してください。
無効化: データセット内で、一時的に検索対象から外す必要がある文書やその一部(チャンク)を無効化することができます。文書を無効化するには、データセットの文書リストから無効ボタンをクリックします。また、文書の詳細ページで、文書全体または特定のチャンクを無効化することも可能です。無効化された文書は検索結果に表示されません。無効化された文書にある「有効化」をクリックすると、再び検索対象として復活させることができます。
アーカイブ: 使用しなくなった古い文書は、削除せずにアーカイブすることで保管することができます。アーカイブされた文書は閲覧や削除は可能ですが、編集はできません。文書をアーカイブするには、データセットの文書リストからアーカイブボタンをクリックします。文書の詳細ページからもアーカイブが可能です。アーカイブされた文書は検索結果には表示されませんが、アーカイブ解除して元の状態に戻すこともできます。
注意:
もし、あなたのナレッジベースに長期間更新やアクセスがない文書がある場合、システムはそれらを自動的に無効化して、パフォーマンスを最適化します。
これらの文書はいつでも有効化して、再びアクセス可能にすることができます。
ナレッジベースにアップロードされた各ドキュメントは、テキストチャンクの形式で保存されます。チャンクリストで各チャンクの具体的なテキストコンテンツを表示できます。
ドキュメントチャンクの品質は、ナレッジベースアプリケーションのQ&Aパフォーマンスに大きく影響します。アプリケーションとナレッジベースを関連付ける前に、チャンクの品質を手動で確認することをお勧めします。
文字数、識別子、またはNLPセマンティックチャンクに基づく自動化されたチャンク方法は、大規模テキストチャンクの作業量を大幅に削減できますが、チャンクの品質は異なるドキュメント形式のテキスト構造やセマンティックコンテキストに関連しています。機械チャンクの欠点を効果的に補うためには、手動での確認と修正が有効です。
チャンクの品質を確認する際には、以下の状況に注意してください:
過度に短いテキストチャンク:意味の損失を引き起こす可能性があります;
過度に長いテキストチャンク:一致精度に影響を与える意味のノイズを引き起こす可能性があります;
明らかなセマンティック切り捨て:最大セグメント長制限を使用した際に発生し、強制的なセマンティック切り捨てやリコール中のコンテンツ欠落を引き起こす可能性があります;
チャンクリストで「セグメントの追加」をクリックして、ドキュメントに1つまたは複数のカスタムチャンクを追加します。
一括でチャンクを追加する場合は、まずCSV形式のチャンクアップロードテンプレートをダウンロードし、Excelでテンプレート形式に従ってすべてのチャンクコンテンツを編集し、CSVファイルを保存してからアップロードします。
テキストブロックの一覧では、追加したテキストブロックの内容を直接編集できます。これには、テキストの内容やテキストブロックのキーワードが含まれます。
ウェブページデータのタイトル、URL、キーワード、説明など、異なるソースの文書に関連するメタデータ情報をマークすることに加えて、メタデータはナレッジベース内でテキストブロックを検索する際の構造化フィールドとして、検索のフィルタリングや引用元の表示に使用されます。
現在のバージョンでは、メタデータのフィルタリングおよび引用元の機能はサポートされていません。
「ナレッジベース > ドキュメント」から「ファイルを追加」をクリックすることで、新しい文書やNotion ページを作成したナレッジベースにアップロードできます。
ナレッジベース(Knowledge)は文書(Documents)の集合体です。文書は開発者や運営者によってアップロードされるほか、他のデータソースから同期することも可能です(通常はデータソース内のファイル単位に対応しています)。
無効化:データセットは、一時的にインデックスを必要としない文書やテキストブロックを無効化することをサポートしています。データセットのドキュメントリストで無効化ボタンをクリックして文書を無効化できます。また、文書の詳細画面で全体の文書や特定のテキストブロックを無効化することも可能です。無効化された文書はインデックスに含まれません。無効化された文書の有効化をクリックすると、無効化状態が解除されます。
アーカイブ:使用しなくなった古い文書データは削除せずにアーカイブすることができます。アーカイブされたデータは閲覧または削除のみ可能で、編集はできません。データセットのドキュメントリストでアーカイブボタンをクリックして文書をアーカイブできます。また、文書の詳細画面で文書をアーカイブすることもできます。アーカイブされた文書はインデックスに含まれませんが、アーカイブを解除することも可能です。