ナレッジベースとドキュメントの管理
Last updated
Last updated
ナレッジベースのページは、チームオーナー、チーム管理者、編集権限があるユーザーのみがアクセスできます。
Difyチームのホームページで、「ナレッジベース」ボタンをクリックし、管理したいナレッジベースを選択して、左のナビゲーションパネルで 設定 をクリックして調整を行います。
ナレッジベースの名前、説明、表示権限、索引モード、埋め込みモデル、および検索設定を変更することができます。
ナレッジベースの名前:異なるナレッジベースを区別するために使用されます。
ナレッジの説明:ナレッジベースのドキュメントで表現される情報を説明するために使用されます。
表示権限:ナレッジベースへのアクセス制御を定義します。3つのレベルがあります:「自分だけ」、「全チームメンバー」 と 「一部のチームメンバー」。権限のない方はナレッジベースをアクセスできません。このナレッジベースを他のメンバーと共有すると、そのメンバーもこのナレッジベースに対する完全な権限を持ちます。
索引方法:詳細な説明については、ドキュメントを参照してください。
埋め込みモデル:ナレッジベースの埋め込みモデルを変更できます。埋め込みモデルを変更すると、ナレッジベース内のすべてのドキュメントが再埋め込みされ、元の埋め込みが削除されます。
検索設定:詳細な説明については、ドキュメントを参照してください。
ナレッジベース内では、左側のサイドバーに紐づけられたアプリケーションの件数が表示されます。丸い情報アイコンにマウスカーソルを合わせると、紐付けられたアプリケーションの一覧がポップアップで現れます。さらに、右側にある「ジャンプ」ボタンをクリックすることで、それらのアプリケーションへ素早く移動して確認することが可能です。
Difyのナレッジベースは、標準APIの完全なセットを提供しています。開発者はAPI呼び出しを行うことで、ナレッジベース内のドキュメントやチャンクの追加、削除、変更、クエリなどの日常的な管理およびメンテナンス操作を実行できます。詳細については、ナレッジベースAPIドキュメントを参照してください。
ナレッジベースは、さまざまな文書が集められたものです。これらの文書は、開発者や管理者によってアップロードされたり、他のデータソースから同期されたりすることがあります。ナレッジベース内の各文書は、データソースの中の1つのファイルに相当します。たとえば、Notionのライブラリにある文書や、新しいオンライン文書のページなどが該当します。
「ナレッジベース」→「文書リスト」→「ファイルを追加」の順に進み、既に作成されているナレッジベースに新しい文書をアップロードできます。
有効化:通常利用されている状態の文書で、内容の編集やナレッジベースでの検索が可能です。無効化された文書は再び有効化することができますが、アーカイブされた文書を再び有効化する前には、アーカイブを解除する必要があります。
無効化:AIアプリケーションの利用時に検索結果に含まれたくない文書は、文書の横にある青いスイッチをオフにすることで無効化できます。無効化された後も、文書の編集は可能です。
アーカイブ:もはや使用しないが削除したくない古い文書データは、アーカイブすることができます。アーカイブされたデータは閲覧や削除のみ可能で、編集はできません。ナレッジベースの文書リストからアーカイブボタンをクリックするか、文書の詳細ページでアーカイブ操作を行えます。アーカイブは後で取り消し可能です。
削除:⚠️危険な操作です。誤りがある文書や誤解を招く内容の文書は、文書の横にあるメニューボタンから削除できます。削除された内容は復元できないため、慎重に操作してください。
上記の操作は、複数の文書を選択して一括で行うことが可能です。
注意:
ナレッジベース内に長期間更新されていない、または検索されていない文書がある場合、ナレッジベースの効率的な運用を保つため、システムはこれらの非活動文書を一時的に無効化することがあります。
サンドボックス/無料版のユーザーは、ナレッジベースを利用していない場合、7日後に自動的に無効化されます。
プロフェッショナル/チーム版のユーザーは、ナレッジベースを利用していない場合、30日後に自動的に無効化されます。
いつでもナレッジベースにアクセスして、無効化された文書を再び有効化し、通常の利用を再開できます。有料ユーザーはワンクリックで復活機能を利用して、無効化されたすべての文書を迅速に有効化することができます。
ナレッジベースにアップロードされた文書は、テキストのチャンク(Chunk)として保存されています。文書の見出しをクリックして、詳細ページに移動すると、その文書に含まれるテキストチャンクのリストを見ることができます。デフォルトでは、各ページには10個のチャンクが表示され、ページ下部でこの表示数を変更することが可能です。
チャンクは、先頭の2行がプレビューとして表示されます。チャンクの全内容を閲覧したい場合は、「チャンクを展開」ボタンを軽くタップします。
テキストチャンクを表示する方法にはいくつかのモードがあり、それぞれでテキストの見せ方が異なります:
汎用モード
汎用モードでは、各テキストチャンクが独立したブロックとして扱われます。全内容を表示したい場合は、右上にある全画面表示ボタンをタップしてください。
文書の見出し部分をクリックすることで、ナレッジベース内の他の文書へ素早く移動が可能です。
親子モード
親子モードでは、テキストが親チャンクと子チャンクに分かれて表示されます。
親チャンク
ナレッジベース内の文書を選択すると、まず親チャンクの内容が表示されます。これには、「段落」 表示と 「全文」 表示の2種類があり、文脈をより完全に提供します。以下は、異なる表示方法によるテキストプレビューの違いを説明します。
子チャンク
子チャンクは通常、段落内の特定の文(より小さいテキストブロック)で、詳細な情報を含んでいます。各チャンクは、文字数と検索された回数を示します。詳細を見るには、子チャンクを軽くタップします。ブロックの全内容を見たい場合は、右上の全画面表示ボタンをタップしてください。
Q&Aモード
Q&Aモードでは、各コンテンツブロックが一組の質問と答えを含んでいます。文書の見出しを軽くタップすることで、テキストチャンクを確認することができます。
テキストをチャンクする作業は、ナレッジベースを用いたQ&Aアプリの性能に直接影響を及ぼします。ナレッジベースとアプリを結びつける前に、チャンクされたテキストの品質を手動で確認することを強く推奨します。
文字数、特定の識別子、または自然言語処理(NLP)を用いた意味的なチャンクなど、自動化された方法で大量のテキストを効率的にチャンクすることが可能ですが、品質は文の構造や文脈による意味の流れに大きく左右されます。手動での確認と修正を行うことで、自動チャンクの限界を補い、より高い品質を保証することができます。
チャンクの品質を検証する際には、以下の点に注意する必要があります:
チャンクされたテキストが短すぎる場合、意図した意味が途切れてしまう可能性があります;
チャンクされたテキストが長すぎる場合、不要な情報が混入し、検索結果の精度を低下させる原因となります;
意味の流れが不自然に断ち切られている場合、最大チャンク長を設定しても、内容の一部が失われることがあります;
ナレッジベースに含まれる文書は、テキストを追加的にチャンクすることが可能です。異なるチャンクモードはそれぞれ、特定のチャンク方法を提供します。
テキストチャンクの追加は有料機能です。この機能を利用するには、アカウントのアップグレードが必要です。
汎用モード
ドキュメントに「チャンク追加」ボタンがあり、これをクリックすることで任意の数のカスタマイズされたチャンクを追加することが可能です。
テキストチャンクを手動で追加する際には、テキスト本体とキーワードの入力が選択肢としてあります。入力完了後、画面下部の「追加を続ける」にチェックを入れると、さらにテキストの追加が行えます。
複数のチャンクを一度に追加したい場合は、まずCSV形式のチャンクアップロード用テンプレートをダウンロードし、そのテンプレートに従ってExcelでチャンクの内容を編集します。編集後はCSVファイルを保存し、それをアップロードしてください。
親子モード
「チャンク追加」ボタンを使って、ドキュメント内に一つまたは複数のカスタム親チャンクを自由に追加できます。
入力完了後、画面下部の 「追加を続ける」 にチェックを入れると、さらにテキストの追加が可能です。
親チャンク内には、子チャンクを個別に追加することもできます。親チャンクに属する子チャンクの右側にある「追加」ボタンをクリックすることで、子チャンクを個別に追加できます。
Q&Aモード
「チャンク追加」ボタンをクリックすると、質問と回答のペアを形成するブロックを一つまたは複数、ドキュメント内に自由に追加することができます。
汎用モード
追加された段落は、直接内容の編集や修正が行えます。これには、文中のテキストやキーワードの変更が含まれます。
編集の重複を避けるため、編集完了後のコンテンツブロックには「編集済み」というマークが付けられます。
親子モード
親チャンクは、その中に含まれる子チャンクの内容を持っていますが、両者は独立しており、それぞれ個別に修正が可能です。以下の説明では、親子間の編集プロセスを解説します:
親チャンクの編集:親チャンクの右側にある編集ボタンをタップし、内容を入力します。**「保存」をクリックすると、子チャンクには影響しません。「保存して子チャンクを再生成」**を選択すると、子チャンクの内容も更新されます。
編集後のコンテンツブロックには「編集済み」というマークが付けられます。
子チャンクの編集:任意の子チャンクを選び、編集モードで修正します。保存後、親チャンクへの影響はありません。編集済みまたは追加された子チャンクブロックには、特定の編集状態を示すタグが表示されます。また、この子チャンクを現在の親テキストブロックのタグとして参照することも可能です。
Q&Aモード
Q&Aモードでは、各コンテンツブロックが一つの質問とその答えを含んでいます。希望するテキストチャンクをクリックすることで、質問と答えを個別に修正できます。また、現在のブロック内のキーワードの編集もサポートされています。
メタデータは、ウェブページのタイトル、URL、キーワード、説明など、さまざまな情報源からの文書を区別するために用いられる情報です。これらは、ナレッジベースでのテキスト検索時に構造化されたフィールドとして利用されるほか、参照元の情報表示にも活用されます。