ナレッジベース

大規模言語モデルの訓練データは一般的に公開データに基づいており、毎回の訓練には大量の計算能力が必要です。これは、モデルの知識が一般的に私有分野の知識を含まず、公開知識の分野では一定の遅れが存在することを意味します。この問題を解決するための一般的な手法はRAG(検索拡張生成)技術を使用することです。ユーザーの質問に基づいて最も関連性の高い外部データを検索し、その検索結果をモデルのプロンプトのコンテキストとして再構成して応答を生成します。

詳細については、検索拡張生成(RAG)の拡張読み物をご覧ください。

Difyのナレッジベース機能はRAGパイプラインの各段階を可視化し、ユーザーが個人またはチームのナレッジベースを管理しやすくするシンプルで使いやすいユーザーインターフェースを提供します。また、これを迅速にAIアプリケーションに統合することができます。準備するのは以下のようなテキストコンテンツだけです:

  • 長文コンテンツ(TXT、Markdown、DOCX、HTML、JSONL、さらにはPDFファイル)

  • 構造化データ(CSV、Excelなど)

また、次のような多くのデータソースからデータをデータセットに同期することを順次サポートしています:

  • ウェブページ

  • Notion

  • Github

  • データベース

  • ……

シナリオ:もしあなたの会社が既存のナレッジベースと製品ドキュメントに基づいてAIカスタマーサポートアシスタントを構築したい場合、Difyにドキュメントをデータセットにアップロードし、対話型アプリケーションを構築することができます。これにより、以前は数週間かかり、継続的なメンテナンスが難しかった作業を迅速に行うことができます。

ナレッジベースとドキュメント

Difyでは、ナレッジベース(Knowledge)は複数のドキュメント(Documents)の集合です。ナレッジベース全体を1つのアプリケーションに統合し、検索コンテキストとして使用することができます。ドキュメントは開発者や運営者によってアップロードされるか、他のデータソースから同期されます(通常、データソース内の1つのファイル単位に対応)。

Last updated