ナレッジベース

大規模言語モデルの訓練データは一般的に公開データに基づいており、毎回の訓練には大量の計算能力が必要です。これは、モデルの知識が一般的に私有分野の知識を含まず、公開知識の分野では一定の遅れが存在することを意味します。この問題を解決するための一般的な手法はRAG(検索強化生成)技術を使用することです。ユーザーの質問に基づいて最も関連性の高い外部データを検索し、その検索結果をモデルのプロンプトのコンテキストとして再構成して応答を生成します。

詳細については、検索強化生成(RAG)の拡張読書をご覧ください。

Difyの知識ベース機能はRAGパイプラインの各段階を可視化し、ユーザーが個人またはチームの知識ベースを管理しやすくするシンプルで使いやすいユーザーインターフェースを提供します。また、これを迅速にAIアプリケーションに統合することができます。準備するのは以下のようなテキストコンテンツだけです:

  • 長文コンテンツ(TXT、Markdown、DOCX、HTML、JSONL、さらにはPDFファイル)

  • 構造化データ(CSV、Excelなど)

また、次のような多くのデータソースからデータをデータセットに同期することを順次サポートしています:

  • ウェブページ

  • Notion

  • Github

  • データベース

  • ……

シナリオ:もしあなたの会社が既存の知識ベースと製品ドキュメントに基づいてAIカスタマーサポートアシスタントを構築したい場合、Difyにドキュメントをデータセットにアップロードし、対話型アプリケーションを構築することができます。これにより、以前は数週間かかり、継続的なメンテナンスが難しかった作業を迅速に行うことができます。

知識ベースとドキュメント

Difyでは、知識ベース(Knowledge)は複数のドキュメント(Documents)の集合です。知識ベース全体を1つのアプリケーションに統合し、検索コンテキストとして使用することができます。ドキュメントは開発者や運営者によってアップロードされるか、他のデータソースから同期されます(通常、データソース内の1つのファイル単位に対応)。

Last updated