Dify Docs home page
日本語
Search...
⌘K
Ask AI
Blog
Dify
Dify
Search...
Navigation
ナレッジベース作成
作成手順
ドキュメント
プラグイン開発
APIアクセス
リソース
入門
Difyへようこそ
クラウドサービス
Dify コミュニティ版
Dify Premium
Dify 教育版
APIアクセス
マニュアル
モデルの設定
アプリ・オーケストレーション
ワークフロー
ナレッジベース
ナレッジベース
ナレッジベース作成
作成手順
1. オンラインデータソースの活用
2. チャンクモードの指定
3. インデックス方法と検索設定を指定
ナレッジベースの管理
メタデータ
アプリ内でのナレッジベース統合
リコールテスト/引用帰属
ナレッジベースの要求頻度制限
外部ナレッジベースとの接続
外部知識API
アプリ公開
アノテーション
モニタリング
拡張
ツール
コラボレーション
管理
ハンドオン工房
初級編
中級編
コミュニティ
支援を求める
貢献者になる
ドキュメントへの貢献
プラグイン
はじめに
クイックスタート
プラグイン管理方法
スキーマ仕様
ベストプラクティス
プラグインの公開
よくある質問
開発
バックエンド
モデルの統合
移行
もっと読む
活用事例
さらに読む
よくある質問
ポリシー
ライセンス
ユーザ規約
On this page
参考資料
ETL
エンベディング
メタデータ
ナレッジベース作成
作成手順
Copy page
ナレッジベースの作成とドキュメントのアップロードは、以下のステップに分かれています:
ナレッジベースを作成します。ローカルファイルのアップロード、オンラインデータのインポート、または空のナレッジベースを作成することができます。
コンテンツデータのインポート
ローカルファイルのアップロード、オンラインデータのインポート、または空のナレッジベースの作成について。
チャンキングモードを指定します。この段階では、コンテンツの前処理とデータ構造化を行い、長いテキストが複数のセグメントに分割されます。ここでは、テキストの分割効果をプレビューすることができます。
テキストのチャンキングとクリーニング
テキスト分割とデータクリーニングのプロセスについて学ぶ
インデックス方法と検索設定を設定します。ナレッジベースはユーザーからのクエリを受け取ると、事前設定された検索方法に従って既存のドキュメント内で関連コンテンツを検索し、言語モデルが高品質の回答を生成するために関連性の高い情報を抽出します。
インデックス方法の設定
インデックス方法と検索パラメータの設定方法について学ぶ
チャンクのエンベディング処理が完了するまで待ちます。
アップロードが完了したら、アプリケーション内でナレッジベースを関連付けて使用します。
アプリケーション内でのナレッジベースの統合
を参照して、ナレッジベースに基づいて質問応答ができるLLMアプリケーションを構築できます。ナレッジベースの修正や管理が必要な場合は、
ナレッジベース管理とドキュメントメンテナンス
を参照してください。
参考資料
ETL
RAGの本番環境での応用では、より良いデータ検索結果を得るために、複数のソースからのデータに対して前処理とクリーニングを行う必要があります。これがETL(
extract, transform, load
)です。非構造化/半構造化データの前処理能力を強化するため、Difyでは
Dify ETL
と
Unstructured ETL
の2つのETLソリューションをサポートしています。Unstructuredは、後続のステップのためにデータを効率的に抽出し、クリーンなデータに変換します。Difyの各バージョンにおけるETLソリューションの選択:
SaaSバージョンでは選択できず、デフォルトでUnstructured ETLを使用します;
コミュニティバージョンでは選択可能で、デフォルトではDify ETLを使用し、
環境変数
を通じてUnstructured ETLを有効にできます;
ファイル解析でサポートされる形式の違い:
DIFY ETL
Unstructured ETL
txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv
txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv、eml、msg、pptx、ppt、xml、epub
異なるETLソリューションはファイル抽出効果においても違いがあります。Unstructured ETLのデータ処理方法についてさらに詳しく知りたい場合は、
公式ドキュメント
を参照してください。
エンベディング
エンベディング
は、離散変数(単語、短文、または文書全体など)を連続的なベクトル表現に変換する技術です。これにより、高次元データ(単語、フレーズ、画像など)を低次元空間にマッピングし、コンパクトで効果的な表現方法を提供します。このような表現は、データの次元を削減するだけでなく、重要な意味情報も保持するため、後続のコンテンツ検索がより効率的になります。
エンベディングモデル
は、テキストをベクトル化することに特化した大規模言語モデルで、テキストを密な数値ベクトルに変換し、意味情報を効果的に捉えることができます。
メタデータ
メタデータ機能を使用してナレッジベースを管理する場合は、
メタデータ
を参照してください。
このページを編集する
|
問題を報告する
Was this page helpful?
Yes
No
ナレッジベース
1. テキストデータのインポート
Assistant
Responses are generated using AI and may contain mistakes.