⚠️ このドキュメントはAIによって自動翻訳されています。不正確な部分がある場合は、
英語版を参照してください。
工場の生産ラインを例に考えてみましょう。各ステーション(ノード)が特定の作業を担当し、それらを連携させて部品を組み立て、最終製品を完成させます。ナレッジパイプラインの構築も同様のプロセスです。視覚的なワークフロー設計ツールを使用し、ドラッグ&ドロップ操作だけで容易にデータ処理の流れを設計できます。これにより、ドキュメントの取り込み、処理、分割、インデックス化、検索戦略を自在に管理できます。
本ステップでは、ナレッジパイプライン全体のプロセス、各ノードの役割や設定方法について学び、独自のデータ処理フローをカスタマイズして、効率的にナレッジベースを管理・最適化する方法を解説します。
インターフェースの状態
オーケストレーションキャンバスに入ると、次の状態を確認できます。
- タブの状態: 「Documents(ドキュメント)」「Retrieval Test(検索テスト)」「Settings(設定)」タブはグレーアウトされ利用不可です。
- 必要ステップ:パイプラインのオーケストレーションと公開が完了しないと、ファイルアップロードやその他機能は利用できません。
選択したテンプレートによって、初期画面の表示が異なります。
空白ナレッジベースパイプラインを選択した場合は、ナレッジベースノードだけが配置されたキャンバスが表示され、ノード横のガイドの指示に従って作成を進めます。
特定のパイプラインテンプレートを選択した場合は、あらかじめワークフローが組まれた状態でキャンバスに表示され、すぐに利用・編集が可能です。
ナレッジパイプラインの全体プロセス
まず、ナレッジパイプラインにおける処理プロセスを分解し、ドキュメントがどのように検索可能なナレッジベースへと変換されるのかを理解しましょう。
ナレッジパイプラインは、以下の主要なステップから構成されます:
データソース → データ処理(抽出器+分割器)→ ナレッジベースノード(分割構造+検索設定)→ ユーザー入力フォーム → テスト&公開
- データソース:さまざまな情報源(ローカルファイル、Notion、Webページなど)からのコンテンツ
- データ処理:データ内容の加工と変換
- 抽出器(Extractor):ドキュメントの解析・構造化
- 分割器(Chunker):構造化された内容を扱いやすい断片に分割
- ナレッジベース:分割構造と検索設定の構築
- ユーザー入力フォーム:ユーザーがパイプライン実行時に必要なパラメータや情報を入力するための定義
- テスト&公開:設定の検証および運用開始
ステップ1:データソースの設定
ナレッジベースには、単一または複数のデータソースを選択できます。現在、Difyでは主に4種類のデータソースをサポートしています:ファイルアップロード、クラウドストレージ、オンラインドキュメント、Webクローラー。
さらに多様なデータソースについては、Dify Marketplaceをご参照ください。
ファイルアップロード
ローカルファイルはドラッグ&ドロップまたはファイル選択でアップロードできます。
設定オプション| 項目 | 説明 |
|---|
| ファイル形式 | PDF、XLSX、DOCXなどに対応。ユーザーは選択をカスタマイズできます |
| アップロード方法 | ドラッグ&ドロップまたはファイル選択でローカルファイルやフォルダをアップロード。バッチアップロード対応 |
制限事項| 項目 | 説明 |
|---|
| ファイル数 | 1回あたり最大50ファイルまで |
| ファイルサイズ | 1ファイルあたり最大15MB |
| ストレージ | SaaSサブスクリプションプランによりアップロード上限やストレージ容量が異なる場合があります |
出力変数| 出力変数 | 形式 |
|---|
{x} Document | 単一ドキュメント |
オンラインドキュメント
Notion
Notionワークスペースと連携し、ページやデータベースをシームレスにインポート可能です。ナレッジベースは常に自動で最新状態に保たれます。
設定オプション| 項目 | オプション | 出力変数 | 説明 |
|---|
| Extractor | 有効 | {x} Content | 構造化・処理済み情報 |
| 無効 | {x} Document | オリジナルテキスト |
Webクローラー
Webコンテンツを大規模言語モデルでも読みやすい形式に変換します。ナレッジベースはJina ReaderとFirecrawlをサポートしています。
Jina Reader
シンプルかつ使いやすいAPIを提供するオープンソースのWeb解析ツールです。Webコンテンツの高速クロールと処理に適しています。
パラメータ設定| パラメータ | 種類 | 説明 |
|---|
| URL | 必須 | 対象Webページのアドレス |
| サブページのクロール | 任意 | リンク先ページもクロールするか |
| サイトマップ使用 | 任意 | サイトマップを利用してクロール |
| 制限 | 必須 | クロールする最大ページ数 |
| Extractor有効化 | 任意 | データ抽出方式の選択 |
Firecrawl
きめ細かなクロール制御オプションとAPIサービスを持つオープンソースのWeb解析ツールです。複雑なサイトの深層クロールやバッチ処理に適しています。
パラメータ設定| パラメータ | 種類 | 説明 |
|---|
| URL | 必須 | 対象Webページのアドレス |
| 制限 | 必須 | クロールする最大ページ数 |
| サブページクロール | 任意 | リンク先ページもクロールするか |
| 最大深度 | 任意 | 開始URLからクロールする階層の深さ |
| 除外パス | 任意 | クロール対象から除外したいURLパターン |
| 限定パス | 任意 | 指定したパスのみクロール |
| Extractor | 任意 | データ処理方式の選択 |
| 主要コンテンツのみ抽出 | 任意 | ページの主要テキストやメディアのみ抽出 |
クラウドストレージ
Google Drive、Dropbox、OneDriveなどのクラウドストレージサービスと連携し、Difyが自動でファイルを取得します。選択したドキュメントをインポートするだけなので、事前の手動ダウンロードは不要です。
ステップ2:データ処理ツールの設定
このステップでは、コンテンツの抽出、分割、最適なナレッジベース用フォーマットへの変換を行います。これは、料理でいう「食材の下準備」と同じく、後に素早く加工できる状態を整える工程です。
ドキュメントプロセッサ
PDF、XLSX、DOCXなど多様な形式のドキュメントが存在しますが、LLMはこれらをそのまま扱えません。そのため、抽出器(Extractor)が各種ファイルを解析・変換し、LLMが扱いやすい形式に変換します。
Difyのドキュメント抽出器、あるいはMarketplaceから「Dify Extractor」「Unstructured」等のツールを選択できます。
ドキュメント内の画像は、適切なドキュメントプロセッサを使用して抽出できます。抽出された画像は対応するチャンクに添付され、個別に管理でき、検索時にはそのチャンクと一緒に返されます。抽出された画像のURLはチャンクテキスト内に残りますが、テキストをクリーンに保つためにこれらのURLを安全に削除できます。これは抽出された画像には影響しません。各チャンクには最大10枚まで画像を添付できます。これを超える画像は抽出されません。選択したプロセッサで画像が抽出されなかった場合、Difyは以下のMarkdown記法でアクセス可能なURLが参照されている2MB未満のJPG、JPEG、PNG、GIF画像を自動的に抽出します:


セルフホスト環境では、以下の上限を環境変数で調整できます:
-
画像サイズの上限:
ATTACHMENT_IMAGE_FILE_SIZE_LIMIT
-
1チャンクあたりの添付画像数上限:
SINGLE_CHUNK_ATTACHMENT_LIMIT
インデックス設定でVisionアイコン付きのマルチモーダル埋め込みモデルを選択した場合、抽出された画像も埋め込み・インデックス化され、検索対象となります。
情報処理の中核となり、入力変数からファイルを識別・読取・情報抽出を行い、次のノードで利用できる形式へ変換します。
Dify Extractorは、Difyが提供する内蔵ドキュメント解析ツールです。一般的なファイル形式に幅広く対応し、特にDocファイルに最適化されています。画像抽出・保存や、画像URL返却も可能です。
Unstructured
Unstructuredは、高度なカスタマイズ可能性を備えた抽出戦略でドキュメントを機械可読形式へ変換します。抽出戦略(auto、hi_res、fast、OCR-only)や分割方法(by_title、by_page、by_similarity)に柔軟に対応。要素ごとの座標や信頼度、レイアウトなどリッチなメタデータも出力し、企業のドキュメントワークフローや混合タイプファイルの精密な処理に適しています。
分割器(Chunker)
人間が一度に多くの情報を集中して理解できないように、LLMも大量情報の同時処理が苦手です。そのため、分割器は抽出後のドキュメントを小さな「チャンク」と呼ばれる断片に分割します。
用途やドキュメントの種類に応じ、最適な分割戦略が異なります。たとえば製品マニュアルは機能ごと、論文は論理セクションごとが理想的です。Difyでは主に3種類の分割器を用意しています。
分割器の種類概要
| 分割器タイプ | 特徴 | 最適用途 |
|---|
| 汎用分割器 | 固定サイズ分割、区切り文字のカスタマイズ可能 | シンプルなドキュメント |
| 親子分割器 | 二層構造:マッチング精度+豊富なコンテキスト | コンテキスト保持必須な複雑文書 |
| Q&Aプロセッサ | スプレッドシートのQ&Aペア処理 | 構造化Q&Aデータ(CSV/Excel等) |
共通テキスト前処理ルール
すべての分割器で利用できるテキストクリーニングオプション:
| オプション | 説明 |
|---|
| 連続空白・改行・タブの統一 | 連続する空白文字を単一空白へ変換 |
| URL・メールアドレスの削除 | Webリンクやメールアドレスを自動検出し削除 |
汎用分割器(General Chunker)
シンプルな構造の文書向けの基本的な分割モジュールです。テキスト分割や前処理オプションを柔軟にカスタマイズ可能です。
入力と出力変数
| タイプ | 変数 | 説明 |
|---|
| 入力変数 | {x} Content | 分割対象となる文書コンテンツ |
| 出力変数 | {x} Array[Chunk] | 分割済みコンテンツ配列(各要素は検索・分析向け) |
分割設定
| 設定項目 | 説明 |
|---|
| 区切り文字 | デフォルトは\n(段落区切り用改行)。正規表現によるカスタム分割ルールも利用可。テキスト内に区切り文字が出現すると自動的に分割されます。 |
| 最大チャンク長 | 各セグメントの最大文字数。上限超過時は強制分割されます。 |
| チャンク重複 | 分割時にセグメント間で部分重複させることで情報保持・検索精度を向上 |
親子分割器(Parent-child Chunker)
クエリマッチング精度と豊富なコンテキスト両立のため、二層チャンク構造を採用し、RAGシステムにおけるコンテキストと精度の矛盾を解決します。
親子分割器の仕組み
- 子チャンク(高精度マッチング用):ユーザーのクエリに高精度でマッチングするための小さく精密な情報セグメント(通常、1文ごと)
- 親チャンク(豊富なコンテキスト):該当する子チャンクを含む広い範囲のコンテンツブロック(段落、セクション、またはドキュメント全体)で、大規模言語モデル(LLM)に包括的な背景情報を提供
| タイプ | 変数 | 説明 |
|---|
| 入力変数 | {x} Content | 分割対象となる文書コンテンツ |
| 出力変数 | {x} Array[ParentChunk] | 親チャンク配列 |
分割設定
| 設定項目 | 説明 |
|---|
| 親チャンク区切り文字 | 親チャンクの分割ルール設定 |
| 親チャンク最大長 | 親チャンクの最大文字数 |
| 子チャンク区切り文字 | 子チャンク分割ルール |
| 子チャンク最大長 | 子チャンクの最大文字数 |
| 親モード | 「段落」(テキストを段落に分割)または「全文書」(ドキュメント全体を親チャンクとして直接検索に使用)いずれか選択 |
Q&Aプロセッサ
抽出&分割を1ノードで実施。FAQやQ&Aペアをテーブルとして持つCSV/Excelファイル専用です。
入出力変数
| タイプ | 変数 | 説明 |
|---|
| 入力変数 | {x} Document | 単一ファイル |
| 出力変数 | {x} Array[QAChunk] | Q&Aチャンク |
変数設定
| 設定項目 | 説明 |
|---|
| 質問用カラム番号 | 質問として設定するコンテンツ列 |
| 回答用カラム番号 | 回答として設定する列 |
ステップ3:ナレッジベースノードの設定
ドキュメントの処理・分割が完了したら、保存や検索の方法を設定します。ここでは、インデックス作成方法や検索戦略を用途に応じて選択可能です。
本ノードの設定項目は、入力変数、チャンク構造、インデックス方式、検索設定となります。
チャンク構造
チャンク構造は、ナレッジベースが文書コンテンツをどう整理・インデックス化するかを定めます。ドキュメントタイプ、用途、コストに適したモードを選択してください。
ナレッジベースは3つのチャンクモードをサポートします:汎用モード、親子モード、Q&Aモード。初めてナレッジベースを作成する場合は親子モードが推奨されます。
重要: チャンク構造は一度保存・公開すると変更できません。慎重にご選択ください。
汎用モード
標準的なドキュメント処理に最適です。柔軟なインデックスオプションを提供し、品質やコストの異なる要件に応じて適切なインデックス方法を選択できます。
汎用モードは高品質とコスト効率の両方のインデックス方法、および各種検索設定をサポートします。
親子モード
検索時の高精度マッチングと対応するコンテキスト情報を提供し、完全なコンテキストを維持する必要がある専門ドキュメントに適しています。
親子モードはHQ(高品質)モードのみ対応で、クエリマッチング用の子チャンクと検索時のコンテキスト情報用の親チャンクを提供します。
Q&Aモード
構造化された質問回答データを使用する際に、質問と回答をペアにしたドキュメントを作成します。これらのドキュメントは質問部分に基づいてインデックス化され、クエリの類似性に基づいて関連する回答を検索できます。
Q&AモードはHQ(高品質)モードのみ対応です。
入力変数
入力変数はデータ処理ノードからの処理結果をナレッジベースのデータソースとして受け取ります。分割器の出力をナレッジベースノードへ入力として接続する必要があります。
ノードは選択したチャンク構造に基づいて異なるタイプの標準入力をサポートします:
- 汎用モード:x Array[Chunk] - 汎用チャンク配列
- 親子モード:x Array[ParentChunk] - 親チャンク配列
- Q&Aモード:x Array[QAChunk] - Q&Aチャンク配列
インデックス方法と検索設定
インデックス方法はナレッジベース内のコンテンツインデックスの構築方法を決定し、検索設定は選択したインデックス方法に基づいた対応する検索戦略を提供します。
つまり、インデックス方法はドキュメントの整理方法を決定し、検索設定はユーザーがドキュメントを見つけるために使用できる方法を指定します。
ナレッジベースでは高品質とコスト効率の2つのインデックス方法があり、それぞれ異なる検索設定オプションを提供します。
高品質モードでは、埋め込みモデルを使用してチャンクを数値ベクトルに変換し、大量の情報をより効果的に圧縮・保存できます。これにより、ユーザーの質問の言い回しがドキュメントと完全に一致しなくても、意味的に関連する正確な回答をシステムが見つけることができます。
クロスモーダル検索(テキストと画像を意味的関連性に基づいて取得)を有効にするには、Visionアイコン付きのマルチモーダル埋め込みモデルを選択してください。ドキュメントから抽出された画像も埋め込み・インデックス化され、検索対象となります。このような埋め込みモデルを使用するナレッジベースは、カード上でMultimodalと表示されます。
コスト効率モードでは、各ブロックは10個のキーワードで検索用にインデックス化され、埋め込みモデルを呼び出さないためコストは発生しません。
| インデックス方法 | 利用可能な検索設定 | 説明 |
|---|
| 高品質 | ベクトル検索 | 意味的類似性に基づいてクエリの深い意味を理解 |
| 全文検索 | キーワードベースの包括的検索機能を提供 |
| ハイブリッド検索 | 意味検索とキーワード検索を組み合わせ |
| コスト効率 | 逆引きインデックス | 一般的な検索エンジン検索方式で、クエリを主要コンテンツとマッチング |
選択した埋め込みモデルがマルチモーダルの場合は、Visionアイコンが表示されたマルチモーダルリランキングモデルも選択してください。そうでない場合、検索された画像は再ランクおよび検索結果から除外されます。
チャンク構造、インデックス方法、パラメータ、検索設定の構成については、以下の表もご参照ください。
| チャンク構造 | インデックス方法 | パラメータ | 検索設定 |
|---|
| 汎用モード | 高品質 コスト効率 | 埋め込みモデル キーワード数 | ベクトル検索 全文検索 ハイブリッド検索 逆引きインデックス |
| 親子モード | 高品質のみ | 埋め込みモデル | ベクトル検索 全文検索 ハイブリッド検索 |
| Q&Aモード | 高品質のみ | 埋め込みモデル | ベクトル検索 全文検索 ハイブリッド検索 |
サマリー自動生成
すべてのチャンクに対してサマリーを自動生成し、検索性を向上させます。
サマリーも埋め込み・インデックス化され、検索対象となります。サマリーがクエリにマッチした場合、対応するチャンクも返されます。
自動生成されたサマリーは後から手動で編集したり、特定のドキュメントに対して再生成することができます。詳細はナレッジコンテンツの管理をご参照ください。
ビジョン対応のLLMを選択した場合、サマリーはチャンクテキストと添付画像の両方に基づいて生成されます。
ステップ4:ユーザー入力フォームの作成
ユーザー入力フォームは、パイプラインを効果的に実行するために必要な初期情報を収集するために不可欠です。ワークフローのユーザー入力ノードと同様に、このフォームはユーザーから必要な詳細情報(アップロードするファイル、ドキュメント処理の特定パラメータなど)を収集し、パイプラインが正確な結果を提供するために必要なすべての情報を確保します。
これにより、さまざまなユースケースシナリオに特化した入力フォームを作成でき、さまざまなデータソースやドキュメント処理ステップに対するパイプラインの柔軟性と使いやすさを向上できます。
フォームの作成方法
ユーザー入力フィールドを作成する方法は2つあります:
-
パイプライン構築インターフェース
入力フィールドをクリックして入力フォームの作成と設定を開始します。\
-
ノードパラメータパネル
ノードを選択します。次に、右側パネルのパラメータ入力で、新しい入力項目のために「+ ユーザー入力を作成」をクリックします。新しい入力項目は入力フィールドにも収集されます。
ユーザー入力フィールドの追加
各エントランス固有の入力
これらの入力は各データソースとその下流ノードに固有です。ユーザーは対応するデータソースを選択した場合にのみ、これらのフィールドに入力する必要があります(例:異なるデータソース用の異なるURL)。
作成方法:データソースの右側にある+ボタンをクリックして、その特定のデータソース用のフィールドを追加します。これらのフィールドは、そのデータソースとその後続の接続ノードからのみ参照できます。
すべてのエントランス用のグローバル入力
グローバル共有入力はすべてのノードから参照できます。これらの入力は、区切り文字、最大チャンク長、ドキュメント処理設定など、汎用的な処理パラメータに適しています。ユーザーはどのデータソースを選択しても、これらのフィールドに入力する必要があります。
作成方法:グローバル入力の右側にある+ボタンをクリックして、任意のノードから参照できるフィールドを追加します。
サポートされる入力フィールドタイプ
ナレッジパイプラインは7種類の入力変数をサポートします:
| フィールドタイプ | 説明 |
|---|
| テキスト | ナレッジベースユーザーが入力する短文、最大256文字 |
| 段落 | 長い文字列用の長文テキスト入力欄 |
| セレクト | オーケストレーターが事前設定した固定オプションから選択、ユーザーはカスタムコンテンツを追加不可 |
| ブール値 | true/false値のみ |
| 数値 | 数値入力のみ受付 |
| 単一ファイル | 単一ファイルアップロード、複数のファイルタイプ(ドキュメント、画像、音声、その他のファイルタイプ)をサポート |
| ファイルリスト | 複数ファイルの一括アップロード、複数のファイルタイプ(ドキュメント、画像、音声、その他のファイルタイプ)をサポート |
サポートされるフィールドタイプの詳細については、ユーザー入力をご参照ください。
フィールド設定オプション
すべての入力フィールドタイプには、必須、任意、および追加設定があります。適切なオプションをチェックしてフィールドを必須にするかどうかを設定できます。
| 設定 | 名称 | 説明 | 例 |
|---|
| 必須設定 | 変数名 | 内部システム識別子、通常は英語とアンダースコアで命名 | user_email |
| 表示名 | インターフェース表示名、通常は簡潔で読みやすいテキスト | ユーザーメール |
| タイプ固有設定 | | 異なるフィールドタイプの特別な要件 | テキストフィールドの最大長100文字 |
| 追加設定 | デフォルト値 | ユーザーが入力していない場合のデフォルト値 | 数値フィールドのデフォルトは0、テキストフィールドのデフォルトは空 |
| プレースホルダー | 入力ボックスが空のときに表示されるヒントテキスト | 「メールアドレスを入力してください」 |
| ツールチップ | ユーザー入力をガイドする説明テキスト、通常はマウスホバー時に表示 | 「有効なメールアドレスを入力してください」 |
| 特殊任意設定 | | 異なるフィールドタイプに基づく追加設定オプション | メール形式のバリデーション |
設定完了後、右上のプレビューボタンをクリックしてフォームプレビューインターフェースを閲覧できます。フィールドのグループ化をドラッグして調整できます。感嘆符が表示された場合は、移動後に参照が無効になっていることを示します。
ステップ5:ナレッジベースの命名
デフォルトのナレッジベース名は「Untitled+番号」、権限は「自分のみ」、アイコンはオレンジ色の書籍です。DSLファイルからインポートした場合は保存されたアイコンが使用されます。
左パネルの設定をクリックし、以下の情報を入力してください:
- 名前とアイコン
ナレッジベースの名前を決定します。
絵文字を選択、画像をアップロード、または画像URLを貼り付けてこのナレッジベースのアイコンとして設定できます。
- ナレッジベース説明
ナレッジベースの簡単な説明を入力してください。これによりAIがデータをより適切に理解し検索できるようになります。空のままにすると、Difyはデフォルトの検索戦略を適用します。
- 権限
ドロップダウンメニューから適切なアクセス権限を選択してください。
ステップ6:テスト
いよいよ最終工程です!これがナレッジパイプラインオーケストレーションの最終ステップです。
オーケストレーションが完了したら、まずすべての設定を検証する必要があります。次に、いくつかの実行テストを行い、すべての設定を確認します。最後に、ナレッジパイプラインを公開します。
設定完全性チェック
テスト前に、設定の不備によるテスト失敗を避けるため、設定の完全性をチェックすることをお勧めします。
右上のチェックリストボタンをクリックすると、システムが不足している部分を表示します。
すべての設定が完了したら、テスト実行を通じてナレッジベースパイプラインの動作をプレビューし、すべての設定が正確であることを確認してから、公開に進みます。
テスト実行
- テスト開始:右上の「テスト実行」ボタンをクリック
- テストファイルインポート:右側にポップアップするデータソースウィンドウでファイルをインポート
重要: デバッグと観察を容易にするため、テスト実行ごとに1ファイルのみアップロード可能です。
- パラメータ入力:インポート成功後、先に設定したユーザー入力フォームに従って対応するパラメータを入力
- テスト実行開始:次のステップをクリックしてパイプライン全体のテストを開始
テスト中は、履歴ログ(タイムスタンプ、実行ステータス、入出力サマリーを含むすべての実行記録を追跡)と変数インスペクタ(各ノードの入出力データを表示し、問題の特定とデータフローの検証を支援するダッシュボード)にアクセスして、効率的なトラブルシューティングとエラー修正を行えます。