Documentation Index
Fetch the complete documentation index at: https://docs.dify.ai/llms.txt
Use this file to discover all available pages before exploring further.
⚠️ このドキュメントは AI によって自動翻訳されています。不正確な部分がある場合は、英語版 を参照してください。
multimodal-Parent-Child と multimodal-General。
マルチモーダルデータ処理用のツールプラグインを開発する際、プラグインの出力するマルチモーダルデータ(テキスト、画像、音声、動画など)がナレッジベースノードで正しく認識・埋め込みされるためには、以下の設定が必要です:
-
ツールコードファイル内で、ツールセッションインターフェースを呼び出してファイルをアップロードし、
filesオブジェクトを構築します。 -
ツールプロバイダーのYAMLファイルで、
output_schemaをmultimodal-Parent-Childまたはmultimodal-Generalとして宣言します。
ファイルのアップロードとファイルオブジェクトの構築
マルチモーダルデータ(画像など)を処理する際は、まずDifyのツールセッションツールを使用してファイルをアップロードし、ファイルのメタデータを取得する必要があります。 以下の例では、Dify公式プラグイン Dify Extractor を使用して、ファイルのアップロードとfiles オブジェクトの構築方法を示します。
UploadFileResponse オブジェクトを返します。その構造は以下の通りです:
name、size、extension、mime_type など)をマルチモーダル出力構造の files フィールドにマッピングできます。
マルチモーダル出力構造の宣言
マルチモーダルデータの構造は、Dify公式が提供するJSON Schemaによって定義されています。 ナレッジベースノードがプラグインのマルチモーダル出力タイプを認識できるようにするためには、プラグインプロバイダーのYAMLファイルでoutput_schema の result フィールドを対応する公式Schema URLに指定する必要があります。
multimodal-Parent-Child の例として、完全なYAML設定は以下の通りです: