Documentation Index
Fetch the complete documentation index at: https://docs.dify.ai/llms.txt
Use this file to discover all available pages before exploring further.
⚠️ 本文档由 AI 自动翻译。如有任何不准确之处,请参考 英文原版。
multimodal-Parent-Child 和 multimodal-General。
开发用于多模态数据处理的工具插件时,若希望插件输出的多模态数据(如文字、图片、音视频等)能够被知识库节点正确识别并向量化,需要完成以下配置:
-
在工具代码中,调用接口上传并构造文件对象
files。 -
在工具提供者 YAML 文件中,将
output_schema声明为multimodal-Parent-Child或multimodal-General。
上传并构造文件对象
在处理多模态数据(如图片)时,需要先通过 Dify 的工具会话接口上传文件,以获取文件元数据。 下面以 Dify 官方插件 Dify Extractor 为例,展示如何上传文件并构造文件对象。UploadFileResponse 对象,包含文件的基本信息:
name, size, extension, mime_type 等)映射到多模态输出结构中的 files 字段。
声明多模态输出结构
多模态数据的结构由 Dify 官方提供的 JSON Schema 定义。 为了让知识库节点识别插件的多模态输出类型,需在插件的提供者 YAML 文件中将output_schema 的 result 字段指向对应的官方 Schema URL。
multimodal-Parent-Child 为例,一个完整的 YAML 文件配置如下: