Dify Docs home page
简体中文
Search...
⌘K
Ask AI
Blog
Dify
Dify
Search...
Navigation
创建知识库
创建步骤
使用文档
插件开发
访问 API
资源
入门
欢迎使用 Dify
云服务
Dify 社区版
Dify Premium
Dify 教育版
访问 API
手册
接入大模型
构建应用
工作流
知识库
功能简介
创建知识库
创建步骤
1. 导入文本数据
2. 指定分段模式
3. 设定索引方法与检索设置
管理知识库
元数据
在应用内集成知识库
召回测试/引用归属
知识库请求频率限制
连接外部知识库
外部知识库 API
工具
发布
标注
监测
扩展
协同
管理
动手实验室
简介
初级
中级
社区
寻求支持
成为贡献者
为 Dify 文档做出贡献
插件
功能简介
快速开始
插件管理
接口定义
最佳实践
发布插件
常见问题
研发
DifySandbox
模型接入
迁移
阅读更多
应用案例
扩展阅读
常见问题
政策
开源许可
用户协议
On this page
参考阅读
ETL
Embedding
元数据
创建知识库
创建步骤
Copy page
创建知识库并上传文档大致分为以下步骤:
创建知识库。通过上传本地文件、导入在线数据或创建一个空的知识库。
导入内容数据
通过上传本地文件、导入在线数据或创建一个空的知识库。
指定分段模式。该阶段是内容的预处理与数据结构化过程,长文本将会被划分为多个内容分段。你可以在此环节预览文本的分段效果。
文本分段和清洗
了解文本分段和数据清洗流程
设定索引方法和检索设置。知识库在接收到用户查询问题后,按照预设的检索方式在已有的文档内查找相关内容,提取出高度相关的信息片段供语言模型生成高质量答案。
设置索引方法
了解如何设置索引方法和检索参数
等待分段嵌入
完成上传,在应用内关联知识库并使用。你可以参考
在应用内集成知识库
,搭建出能够基于知识库进行问答的 LLM 应用。如需修改或管理知识库,请参考
知识库管理与文档维护
。
参考阅读
ETL
在 RAG 的生产级应用中,为了获得更好的数据召回效果,需要对多源数据进行预处理和清洗,即 ETL (
extract, transform, load
)。为了增强非结构化/半结构化数据的预处理能力,Dify 支持了可选的 ETL 方案:
Dify ETL
和
Unstructured ETL
。Unstructured 能够高效地提取并转换你的数据为干净的数据用于后续的步骤。Dify 各版本的 ETL 方案选择:
SaaS 版不可选,默认使用 Unstructured ETL;
社区版可选,默认使用 Dify ETL ,可通过
环境变量
开启 Unstructured ETL;
文件解析支持格式的差异:
DIFY ETL
Unstructured ETL
txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv
txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv、eml、msg、pptx、ppt、xml、epub
不同的 ETL 方案在文件提取效果的方面也会存在差异,想了解更多关于 Unstructured ETL 的数据处理方式,请参考
官方文档
。
Embedding
Embedding 嵌入
是一种将离散型变量(如单词、句子或者整个文档)转化为连续的向量表示的技术。它可以将高维数据(如单词、短语或图像)映射到低维空间,提供一种紧凑且有效的表示方式。这种表示不仅减少了数据的维度,还保留了重要的语义信息,使得后续的内容检索更加高效。
Embedding 模型
是一种专门用于将文本向量化的大语言模型,它擅长将文本转换为密集的数值向量,有效捕捉语义信息。
如需了解更多,请参考:
《Dify:Embedding 技术与 Dify 知识库设计/规划》
。
元数据
如需使用元数据功能管理知识库,请参阅
元数据
。
编辑此页面
|
提交问题
Was this page helpful?
Yes
No
功能简介
1. 导入文本数据
Assistant
Responses are generated using AI and may contain mistakes.