知识库

大语言模型的训练数据一般基于公开的数据,且每一次训练需要消耗大量算力,这意味着模型的知识一般不会包含私有领域的知识,同时在公开知识领域存在一定的滞后性。为了解决这一问题,目前通用的方案是采用 RAG(检索增强生成)技术,使用用户问题来匹配最相关的外部数据,将检索到的相关内容召回后作为模型提示词的上下文来重新组织回复。

想要了解更多 ,请查看扩展阅读内的检索增强生成(RAG)

Dify 的知识库功能将 RAG 管线上的各环节可视化,提供了一套简单易用的用户界面来方便应用构建者管理个人或者团队的知识库,并能够快速集成至 AI 应用中。你只需准备文本内容,例如:

  • 长文本内容(TXT、Markdown、DOCX、HTML、JSONL 甚至是 PDF 文件)

  • 结构化数据(CSV、Excel 等)

另外,我们正在逐步支持从诸多数据源同步数据至数据集,包括:

  • 网页

  • Notion

  • Github

  • 数据库

  • ……

情景:如果你的公司想基于现有知识库和产品文档建立一个 AI 客服助手,你可以在 Dify 中将文档上传至数据集,并建立一个对话型应用。这在过去可能需要花费你数周的时间,且难以持续维护。

知识库与文档

在 Dify 中,知识库(Knowledge)是一些文档(Documents)的集合。一个知识库可以被整体集成至一个应用中作为检索上下文使用。文档可以由开发者或运营人员上传,或由其它数据源同步(通常对应数据源中的一个文件单位)。

Last updated