作者:Steven Lynn。Dify Technical Writer。上一个实验中,我们学习了文件上传的基本用法。然而,当我们需要读取的文本超出 LLM 的上下文窗口时,就需要用到知识库了。
什么是上下文? 上下文窗口是指 LLM 在处理文本时能够“看到”和“记住”的文字范围。它决定了模型在生成回答或继续文本时,能够参考多少之前的文字信息。窗口越大,模型能利用的上下文信息越多,生成的内容通常更准确和连贯。在之前,我们了解到 LLM 的幻觉的概念,很多情况下 LLM 知识库可以让 Agent 从中定位到准确的信息,从而准确地回答问题。在一些特定领域,比如客服、检索工具等有应用。 传统的客服机器人往往是基于关键词检索的,当用户输入了关键词以外的问题,机器人就无法解决。知识库正是为了解决这样一个问题,能够做到语义级别上的检索,降低人工的负担。 在实验开始之前,请记住知识库的核心是检索而非 LLM,是 LLM 增强了输出的过程,但真正的需求仍然是生成答案。
TEXT EMBEDDING
,请确保至少添加了一个并且有充足余额。
什么是 embedding? ” Embedding “是一种将离散型变量(如单词、句子或者整个文档)转化为连续的向量表示的技术。 直白地说,在我们将自然语言处理为数据时会将文本转为向量,这个过程被称作 embedding。语义相似的文本的向量会位置相近,语义相反的文本的向量位置相反。LLM 使用这样的数据做训练,预测出后续的向量,从而生成文本。
embed-english
适用于英语文档,embed-multilingual
适用于多语言文档。
/
或者 {
来引用变量。在变量中,sys.
开头的变量是系统变量,请查询帮助文档相关说明。
此外,你可以打开 LLM 记忆让用户的对话体验更加连贯。