维护知识库内文档
Last updated
Last updated
知识库是文档的集合。文档支持本地上传,或导入其它在线数据源。知识库内的文档对应数据源中的一个文件单位,例如 Notion 库内的一篇文档或新的在线文档网页。
点击“知识库” → “文档列表” → “添加文件”,在已创建的知识库内上传新的文档。
启用:处于正常使用状态的文档,支持编辑内容与被知识库检索。对于已被禁用的文档,允许重新启用。已归档的文档需撤销归档状态后才能重新启用。
禁用:对于不希望在使用 AI 应用时被检索的文档,可以关闭文档右侧的蓝色开关按钮以禁用文档。禁用文档后,仍然可以编辑当前内容。
归档:对于一些不再使用的旧文档数据,如果不想删除可以将其归档。归档后的数据就只能查看或删除,无法重新编辑。你可以在知识库文档列表,点击归档按钮;或在文档详情页内进行归档。归档操作支持撤销。
删除:⚠️ 危险操作。对于一些错误文档或明显有歧义的内容,可以点击文档右侧菜单按钮中的删除。删除后的内容将无法被找回,请进行谨慎操作。
以上选项均支持选中多个文档后批量操作。
注意:
如果你的知识库中有部分文档长时间未更新或未检索时,为了确保知识库的高效运行,系统会暂时禁用这部分不活跃的文档。
对于 Sandbox/Free 版本用户,未使用知识库的将在 7 天后自动禁用;
对于 Professional/Team 版本用户,未使用知识库的将在 30 天后自动禁用。
你随时可以前往知识库中重新启用它们以恢复正常使用。付费用户可以使用 “一键恢复” 功能快速启用所有被禁用的文档。
知识库内已上传的每个文档都会以文本分段(Chunks)形式进行存储。点击文档标题,在详情页中查看当前文档的分段列表,每页默认展示 10 个区块,你可以在网页底部调整每页的展示数量。
每个内容区块展示前 2 行的预览内容。若需要查看更加分段内的完整内容,轻点“展开分段”按钮即可查看。
你可以通过筛选栏快速查看所有已启用 / 未启用的文档。
不同的文本分段模式对应不同的文本分段查看方式:
文档分段对于知识库应用的问答效果有明显影响,在将知识库与应用关联之前,建议人工检查分段质量。
通过字符长度、标识符或者 NLP 语义分段等机器自动化的分段方式虽然能够显著减少大规模文本分段的工作量,但分段质量与不同文档格式的文本结构、前后文的语义联系都有关系,通过人工检查和订正可以有效弥补机器分段在语义识别方面的缺点。
检查分段质量时,一般需要关注以下几种情况:
过短的文本分段,导致语义缺失;
过长的文本分段,导致语义噪音影响匹配准确性;
明显的语义截断,在使用最大分段长度限制时会出现强制性的语义截断,导致召回时缺失内容;
知识库中的文档支持单独添加文本分段,不同的分段模式对应不同的分段添加方法。
添加文本分段为付费功能,请前往此处升级账号以使用功能。
通用模式
点击分段列表顶部的 “添加分段” 按钮,可以在文档内自行添加一个或批量添加多个自定义分段。
手动添加文本分段时,你可以选择添加正文和关键词。内容填写后,勾选尾部 “连续新增” 钮后,可以继续添加文本。
批量添加分段时,你需要先下载 CSV 格式的分段上传模板,并按照模板格式在 Excel 内编辑所有的分段内容,再将 CSV 文件保存后上传。
通用模式
你可以对已添加的分段内容直接进行编辑或修改,包括修改分段内的文本内容或关键词。
为避免遗忘导致的重复编辑,编辑后内容区块将出现“已编辑”标签提示。
已创建的知识库支持重新配置文档分段。
较大分段
可在单个分段内保留更多上下文,适合需要处理复杂或上下文相关任务的场景。
分段数量减少,从而降低处理时间和存储需求。
较小分段
提供更高的粒度,适合精确提取或总结文本内容。
减少超出模型 token 限制的风险,更适配限制严格的模型。
你可以访问 分段设置,点击 保存并处理 按钮以保存对分段设置的修改,并重新触发当前文档的分段流程。 当你保存设置并完成嵌入处理后,文档的分段列表将自动更新,无需手动刷新页面。
除了用于标记不同来源文档的元数据信息,例如网页数据的标题、网址、关键词、描述等。元数据将被用于知识库的分段召回过程中,作为结构化字段参与召回过滤或者显示引用来源。