⚠️ 本文档由 AI 自动翻译。如有任何不准确之处,请参考英文原版。
Jina Reader 和 Firecrawl 均是开源的网页解析工具,能将网页将其转换为干净并且方便 LLM 识别的 Markdown 格式文本,同时提供了易于使用的 API 服务。
Firecrawl
配置 Firecrawl 凭据
点击右上角头像,然后前往 DataSource 页面,点击 Firecrawl 右侧的 Configure 按钮。
使用 Firecrawl 抓取网页内容
在知识库创建页选择 Sync from website,provider 选中 Firecrawl,填入需要抓取的目标 URL。 设置中的配置项包括:是否抓取子页面、抓取页面数量上限、页面抓取深度、排除页面、仅抓取页面、提取内容。完成配置后点击 Run,预览将要被抓取的目标页面链接。
Jina Reader
配置 Jina Reader 凭据
点击右上角头像,然后前往 DataSource 页面,点击 Jina Reader 右侧的 Configure 按钮。
使用 Jina Reader 抓取网页内容
在知识库创建页选择 Sync from website,provider 选中 Jina Reader,填写需要抓取的目标 URL。

