このドキュメントは AI によって自動翻訳されています。不正確な部分がある場合は、英語版 を参照してください。Dify のナレッジベースでは、Jina ReaderやFirecrawlを利用してウェブページをスクレイピングし、解析したデータを Markdown の形式でナレッジベースに取り込むことができます。
Jina Reader や Firecrawl は、オープンソースのウェブページ解析ツールです。ウェブページをクリーンで大規模言語モデル(LLM)が扱いやすい Markdown 形式のテキストに変換します。また、使いやすい API サービスも提供しています。
Firecrawl
Firecrawl の認証情報の設定
右上隅にあるアバターをクリックし、DataSource ページで Firecrawl の認証情報を設定する必要があります。

Firecrawl を使用して Web コンテンツをクロールする
ナレッジベース作成のページで Sync from website を選択し、スクレイピングの対象どしてのウェブページの URL を入力します。 設定項目には、サブページのスクレイピング、スクレイピングするページの上限、ページのスクレイピング深度、ページの除外、指定ページのみのスクレイピング、コンテンツの抽出などが含まれます。設定が完了したら Run をクリックし、解析結果のページをプレビューします。
Jina Reader
Jina Reader の認証情報の設定
右上隅にあるアバターをクリックし、DataSource ページで Jina Reader の認証情報を設定する必要があります。

Jina Reader を使用して Web コンテンツをクロールする
ナレッジベース作成のページで Sync from website を選択し、スクレイピングの対象どしてのウェブページの URL を入力します。

