Skip to main content
このドキュメントは AI によって自動翻訳されています。不正確な部分がある場合は、英語版 を参照してください。
前回の実験では、ファイルアップロードの基本的な使い方を学びました。しかし、読み込む必要のあるテキストが LLM のコンテキストウィンドウを超える場合、知識ベースを使用する必要があります。
コンテキストとは? コンテキストウィンドウとは、LLM がテキストを処理する際に「見る」ことができ、「記憶」できるテキストの範囲を指します。これは、モデルが応答を生成したりテキストを続ける際に、どれだけの過去のテキスト情報を参照できるかを決定します。ウィンドウが大きいほど、モデルはより多くの文脈情報を利用でき、生成されるコンテンツは通常より正確で一貫性があります。
以前、LLM の幻覚の概念について学びました。多くの場合、LLM 知識ベースによりエージェントは正確な情報を見つけることができ、質問に正確に答えることができます。カスタマーサービスや検索ツールなどの特定分野での応用があります。 従来のカスタマーサービスボットは、多くの場合キーワード検索に基づいています。ユーザーがキーワード外の質問を入力すると、ボットは問題を解決できません。知識ベースはこの問題を解決するために設計されており、セマンティックレベルの検索を可能にし、人間のエージェントの負担を軽減します。 実験を始める前に、知識ベースの核心は検索であり、LLM ではないことを覚えておいてください。LLM は出力プロセスを強化しますが、本当の必要性は依然として回答を生成することです。

この実験で学ぶこと

  • チャットフローの基本的な使い方
  • 知識ベースと外部知識ベースの使用方法
  • 埋め込みの概念

前提条件

アプリケーションの作成

Dify で、空白から作成 - チャットフロー を選択します。

モデルプロバイダーの追加

この実験では埋め込みモデルを使用します。現在サポートされている埋め込みモデルプロバイダーには、OpenAI と Cohere が含まれます。Dify のモデルプロバイダーで、TEXT EMBEDDINGラベルがあるものがサポートされています。少なくとも 1 つを追加し、十分な残高があることを確認してください。
この実験では埋め込みモデルを使用します
埋め込みとは? 「埋め込み」は、離散変数(単語、文、または文書全体など)を連続ベクトル表現に変換する技術です。 簡単に言えば、自然言語をデータに処理する際、テキストをベクトルに変換します。このプロセスを埋め込みと呼びます。意味的に類似したテキストのベクトルは近くになり、意味的に反対のテキストのベクトルは離れます。LLM はこのデータを使用してトレーニングを行い、後続のベクトルを予測し、テキストを生成します。

知識ベースの作成

Dify にログイン -> 知識 -> 知識を作成 Dify は 3 つのデータソースをサポートしています:ドキュメント、Notion、ウェブページ。 ローカルテキストファイルの場合、ファイルの種類とサイズ制限に注意してください。Notion コンテンツの同期には Notion アカウントのバインドが必要です。ウェブサイトの同期には Jina または Firecrawl API を使用する必要があります。 まずローカルドキュメントのアップロードを例として始めます。

チャンク設定

ドキュメントをアップロードすると、次のページが表示されます:
右側にセグメンテーションプレビューが表示されます。デフォルトでは自動セグメンテーションとクリーニングが選択されています。Dify はコンテンツに基づいて記事を自動的に多くの段落に分割します。カスタム設定で他のセグメンテーションルールを設定することもできます。

インデックス方法

通常は 高品質 を選択することが好まれますが、これは追加のトークンを消費します。経済的 を選択するとトークンを消費しません。

埋め込みモデル

使用前にモデルプロバイダーのドキュメントと価格情報を参照してください。 異なる埋め込みモデルは異なるシナリオに適しています。例えば、Cohere のembed-englishは英語ドキュメントに適しており、embed-multilingualは多言語ドキュメントに適しています。

検索設定

Dify は 3 つの検索機能を提供しています:ベクトル検索、全文検索、ハイブリッド検索。ハイブリッド検索が最もよく使用されます。 ハイブリッド検索では、重みを設定したり、再ランキングモデルを使用したりできます。重みを設定する際、検索がセマンティクスとキーワードのどちらをより重視すべきかを設定できます。例えば、下の画像では、セマンティクスが重みの 70% を占め、キーワードが 30% を占めています。
保存して処理 をクリックするとドキュメントが処理されます。処理後、ドキュメントはアプリケーションで使用できます。
保存して処理をクリックするとドキュメントが処理されます

ウェブサイトからの同期

多くの場合、ヘルプドキュメンテーションに基づいてスマートカスタマーサービスボットを構築する必要があります。Dify を例として、Dify ヘルプドキュメンテーションを知識ベースに変換できます。 現在、Dify は最大 50 ページの処理をサポートしています。数量制限に注意してください。超過した場合は、新しい知識ベースを作成できます。

知識ベースコンテンツの調整

知識ベースがすべてのドキュメントを処理した後、知識ベース内のセグメンテーションの一貫性を確認することが最善です。不一致は検索効果に影響し、手動で調整する必要があります。 ドキュメントコンテンツをクリックして、セグメント化されたコンテンツを閲覧します。無関係なコンテンツがある場合は、無効化または削除できます。 コンテンツが別の段落にセグメント化されている場合も、元に戻す必要があります。

召回テスト

知識ベースのドキュメントページで、左サイドバーの召回テストをクリックしてキーワードを入力し、検索結果の精度をテストします。

ノードの追加

作成した APP に入り、スマートカスタマーサービスボットの構築を始めましょう。

質問分類ノード

異なるユーザーニーズを分離するために質問分類ノードを使用する必要があります。場合によっては、ユーザーが無関係な話題についてチャットすることもあるため、これに対しても分類を設定する必要があります。 分類をより正確にするために、より良い LLM を選択する必要があり、分類は十分に具体的で十分な区別がある必要があります。 参考分類は以下の通りです:
  • ユーザーが無関係な質問をする
  • ユーザーが Dify 関連の質問をする
  • ユーザーが技術用語の説明を求める
  • ユーザーがコミュニティへの参加について尋ねる
ユーザーがコミュニティへの参加について尋ねる

直接返信ノード

質問分類では、「ユーザーが無関係な質問をする」と「ユーザーがコミュニティへの参加について尋ねる」は LLM 処理を必要とせず返信できます。したがって、これら 2 つの質問の後に直接返信ノードを直接接続できます。 「ユーザーが無関係な質問をする」: ユーザーをヘルプドキュメンテーションに誘導し、自分で問題を解決しようとしてもらうことができます。例えば:
申し訳ございませんが、ご質問にお答えできません。さらにヘルプが必要な場合は、[ヘルプドキュメンテーション](https://docs.dify.ai)をご確認ください。
Dify は Markdown 形式のテキスト出力をサポートしています。Markdown を使用して出力のテキスト形式を豊かにできます。Markdown を使用してテキスト内に画像を挿入することもできます。

知識検索ノード

「ユーザーが Dify 関連の質問をする」の後に知識検索ノードを追加し、使用する知識ベースをチェックします。

LLM ノード

知識検索ノードの次のノードでは、知識ベースから取得したコンテンツを整理するための LLM ノードを選択する必要があります。 LLM はユーザーの質問に基づいて返信を調整し、返信をより適切にする必要があります。 コンテキスト:知識検索ノードの出力を LLM ノードのコンテキストとして使用する必要があります。 システムプロンプト:{{context}}に基づいて、{{user question}}に答えてください。
システムプロンプト
プロンプト作成エリアで/または{を使用して変数を参照できます。変数では、sys.で始まる変数はシステム変数です。詳細はヘルプドキュメンテーションを参照してください。 さらに、LLM メモリを有効にして、ユーザーの会話体験をより一貫性のあるものにすることができます。

質問 1:外部知識ベースの接続方法

知識ベース機能では、AWS Bedrock 知識ベースなどの外部知識ベース API を通じて外部知識ベースに接続できます。

質問 2:API を通じて知識ベースを管理する方法

知識ベース API を通じて知識ベースの追加、削除、ステータスのクエリができます。
知識ベースがデプロイされているインスタンスで、知識ベース -> API に移動し、API キーを作成します。API キーは安全に保管してください。

質問 3:カスタマーサービスボットをウェブページに埋め込む方法

アプリケーションのデプロイ後、ウェブページ埋め込みを選択し、適切な埋め込み方法を選択して、コードをウェブページの適切な場所に貼り付けます。
Last modified on June 25, 2026