A

エージェント (Agent)

環境情報に基づいて意思決定やタスク実行ができる自律型AIシステムです。Difyプラットフォームでは、エージェントは大規模言語モデルの理解能力と外部ツールとの対話能力を組み合わせ、情報検索、API呼び出し、コンテンツ生成など、単純なものから複雑なものまでの一連の操作を自動的に完了します。

エージェンティックワークフロー (Agentic Workflow)

AIシステムが複数のステップを通じて自律的に複雑な問題を解決できるタスク編成方法です。例えば、エージェンティックワークフローは、まずユーザーの質問を理解し、次に知識ベースを照会し、計算ツールを呼び出し、最後に情報を統合して完全な回答を生成します。これらはすべて人間の介入なしに行われます。

自動音声認識 (ASR, Automatic Speech Recognition)

人間の音声をテキストに変換する技術で、音声対話アプリケーションの基盤となります。この技術により、ユーザーはタイピングではなく話すことでAIシステムと対話でき、音声アシスタント、会議の文字起こし、アクセシビリティサービスなどのシナリオで広く使用されています。

B

思考の骨格 (BoT, Backbone of Thought)

大規模言語モデルの推論に主要な構造を提供する構造化された思考フレームワークです。学術論文の概要や決定木の骨格のように、複雑な問題に対処する際にモデルが明確な思考経路を維持するのに役立ちます。

C

チャンキング (Chunking)

長いテキストを小さなコンテンツブロックに分割する処理技術で、検索システムがより正確に関連情報を見つけることを可能にします。優れたチャンキング戦略は、コンテンツの意味的整合性と言語モデルのコンテキストウィンドウの制限の両方を考慮し、検索と生成の品質を向上させます。

引用と帰属 (Citation and Attribution)

AIシステムが情報源を明確に示すことができる機能で、レスポンスの信頼性と透明性を高めます。システムが知識ベースのコンテンツに基づいて回答を生成する場合、参照されたドキュメント名、ページ番号、URLを自動的に注釈し、ユーザーが情報の出所を理解できるようにします。

思考の連鎖 (CoT, Chain of Thought)

大規模言語モデルがステップバイステップの思考プロセスを表示するように導くプロンプト技術です。例えば、数学の問題を解く場合、モデルははじめに既知の条件をリストアップし、次に推論ステップに従って一つずつ解き、最後に結論に到達します。このプロセス全体が人間の思考に似ています。

D

ドメイン固有言語 (DSL, Domain-Specific Language)

特定のアプリケーションドメイン用に設計されたプログラミング言語または構成形式です。Dify DSLは、YAML形式に基づくアプリケーションエンジニアリングファイル標準で、モデルパラメータ、プロンプト設計、ワークフロー編成など、AIアプリケーションのさまざまな構成を定義するために使用され、非専門的な開発者でも複雑なAIアプリケーションを構築できるようにします。

E

抽出・変換・読み込み (ETL, Extract, Transform, Load)

データ処理の古典的なワークフロー:生データを抽出し、分析に適した形式に変換し、ターゲットシステムに読み込みます。AIドキュメント処理では、ETLはPDFからのテキスト抽出、フォーマットのクリーニング、コンテンツの分割、埋め込みベクトルの計算、最終的にベクトルデータベースへの読み込みを含む場合があり、RAGシステムの準備を整えます。

F

頻度ペナルティ (Frequency Penalty)

頻繁に出現する語彙の生成確率を下げることで出力の多様性を高めるテキスト生成制御パラメータです。値が高いほど、モデルは多様な語彙と表現を使用する傾向があります。値が0の場合、モデルは同じ語彙を再利用することを特に避けません。

関数呼び出し (Function Calling)

大規模言語モデルが特定の関数をいつ呼び出す必要があるかを認識し、必要なパラメータを提供する能力です。例えば、ユーザーが天気について尋ねると、モデルは自動的に天気APIを呼び出し、正しいパラメータ形式(都市、日付)を構築し、APIの返す結果に基づいて応答を生成することができます。

G

一般的なチャンキングパターン (General Chunking Pattern)

文書を相互に独立したコンテンツブロックに分割するシンプルなテキスト分割戦略です。このパターンは、製品マニュアルや百科事典のエントリなど、構造が明確で段落が比較的独立している文書に適しており、各チャンクはコンテキストに大きく依存することなく独立して理解できます。

思考のグラフ (GoT, Graph of Thought)

思考プロセスをネットワーク構造として表現し、概念間の複雑な関係を捉える方法です。線形の思考の連鎖とは異なり、思考のグラフは分岐、循環、複数経路の思考パターンを表現でき、複数の相互関連する要因を持つ複雑な問題の処理に適しています。

H

キーワードマッチングと意味検索の利点を組み合わせ、より包括的な検索結果を提供する検索方法です。例えば、「リンゴの栄養成分」を検索する場合、ハイブリッド検索は「リンゴ」と「栄養」のキーワードを含む文書だけでなく、「果物の健康価値」などの関連する意味概念を議論するコンテンツも見つけることができ、重み付け調整または再ランク付けを通じて最適な結果を選択します。

I

転置インデックス (Inverted Index)

各単語がどの文書に出現するかを記録する検索エンジンのコアデータ構造です。文書からコンテンツを見つける従来のインデックスとは異なり、転置インデックスは語彙から文書を見つけ、全文検索速度を大幅に向上させます。例えば、「人工知能」という用語のインデックスエントリは、この用語を含むすべての文書IDと位置をリストアップします。

K

特定の語彙を含む文書を見つける正確なマッチングに基づく検索方法です。この方法は計算効率が高く、製品モデル、固有名詞、特定のコマンドなど、ユーザーが見つけたい用語を明確に知っているシナリオに適していますが、同義語や関連する概念を使用して表現されたコンテンツを見逃す可能性があります。

知識ベース (Knowledge Base)

AIアプリケーションで構造化された情報を保存し、モデルに専門知識の源を提供するデータベースです。Difyプラットフォームでは、知識ベースはさまざまな文書(PDF、Word、ウェブページなど)を含むことができ、処理されてAI検索に使用され、正確で根拠のある回答を生成するために使用されます。特にドメインエキスパートアプリケーションの構築に適しています。

知識検索 (Knowledge Retrieval)

ユーザーの質問に最も関連する情報を知識ベースから見つけるプロセスであり、RAGシステムの重要な構成要素です。効果的な知識検索は、関連するコンテンツを見つけるだけでなく、返される情報量を制御し、モデルを妨げる可能性のある無関係なコンテンツを避けながら、正確で完全な回答を確保するのに十分な背景を提供します。

L

大規模言語モデル (LLM, Large Language Model)

大量のテキストで訓練され、人間の言語を理解し生成できるAIモデルです。現代のLLM(GPTシリーズ、Claudeなど)は、記事の作成、質問への回答、コードの作成、さらには推論も行うことができます。これらは様々なAIアプリケーションのコアエンジンであり、特に言語理解と生成を必要とするシナリオに適しています。

ローカルモデル推論 (Local Model Inference)

クラウドサービスに依存せずに、ユーザー自身のデバイス上でAIモデルを実行するプロセスです。このアプローチは、より良いプライバシー保護(データがローカル環境を離れない)と低いレイテンシー(ネットワーク転送不要)を提供し、機密データの処理やオフライン作業を必要とするシナリオに適していますが、通常はローカルデバイスの計算能力によって制限されます。

M

サービスとしてのモデル (MaaS, Model-as-a-Service)

プロバイダーがAPIを通じて事前トレーニング済みモデルへのアクセスを提供するクラウドサービスモデルです。ユーザーはモデルのトレーニング、デプロイ、または保守について心配する必要はなく、単にAPIを呼び出して使用料を支払うだけで、AIアプリケーションの開発閾値とインフラコストを大幅に下げます。アイデアの迅速な検証やプロトタイプの構築に適しています。

最大トークン数 (Max_tokens)

モデルが単一の応答で生成する最大文字数を制御するパラメータです。1つのトークンは約4文字または英単語の3/4に相当します。適切な最大トークン数を設定することで、回答の長さを制御し、過度に冗長な出力を避け、必要な情報の完全な表現を確保できます。例えば、簡単な要約は200トークンに設定される場合がありますが、詳細なレポートでは2000トークンが必要になる場合があります。

メモリ (Memory)

AIシステムが過去のインタラクション情報を保存して使用し、複数ターンの会話を一貫して保つ能力です。効果的なメモリメカニズムにより、AIはコンテキスト参照を理解し、ユーザーの好みを記憶し、長期的な目標を追跡できるようになり、これによりパーソナライズされた継続的なユーザーエクスペリエンスを提供し、すでに提供された情報を繰り返し尋ねることを避けます。

メタデータフィルタリング (Metadata Filtering)

ドキュメント属性情報(タイトル、作者、日付、分類タグなど)を利用してコンテンツをフィルタリングする技術です。例えば、ユーザーは特定の日付範囲内の技術文書に検索を制限したり、特定の部署のレポートのみを照会したりして、検索前に範囲を絞り込み、検索効率と結果の関連性を向上させることができます。

マルチモーダルモデル (Multimodal Model)

テキスト、画像、音声などの複数種類の入力データを処理できるモデルです。これらのモデルは従来のAIの単一知覚限界を打破し、画像内容の理解、ビデオシーンの分析、音声感情の認識が可能で、より包括的な情報理解の可能性を創出し、クロスメディア理解を必要とする複雑なアプリケーションシナリオに適しています。

マルチツール呼び出し (Multi-tool-call)

モデルが単一のレスポンスで複数の異なるツールを呼び出す能力です。例えば、「北京と上海の明日の天気を比較し、適切な服装を推奨する」というリクエストを処理する場合、モデルは両都市の天気APIを同時に呼び出し、返された結果に基づいて合理的な提案を提供し、複雑なタスクを処理する効率を向上させます。

マルチパス検索 (Multi-path Retrieval)

複数の検索方法を通じて並行して情報を取得する戦略です。例えば、システムはキーワード検索、セマンティックマッチング、知識グラフクエリを同時に使用し、結果をマージしてフィルタリングすることで、情報検索のカバレッジと精度を向上させ、特に複雑または曖昧なユーザークエリの処理に適しています。

P

親子チャンキング (Parent-Child Chunking)

2レベルのコンテンツブロックを作成する高度なテキスト分割戦略:親ブロックは完全なコンテキストを保持し、子ブロックは正確なマッチングポイントを提供します。システムはまず子ブロックを使用して関連コンテンツの位置を特定し、次に対応する親ブロックを取得して完全な背景を提供し、検索精度とコンテキストの完全性のバランスを取り、研究論文や技術マニュアルなどの複雑な文書の処理に適しています。

存在ペナルティ (Presence Penalty)

言語モデルがコンテンツを繰り返すことを防ぐパラメータ設定です。すでに出現した語彙の生成確率を下げることにより、モデルが新しい表現を探索することを奨励します。パラメータ値が高いほど、モデルが以前に生成したコンテンツを繰り返す可能性が低くなり、AI応答でよく見られる循環的な議論や問題の繰り返し説明を避けるのに役立ちます。

事前定義モデル (Predefined Model)

AIベンダーによってトレーニングされ提供される既製モデルで、ユーザーは自分でトレーニングすることなく直接呼び出すことができます。これらのクローズドソースモデル(GPT-4、Claudeなど)は通常、大規模にトレーニングおよび最適化され、強力で使いやすく、迅速なアプリケーション開発や独立したトレーニングリソースを欠くチームに適しています。

プロンプト (Prompt)

AIモデルに特定の応答を生成するよう導く入力テキストです。よく設計されたプロンプトは出力品質を大幅に向上させ、明確な指示、例の提供、フォーマット要件の設定などの要素を含みます。例えば、異なるプロンプトは同じモデルに学術記事、創造的なストーリー、または技術分析を生成するよう導くことができ、AI出力に影響を与える最も重要な要因の一つとなっています。

Q

Q&Aモード (Q&A Mode)

ドキュメントコンテンツに対して質問-回答のペアを自動生成する特殊なインデックス作成戦略で、「質問から質問」へのマッチングを実現します。ユーザーが質問すると、システムは意味的に類似した事前生成された質問を探し、対応する回答を返します。このモードは特にFAQコンテンツや構造化された知識ポイントに適しており、より正確な質問応答体験を提供します。

R

検索拡張生成 (RAG, Retrieval-Augmented Generation)

外部知識検索と言語生成を組み合わせた技術アーキテクチャです。システムはまず知識ベースからユーザーの質問に関連する情報を検索し、次にこの情報をコンテキストとして言語モデルに提供し、根拠のある正確な回答を生成します。RAGは言語モデルの限られた知識と幻覚問題を克服し、特に最新または専門的な知識を必要とするアプリケーションシナリオに適しています。

推論と行動 (ReAct, Reasoning and Acting)

モデルが思考と操作の実行を交互に行うことができるAIエージェントフレームワークです。問題解決のプロセスでは、モデルはまず現在の状態を分析し、計画を立て、次に適切なツール(検索エンジン、計算機など)を呼び出し、ツールの返す結果に基づいて次のステップを考え、問題が解決されるまで思考-行動-思考のサイクルを形成します。これは複数のステップと外部ツールを必要とする複雑なタスクに適しています。

再ランキング (ReRank)

予備検索結果に対して二次ソートを行い、最終結果の関連性を向上させる技術です。例えば、システムはまず効率的なアルゴリズムを通じて大量の候補コンテンツを迅速に検索し、次により複雑だが精密なモデルを使用してこれらの結果を再評価し並べ替え、最も関連性の高いコンテンツを前に配置することで、検索効率と結果品質のバランスを取ります。

再ランキングモデル (Rerank Model)

検索結果とクエリの関連性を評価し再順序付けするために特別に設計されたモデルです。予備検索とは異なり、これらのモデルは通常より複雑なアルゴリズムを使用し、より多くの意味要素を考慮し、コンテンツがユーザーの意図にどれだけよく一致するかをより正確に判断できます。例えば、Cohere RerankやBGE Rerankerなどのモデルは検索や推薦システムの結果品質を大幅に向上させることができます。

レスポンス形式 (Response_format)

プレーンテキスト、JSON、HTMLなど、モデル出力の構造タイプの指定です。特定のレスポンス形式を設定することで、AI出力がプログラムで処理しやすくなったり、他のシステムに統合しやすくなったりします。例えば、モデルにJSON形式で回答するよう要求すると、出力が一貫した構造を持つことが保証され、フロントエンドアプリケーションが直接解析して表示しやすくなります。

リバースコーリング (Reverse Calling)

プラグインがプラットフォームと対話するための双方向メカニズムで、プラグインがプラットフォーム機能を積極的に呼び出すことを可能にします。Difyでは、これはサードパーティプラグインがAIから呼び出されるだけでなく、ワークフローのトリガーや他のプラグインの呼び出しなど、Difyのコア機能を返りに使用することもできることを意味し、システムの拡張性と柔軟性を大きく向上させます。

検索テスト (Retrieval Test)

知識ベースの検索効果を検証する機能で、開発者がユーザークエリをシミュレートしシステムの返す結果を評価することを可能にします。このテストは開発者がシステムの検索能力の境界を理解し、見逃し検出、誤検出、関連性の低さなどの潜在的な問題を発見して修正するのに役立ち、RAGシステムを最適化するために不可欠なツールです。

S

スコア閾値 (Score Threshold)

検索結果をフィルタリングするための類似度閾値で、設定値を超えるスコアのコンテンツのみが返されます。適切な閾値を設定することで、無関係な情報がモデル生成を妨げることを避け、回答の正確性を向上させることができます。例えば、閾値が0.8(1.0満点中)に設定されている場合、高度に関連性の高いコンテンツのみが採用されますが、情報が不完全になる可能性があります。閾値を下げるとより多くのコンテンツが含まれますがノイズが入る可能性があります。

単純なキーワードマッチングではなく、テキストの意味の理解とマッチングに基づく検索方法です。ベクトル埋め込み技術を使用してテキストを数学的表現に変換し、クエリとドキュメント間の意味的類似性を計算します。この方法は、表現方法は異なるが意味が似ているコンテンツを見つけ、同義語やコンテキスト関係を理解し、さらには言語横断検索をサポートし、特に複雑または自然言語形式のクエリに適しています。

セッション変数 (Session Variables)

複数ターンの対話コンテキスト情報を保存するメカニズムで、AIがコヒーレントな対話を維持することを可能にします。例えば、システムはユーザーの好み(「簡潔な回答」など)、アイデンティティ情報、または対話履歴状態を記憶し、繰り返しの問い合わせを避け、パーソナライズされた体験を提供します。Difyでは、開発者はこれらの変数を定義および管理し、ユーザーを本当に記憶するアプリケーションを構築することができます。

音声からテキスト変換 (STT, Speech-to-Text)

ユーザーの音声入力をテキストデータに変換する技術です。この技術により、ユーザーはタイピングではなく話すことでAIシステムと対話でき、対話の自然さと利便性が向上し、特にモバイルデバイス、運転シナリオ、またはアクセシビリティアプリケーションに適しており、音声アシスタントやリアルタイム文字起こしアプリケーションの基盤となります。

ストリームツール呼び出し (Stream-tool-call)

AIシステムが完全な回答が生成されるのを待たずに、応答を生成しながら外部ツールを呼び出すことができるリアルタイム処理モードです。このアプローチは複雑なタスクの応答速度を大幅に向上させ、ユーザー体験をよりスムーズにし、複数のツール呼び出しを必要とする対話シナリオに適しています。

ストリーミングレスポンス (Streaming Response)

AIシステムがコンテンツをすべて生成し終わるのを待ってから一度に表示するのではなく、生成されたコンテンツをユーザーにリアルタイムで返す応答メカニズムです。このアプローチは特に長い回答に対するユーザーの待機体験を大幅に改善し、ユーザーは部分的なコンテンツをすぐに見て読み始めることができ、人間の会話における即時フィードバックに似たより自然な対話体験を提供します。

T

温度 (Temperature)

通常0-1の間で、言語モデル出力のランダム性を制御するパラメータです。温度が低い(0に近い)ほど、モデル出力はより確定的で保守的になり、高確率の語彙を好み、事実に基づく回答に適しています。温度が高い(1に近い)ほど、出力はより多様で創造的になり、創造的な執筆に適しています。例えば、天気予報では0.1の低温度を使用し、物語創作では0.8の高温度を使用する場合があります。

テキスト埋め込み (Text Embedding)

テキストを数値ベクトルに変換するプロセスで、AIシステムが言語を理解し処理することを可能にします。これらのベクトルは語彙と文の意味特徴を捉え、コンピュータがテキスト間の類似性を測定し、関連コンテンツをクラスタリングし、マッチング情報を検索することを可能にします。異なる埋め込みモデル(OpenAIのtext-embedding-ada-002やCohereのembed-multilingualなど)は異なる言語やアプリケーションシナリオ向けに最適化されています。

ツール呼び出し (Tool Calling)

AIシステムが外部機能を識別し使用する能力で、モデルの能力境界を大幅に拡張します。例えば、言語モデル自体はリアルタイムデータにアクセスできませんが、天気APIを呼び出すことで現在の天気情報を提供できます。データベース照会ツールを呼び出すことで最新の製品在庫を取得でき、計算機を呼び出すことで複雑な計算を実行でき、AIがトレーニングデータ範囲を超える問題を解決できるようになります。

TopK

検索で返される結果の数を制御するパラメータで、類似度が最も高い上位K個のテキストフラグメントを保持するよう指定します。適切なTopK値の設定はRAGシステムのパフォーマンスに不可欠です:値が小さすぎると重要な情報を失う可能性があり、値が大きすぎるとノイズを招き言語モデルの処理負担を増やす可能性があります。例えば、簡単な質問ではTopK=3で十分かもしれませんが、複雑な質問では十分な背景を得るためにTopK=10が必要かもしれません。

核サンプリング (TopP, Nucleus Sampling)

累積確率が閾値Pに達する最も可能性の高い語彙からのみ次の単語を選択するテキスト生成制御方法です。最高確率の単語を固定選択することや完全にランダムな選択とは異なり、TopPは確定性と創造性のバランスを取ります。例えば、TopP=0.9は、モデルが確率の合計が90%を占める語彙のみを考慮し、低確率のオプションを無視することを意味し、完全に予測可能な出力と過度にランダムなコンテンツの両方を避けます。

思考の木 (ToT, Tree of Thought)

複数の推論経路を探索する思考方法で、モデルが異なる視点から問題を分析することを可能にします。人間の「もし…ならば…」という思考パターンに似ており、思考の木はモデルに複数の可能な思考分岐を生成させ、各分岐の実現可能性を評価し、最適な経路を選択して継続することを可能にします。これは試行錯誤や複数の可能性を考慮する必要がある複雑な問題を解決するのに特に適しています。

テキスト音声変換 (TTS, Text-to-Speech)

書かれたテキストを自然な音声に変換する技術で、AIシステムが音声でユーザーとコミュニケーションすることを可能にします。現代のTTSシステムは人間の品質に近い自然な音声を生成でき、複数の言語、音調、感情表現をサポートし、オーディオブック、ナビゲーションシステム、音声アシスタント、アクセシビリティサービスで広く使用され、異なるシナリオやユーザーにより自然な対話体験を提供します。

V

ベクトルデータベース (Vector Database)

ベクトル埋め込みの保存と検索に特化したデータベースシステムで、効率的な意味検索のインフラストラクチャとして機能します。従来のデータベースとは異なり、ベクトルデータベースは高次元ベクトル類似度検索に最適化され、数百万のドキュメントから意味的に類似したコンテンツを迅速に見つけることができます。Pinecone、Milvus、Qdrantなどの一般的なベクトルデータベースは、RAGシステム、推薦エンジン、コンテンツ分析で重要な役割を果たしています。

ベクトル検索 (Vector Retrieval)

テキストベクトル埋め込みの類似性に基づく検索方法で、セマンティック検索の技術的中核を形成します。システムはまずユーザークエリをベクトルに変換し、次に事前計算されたドキュメントベクトルで最も類似したコンテンツを見つけます。この方法は深い意味的関係を捉え、表現方法は異なるが意味が似ているコンテンツを見つけ、キーワード検索の限界を克服し、自然言語クエリや概念的な問題の処理に特に適しています。

ビジョン機能 (Vision)

マルチモーダルLLMが画像を理解し処理する機能で、モデルがユーザーがアップロードした画像を分析し、テキストと組み合わせた応答を生成できるようにします。例えば、ユーザーは製品写真をアップロードして使用方法を問い合わせたり、メニュー写真をアップロードして翻訳を要求したり、グラフをアップロードしてデータトレンドの分析を依頼したりできます。この機能はAIアプリケーションシナリオを大幅に拡張し、対話をより直感的で多様化します。

W

ワークフロー (Workflow)

複雑なAIアプリケーションを複数の独立したノードに分解し、特定の順序で実行するタスク編成方法です。Difyプラットフォームでは、開発者は視覚的にワークフローを設計し、複数の処理ステップ(ユーザー入力処理、知識検索、マルチモデル連携、条件分岐など)を組み合わせて、複雑なビジネスロジックを処理できるAIアプリケーションを構築し、アプリケーション開発を柔軟かつ直感的にします。