ゼロから AI 画像生成アプリの構築方法

このドキュメントは AI によって自動翻訳されています。不正確な部分がある場合は、英語版を参照してください。

画像生成技術の発展に伴い、Dall-e、Flux、Stable Diffusion などの優れた画像生成ツールが多数登場しています。本記事では、Dify を使用して AI 画像生成アプリを開発する方法について学びます。

今回の学ぶポイント

Dify を使用してエイジェントの作り方
エイジェントの基本的なコンセプト
プロンプトエンジニアリングの基本
ツールの使用方法
大規模モデルの幻覚の概念

1. Stablility API キーの設定

こちらをクリックして、ステイビリティ API キー管理ページに移動します。まだ登録していない場合は、API 管理ページに入る前に登録を求められます。管理ページに入ったら、キーをコピーするためにコピーをクリックします。

次に、ご利用の Dify インスタンスの ツール > Stability にキーを入力します。以下の手順に従ってください：

Dify にログインする
ツールに入る
ステイビリティを選択する
承認をクリック

キーを入力して保存

2. モデルプロバイダの設定

インタラクションを最適化するために、ユーザーの指示を具体化するための大規模言語モデル（LLM）が必要です。つまり、画像生成のためのプロンプトを記述します。次に、Dify でモデルプロバイダを設定します。以下の手順に従って、モデルプロバイダを追加します：統合 > モデルプロバイダー に移動します。

適切なモデルプロバイダが見つからない場合は、groq プラットフォームが Llama などの LLM 用に無料のコールクレジットを提供しています。groq API 管理ページにログインします。API Key の作成 をクリックし、希望の名前を設定して API キーをコピーします。Dify - モデルプロバイダ に戻り、groqcloud を選択し、設定をクリックします。

API Key を貼り付けて保存します。

3. エイジェントを作る

Dify - スタジオ に戻り、最初から作成 を選択します。

この実験では、エージェントの基本的な使用方法を理解するだけで十分です。

エージェントとは？エージェントは、人間の行動と能力をシミュレートする AI システムです。自然言語処理を通じて環境とやり取りし、入力情報を理解し、対応する出力を生成します。エージェントはまた「知覚」能力を持ち、さまざまな形式のデータを処理し・分析し、さまざまな外部ツールや API を呼び出して使用してタスクを完了することができます。この設計により、エージェントはより柔軟に複雑な状況を処理し、ある程度人間の思考や行動パターンをシミュレートできるようになります。

エージェント を選択し、名前を入力します。

以下のようにエージェントのオーケストレーションインターフェースに入ります。

LLM を選択します。このチュートリアルでは、groq が提供する Llama-3.1-70B を例にします：

ツール でステイビリティを選択します：![](https://assets-docs.dify.ai/dify-enterprise-mintlify/jp/workshop/basic/6e1c3dd63925fd9ba60568deb2602044.png” className=“mx-auto” alt="" />

プロンプトの書き方

プロンプトはエージェントの核心であり、出力結果に直接的な影響を与えます。一般的に、プロンプトが具体的であればあるほど、出力も向上しますが、過度に長いプロンプトは逆効果になることもあります。プロンプトを調整する技術は「プロンプトエンジニアリング」と呼ばれています。この実験では、プロンプトエンジニアリングを完全に習得していなくても心配する必要はありません。後で段階的に学ぶことができます。まずは、最もシンプルなプロンプトから始めましょう：

ユーザーのプロンプトに従って、指定された内容を stability_text2image を使用して描画してください。

ユーザーがコマンドを入力するたびに、エージェントはこのシステムレベルの指示を理解し、ユーザーの描画タスクを実行する際には、stability というツールを呼び出すことを認識します。例：女の子が開いた本を持っているのを描く。

プロンプトを書くのかしなくても可能ですか？もちろん可能です！

プロンプトの上部にある自動をクリックしてください。

指示に要件を入力し、自動をクリックします。右側に生成されたプロンプトが AI によって作成されます。

ただし、プロンプトについての理解を深めるためには、初期段階ではこの機能に頼るべきではありません。

発表

右上の公開ボタンをクリックし、公開後に Run を選択して、オンラインで実行されるエージェント用の Web ページを取得します。

この Web ページの URL をコピーして、友人と共有することができます。

質問 1：生成された画像のスタイルを指定する方法は？

ユーザーの入力コマンドにスタイル指示を追加することができます。例えば：「アニメスタイルで、女の子が開いた本を描いてください。」

ただし、デフォルトのスタイルをアニメスタイルに設定したい場合は、システムプロンプトにその旨を追加することができます。なぜなら、システムプロンプトはユーザーコマンドが実行されるたびに認識され、優先されるからです。

ユーザーのプロンプトに従って、指定された内容をstability_text2imageを使用して描画してください。画像はアニメスタイルです。

質問 2：特定のユーザーからのリクエストを拒否する方法は？

多くのビジネスシナリオでは、いくつかの不適切なコンテンツの出力を避ける必要がありますが、LLM はしばしば「無知」であり、出力コンテンツが間違っていてもユーザーの指示に従います。このように、モデルが間違ったコンテンツを作り出してユーザーに答えようとする現象を「モデルの幻覚」と呼びます。したがって、必要に応じてモデルがユーザーのリクエストを拒否できることが重要です。さらに、ユーザーがビジネスに関係のないコンテンツを要求することもあり、エージェントがそのようなリクエストを拒否する必要があります。異なるプロンプトをカテゴリ別に整理するために、マークダウン形式を使用して、エージェントに不適切なコンテンツを拒否する方法を教えるプロンプトを「制約」のセクションに記述します。もちろん、このフォーマットは標準化のためのものであり、独自のフォーマットを持つこともできます。

## タスク
ユーザーのプロンプトに従って、指定された内容をstability_text2imageを使用して描画してください。画像はアニメスタイルです。

## 制約
もしユーザーが描画に関係のないコンテンツを要求した場合、「申し訳ありませんが、その内容は理解できません。」と返答してください。

例えば、今夜の夕食は何ですか？と聞いてみましょう。

よりフォーマルなビジネスシナリオでは、感情的な単語ライブラリを使用してユーザーのリクエストを拒否することができます。 Add Feature - Content Moderation にキーワード「dinner」を追加します。ユーザーがそのキーワードを入力すると、エージェントアプリは「申し訳ありませんが、その内容は理解できません。」と出力します。

​今回の学ぶポイント

​1. Stablility API キーの設定

​2. モデルプロバイダの設定

​3. エイジェントを作る

​プロンプトの書き方

​プロンプトを書くのかしなくても可能ですか？もちろん可能です！

​発表

​質問 1：生成された画像のスタイルを指定する方法は？

​質問 2：特定のユーザーからのリクエストを拒否する方法は？