Xinferenceでデプロイしたローカルモデルを統合
Last updated
Last updated
Xorbits推論は、大型言語モデル、音声認識モデル、マルチモーダルモデルにサービスを提供するための強力で汎用的な分散推論フレームワークであり、ノートパソコンでも使用可能です。chatglm、baichuan、whisper、vicuna、orcaなど、GGML互換の多くのモデルをサポートしています。Difyは、ローカルにデプロイされたXinferenceの大型言語モデル推論および埋め込み機能を接続することができます。
Xinferenceのデプロイ方法は、ローカルデプロイと分散デプロイの2つがあります。ここではローカルデプロイを例に説明します。
まず、PyPIを使用してXinferenceをインストールします:
ローカルデプロイ方式でXinferenceを起動します:
Xinferenceはデフォルトでローカルにワーカーを起動し、エンドポイントはhttp://127.0.0.1:9997
、ポートはデフォルトで9997
です。デフォルトではローカルホストからのみアクセス可能ですが、-H 0.0.0.0
を設定することで、外部クライアントからもアクセス可能になります。ホストやポートのさらに詳細な設定方法については、xinference-local --help
で確認できます。
Dify Dockerデプロイ方式を使用する場合、ネットワーク設定に注意が必要です。DifyコンテナがXinferenceのエンドポイントにアクセスできるように設定してください。Difyコンテナ内部からローカルホストにはアクセスできないため、ホストマシンのIPアドレスを使用する必要があります。
モデルの作成とデプロイ
http://127.0.0.1:9997
にアクセスし、デプロイするモデルとその仕様を選択します。以下の図を参照してください:
モデルによっては異なるハードウェアプラットフォームでの互換性が異なるため、Xinference内蔵モデルを確認して、作成するモデルが現在のハードウェアプラットフォームでサポートされているかどうかを確認してください。
モデルUIDの取得
上記ページから対応するモデルのIDを取得します。例:2c886330-8849-11ee-9518-43b0b8f40bea
モデルのデプロイ完了後、Difyでのモデル接続
設定 > モデルプロバイダー > Xinference
に以下を入力します:
モデル名称:vicuna-v1.3
サーバーURL:http://<Machine_IP>:9997
あなたのマシンのIPアドレスに置き換えてください
モデルUID:2c886330-8849-11ee-9518-43b0b8f40bea
"保存"をクリックすると、アプリケーションでそのモデルを使用できます。
Difyはまた、Xinference埋め込みモデルをEmbeddingモデルとして使用することもサポートしています。設定ボックスでEmbeddings
タイプを選択するだけで使用可能です。
Xinferenceの詳細については、Xorbits推論を参照してください。