負荷分散

モデルのレート制限（Rate limits）とは、モデルプロバイダーがユーザーまたは顧客に対し、指定された時間内にAPIサービスへアクセスする回数に対して設ける制限のことです。これにより、APIの乱用や誤用を防ぎ、すべてのユーザーが公平にAPIにアクセスできるようにし、インフラ全体の負荷を管理することができます。

企業レベルで大規模にモデルAPIを呼び出す際、高い同時リクエストがレート制限を超えてしまい、ユーザーのアクセスに影響を及ぼすことがあります。ロードバランシングは、複数のAPIエンドポイント間でAPIリクエストを分配することで、すべてのユーザーが最速の応答と最高のモデル呼び出しスループットを得られるようにし、ビジネスの安定した運用を保障します。

モデルプロバイダー -- モデルリスト -- 設定モデルロードバランシング でこの機能を有効にし、同じモデルに複数の資格情報（APIキー）を追加することができます。

モデルロードバランシングは有料機能です。SaaS有料サービスのサブスクリプションまたは企業版の購入を通じてこの機能を有効にすることができます。

デフォルト設定では、APIキーは初回設定時にモデルプロバイダーに追加された資格情報です。設定の追加 をクリックして、同じモデルの異なるAPIキーを追加することで、ロードバランシング機能を正常に使用できます。

少なくとも1つの追加モデル資格情報を追加することで、保存しロードバランシングを有効にできます。

既に設定されている資格情報を一時的に無効化または削除することも可能です。

設定完了後、モデルリスト内にすべての有効なロードバランシングモデルが表示されます。

デフォルトでは、ロードバランシングはラウンドロビン戦略を使用します。レート制限を超えた場合、1分間のクールダウンタイムが適用されます。

モデルの追加からもロードバランシングを設定することができ、設定手順は上記と同じです。

PreviousOllamaが配置したローカルモデルを統合 Next構造

Last updated 12 days ago