配置负载均衡

介绍

通常，模型供应商会限制用户在指定时间内访问 API 服务的次数（模型速率限制），以确保服务的稳定性与合理使用。对于企业级应用，来自单一凭据的高并发请求容易触发模型速率限制，从而影响用户访问。而负载均衡可将请求流量分配至多个模型凭据，有效避免模型速率限制和单点故障，并为所有用户提供更快的响应速度，保障业务稳定运行。 Dify 采用轮询策略的负载均衡机制，即：将模型请求按顺序依次分配给负载均衡池中的各个凭据。若某个凭据触发模型速率限制，系统将在接下来一分钟内的轮询中暂时跳过该凭据，以避免无效重试。

步骤

为模型配置负载均衡，按照以下步骤操作：

在模型列表中找到目标模型，点击对应的配置，选择 负载均衡 模式。
在负载均衡池中，点击 添加凭据，从已有凭据中选择或添加新凭据。

默认配置 为当前指定的默认凭据。

若某个凭据的配额充足或性能更优，可重复添加该凭据以增加其在负载均衡中的权重，使其承担更大比例的请求负载。

在负载均衡池中启用至少 2 个凭据，点击保存。已启用负载均衡的模型将带有特殊标识。

用户手册

​介绍

​步骤

介绍

步骤