通常,模型供应商会限制用户在指定时间内访问 API 服务的次数(模型速率限制),以确保服务的稳定性与合理使用。对于企业级应用,来自单一凭据的高并发请求容易触发模型速率限制,从而影响用户访问。
而负载均衡可将请求流量分配至多个模型凭据,有效避免模型速率限制和单点故障,并为所有用户提供更快的响应速度,保障业务稳定运行。
Dify 采用轮询策略的负载均衡机制,即:将模型请求按顺序依次分配给负载均衡池中的各个凭据。若某个凭据触发模型速率限制,系统将在接下来一分钟内的轮询中暂时跳过该凭据,以避免无效重试。
为模型配置负载均衡,按照以下步骤操作:
-
在模型列表中找到目标模型,点击对应的 配置,选择 负载均衡 模式。
-
在负载均衡池中,点击 添加凭据,从已有凭据中选择或添加新凭据。
若某个凭据的配额充足或性能更优,可重复添加该凭据以增加其在负载均衡中的权重,使其承担更大比例的请求负载。
- 在负载均衡池中启用至少 2 个凭据,点击 保存。已启用负载均衡的模型将带有特殊标识。
从负载均衡模式切换回默认的单凭据模式时,系统将保留负载均衡配置以备后用。