接入 GPUStack 进行本地模型部署
Last updated
Last updated
是一个用于运行 AI 模型的开源 GPU 集群管理器。
Dify 支持与 GPUStack 集成,用于本地部署大语言模型推理、嵌入、重排序、语音转文本和文本转语音能力。
你可以参考官方进行部署,或按照以下步骤快速集成:
GPUStack 提供了一个脚本,可以将其作为服务安装在基于 systemd 或 launchd 的系统上。要使用此方法安装 GPUStack,只需运行:
以管理员身份运行 PowerShell(避免使用 PowerShell ISE),然后运行以下命令安装 GPUStack:
然后你可以按照终端的输出说明访问 GPUStack 界面。
以某个托管在 GPUStack 的大语言模型为例:
在 GPUStack 界面中,进入"模型"页面并点击"部署模型",从下拉菜单中选择 Hugging Face
。
使用左上角的搜索栏搜索模型名称 Qwen/Qwen2.5-0.5B-Instruct-GGUF
。
点击保存
以部署模型。
进入"API 密钥"页面并点击"新建 API 密钥"。
填写名称,然后点击保存
。
复制 API 密钥并保存以供后续使用。
进入设置 > 模型供应商 > GPUStack
并填写:
模型类型:LLM
模型名称:qwen2.5-0.5b-instruct
服务器 URL:http://your-gpustack-server-ip
API 密钥:输入你从前面步骤复制的 API 密钥
点击"保存"以在应用中使用该模型。
更多关于 GPUStack 的信息,请参考 。