作者:Rico。Dify.AI 资深前端工程师,LLM 技术探索者。
NVDIA 控制面板 -> 系统信息
看到完成了安装。
wsl
命令进入Ubuntu 了。
第三步,安装 Docker Desktop
去 Docker 官方文档下载 Docker Desktop。安装时注意勾上 Use WSL 2 instead of Hyper-V
选项。安装完成后重启电脑。通过 CMD 查看是否正常安装好。
~/.bashrc
方便使用命令:
~/.bashrc
将 CUDA 添加至环境变量:
Xorbits inference 是一个强大且通用的分布式推理框架,旨在为大型语言模型、语音识别模型和多模态模型提供服务,甚至可以在笔记本电脑上使用。它支持多种与 GGML 兼容的模型,如 ChatGLM,Baichuan,Whisper,Vicuna,Orca 等。 Dify 支持以本地部署的方式接入 Xinference 部署的大型语言模型推理和 Embedding 能力。
ggml 推理
和 PyTorch 推理
,需要装如下的依赖:
http://127.0.0.1:9997
,端口默认为 9997
。 默认只可本机访问,配置了 -H 0.0.0.0
,非本地客户端可任意访问。 如需进一步修改 host 或 port,可查看 Xinference 的帮助信息:xinference --help
。
0fc70cd0-4b2a-11ee-a428-00155d0b318a
就是刚才部署的模型的 uid 。
api / worker / web
,以及 4 个基础组件 weaviate / db / redis / nginx
。
Docker 启动成功后,在浏览器中访问:http://127.0.0.1/
。 设置过密码后登陆,会进入应用列表页。
设置 > 模型供应商 > Xinference
中填入模型信息:
xinference list
获取到的部署的模型的 UID。