本地部署vllm

本地部署vllm

介绍

vLLM 是一个专为大规模语言模型(LLM)推理和服务而设计的高性能库。

它的核心优势在于其创新的 PagedAttention 算法,该算法解决了传统服务方式中内存管理的瓶颈,从而带来了两大核心优势:

  • 极高的吞吐量:在相同硬件条件下,vLLM 可以同时处理更多用户的请求,显著降低了服务成本。
  • 高效的内存利用:极大地减少了模型运行所需的显存,使得在消费级GPU上运行大模型成为可能,或者可以在单卡上运行更大的模型。

简单来说,如果你需要将像 Deepseek、Qwen3 等这类大模型部署成可对外服务的 API,vLLM 通常是性能和易用性的最佳选择之一。

部署

使用 Docker 部署是最简单、最干净的方式,它能避免复杂的环境依赖问题。

前提条件

  • 确保你的机器已安装 DockerNVIDIA Docker Toolkit(如果你使用 NVIDIA GPU)。
  • 拥有足够的 GPU 显存(例如,运行 7B 模型建议至少 16GB 显存)。

部署步骤

  1. 预先下载模型到宿主机

首先,在你的服务器或本地机器上,创建一个专门的目录来存放模型,然后使用 huggingface-hub 官方工具下载模型。huggingface

bash
# 1. 安装模型下载工具
pip install huggingface-hub

# 2. 创建模型存储目录(建议选择一个空间大的磁盘)
mkdir -p /data/models

# 3. 下载你所需的模型(这里以 Qwen 为例)
huggingface-cli download Qwen/Qwen3-8B-AWQ --local-dir /data/models/Qwen3-8B-AWQ

# 或者也可以通过git进行拉取
# git clone https://huggingface.co/Qwen/Qwen3-8B-AWQ
提醒

你需要将 Qwen/Qwen3-8B-AWQ 替换为你实际想部署的模型ID,将 /data/models/Qwen/Qwen3-8B-AWQ 替换为你计划使用的路径。

  1. 编写 Docker Compose 配置文件

创建一個名为 docker-compose.yml 的文件,内容如下。这个配置几乎可以直接使用,你只需要修改 volumes 项中的模型路径即可。

  1. 启动服务 在包含 docker-compose.yml 文件的目录下,执行以下命令即可启动所有服务。
bash
docker compose up -d # -d 参数代表在后台运行
  1. 验证服务 服务启动后,使用 curl 命令测试接口是否正常工作。使用在 --api-key 参数中设置的密钥。
bash
curl -H "Authorization: Bearer 123123" http://localhost:8000/v1/models

如果返回了包含模型信息的 JSON 数据,恭喜,部署成功!

AI大模型常见术语
Ollama突然无法识别GPU问题

评论区

评论加载中...