vllm部署求助

[复制链接]
60 7

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
刚开始使用沐曦显卡,我有以下几个问题:
1:该如何编写docker-compose文件,实现vllm部署大模型?
2:如何使用指定的c500显卡运行模型?


谢谢

精彩评论7

RobinHan  版主  发表于 2025-4-22 16:45:49 | 显示全部楼层
在文档区找对应文档呢?
xshen  注册会员  发表于 2025-4-22 17:57:04 | 显示全部楼层
使用方法上与CUDA上完全兼容,基础镜像或者vllm包可以从本网站下载。
指定显卡可以使用CUDA_VISIBLE_DEVICES 或者 MACA_VISIBLE_DEVICES指定。
aaronhan  新手上路  发表于 2025-4-22 18:32:32 | 显示全部楼层
docker compose中使用沐曦GPU可使用devices配置项将GPU的相关设备映射进容器。

沐曦GPU的设备文件包含两部分:
1. /dev/mxcd
2. /dev/dri/card*和/dev/dri/renderD*, 每张GPU对应一对文件,可根据GPU的PCI BDF来确认对应关系。在大模型的应用场景下,也可考虑将/dev/dri目录整体映射进容器。

参考:
https://docs.docker.com/reference/compose-file/services/#devices
沐曦-涂渊  管理员  发表于 2025-4-22 19:18:41 | 显示全部楼层
 楼主| KaiFun  新手上路  发表于 2025-4-23 19:38:32 | 显示全部楼层
aaronhan 发表于 2025-4-22 18:32
docker compose中使用沐曦GPU可使用devices配置项将GPU的相关设备映射进容器。

沐曦GPU的设备文件包含两部 ...

谢谢,那请问runtime部分该如何写呢?
aaronhan  新手上路  发表于 2025-4-30 11:08:23 | 显示全部楼层
KaiFun 发表于 2025-4-23 19:38
谢谢,那请问runtime部分该如何写呢?

runtime不需要做特别设置,直接做设备映射并不需要使用私有运行时的支持。
 楼主| KaiFun  新手上路  发表于 2025-5-2 18:37:20 | 显示全部楼层
aaronhan 发表于 2025-4-30 11:08
runtime不需要做特别设置,直接做设备映射并不需要使用私有运行时的支持。 ...

多谢指教,现在可以跑起来了,我有个问题为什么我跑benchmark时,gpu-util只有50%左右?跑的时vllm benchmark_serving.py,数据集是ShareGPT_V3_unfiltered_cleaned_split.json
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

©沐曦 沪ICP备2020031767号-1
快速回复 返回顶部 返回列表