登录
|
立即注册
首页
DeepSeek专区
AI应用生态
论坛
社区
文档
下载
沐曦大学
沐曦开发者社区
»
论坛
›
产品
›
沐曦产品
›
内容
发新帖
PDE 智算Release_2.32.0.X 发布公告
[复制链接]
58
1
发表于 2025-4-30 17:15:28
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本帖最后由 黄美玲 于 2025-6-9 09:56 编辑
2.32.0.X正式发布,已上传至软件中心的
下载 - 沐曦开发者
,欢迎下载。
本次发布的软件包新增/优化/修复说明:
正式商用
[Megatron-LM]
计算通信并行支持sdma
;
attentionoffload支持TE;
[Onnxruntime]
需配套 MXMACA‑C500‑SDK‑2.32.0.7 使用;
如需获取二进制安装包,请联系沐曦技术支持工程师;
[modelzoo.llm.diffusers]
需配套 MXMACA‑C500‑SDK‑2.32.0.7 使用;
如需获取二进制安装包,请联系沐曦技术支持工程师;
[modelzoo.cnn.inference]
需配套 MXMACA‑C500‑SDK‑2.32.0.7 使用;
如需获取二进制安装包,请联系沐曦技术支持工程师;
预商用
[PaddlePaddle] 修复op paddle.eye;修复bug;
[Vllm] 切换版本至 0.8.2 ; 支持 V1 engine, 默认 export VLLM_USE_V1=0 使用 V0 en‑
gine 测试;
[Modelzoo.LLM.Vllm] 支持 vllm 0.8.2;
特定试用
[BitsAndbytes] 升级到0.45.2社区版;
基本演示
[Ray] 首次发布,支持ray.dag
[sglang]
v0.4.3 版本适配;
支 持 DeepSeek‑BF16 模 型 及 DeepSeek‑R1‑Qwen、DeepSeek‑R1‑Llama 系列蒸馏模型;
支持 W8A8_INT8 量化;
已知模块问题和限制说明:
【Paddle-maca】
1. 个别模型偶现训练报错;
2. 个别模型存在loss为NaN及loss不收敛问题;
【vLLM】
1.
个别模型性能测试不稳定
2. OpenAI 测试问题请参考
https://github.com/vllm
‑project/vllm/issues/7246
3. 多卡如遇 dmesg 显存超出信息为正常输出
4. 版本升级后个别模型性能需优化
【modelzoo.llm.ppl】
baichuan2-13Btps在八卡环境上需要加临时环境变量,四卡环境正常;
【modelzoo.llm.diffusers】部分模型配置多卡性能不达标
【modelzoo.cnn.inference】OCR 个别模型可能会出现性能不稳定的情况
【ColossalAI】
如果出现OOM:
1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9;
2.在运行命令前执行exportMALLOC_THRESHOLD=99;
【BitsAndBytes】
1. 个别大矩阵性能较低;
2. 部分矩阵性能不稳定;
【modelzoo.cnn.training】
1. centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况;
2. Pytorch训练多VF场景下偶发hang;
3. Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率;
4. GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动;
5. 个别模型对CPU资源敏感易出现性能波动现象;
6. ssd模型多卡训练偶发loss为NaN;
7. Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN;
8. FP32精度训练,可以通过使能特定环境变量提升性能;
9. centernet模型FP32精度训练时,设置特定环境变量时可能导致精度问题;
10. 个别模型多卡对单卡性能提升的线性度不足;
11. 个别模型在torch2.1和torch2.0版本性能存在差异;
12. 使用torchprofiler功能,需要设置exportMACA_TRACING_MODE=2提升准确性;
【TensorFlow2】
1. keras部分模型训练性能、精度偏低;
2. keras部分模型训练性能、精度不稳定;
3. facenet模型训练性能偏低;
4. facenet模型在Arm环境中训练存在异常的情况;
【mmcv】
1. 部分算子报AssertionError错误;
2. container中FFmpeg报错缺少libxcb-shape.so.0;
【Deepspeed】
1. LLama-factoryqwen2.5-72b/QvQ-72b-preview多机训练失败;
2. 550上部分模型训练需要加上exportCUBLAS_WORKSPACE_CONFIG=:4096:64后再执行训练脚本;
【model zoo.llm.transformers】
1. 在arm平台下,性能数据有下降;
2.
部分模型性能数据有下降;
【CV-CUDA】
个别测试有报错;
【XTuner】
部分模型偶现dmsg libmcc.so segfault;
【Megatron-LM】
1. 多机模型运行遇到Gloo connectFullMesh failed时,需要增加一下2个环境变量
exportMCCL_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
exportGLOO_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
注:此问题属于pytorch原生问题
https://pytorch.org/docs/stable/distributed.
html#common-environment-variables
【LMDeploy】
不支持LMDeploy的兼容适配
举报
回复
精彩评论
1
楼主
|
黄美玲
注册会员
发表于 2025-6-9 09:48:57
|
显示全部楼层
本帖最后由 黄美玲 于 2025-6-9 09:50 编辑
新增发布记录如下:
正式商用
[Onnxruntime]
需配套 MXMACA‑C500‑SDK‑2.32.0.7 使用;
如需获取二进制安装包,请联系沐曦技术支持工程师;
[modelzoo.llm.diffusers]
需配套 MXMACA‑C500‑SDK‑2.32.0.7 使用;
如需获取二进制安装包,请联系沐曦技术支持工程师;
[modelzoo.cnn.inference]
需配套 MXMACA‑C500‑SDK‑2.32.0.7 使用;
如需获取二进制安装包,请联系沐曦技术支持工程师;
预商用
[Vllm] 切换版本至 0.8.2 ; 支持 V1 engine, 默认 export VLLM_USE_V1=0 使用 V0 en‑
gine 测试;
[Modelzoo.LLM.Vllm] 支持 vllm 0.8.2;
基本演示
[sglang]
v0.4.3 版本适配;
支 持 DeepSeek‑BF16 模 型 及 DeepSeek‑R1‑Qwen、DeepSeek‑R1‑Llama 系列蒸馏模型;
支持 W8A8_INT8 量化;
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
黄美玲
注册会员
7
主题
3
回帖
135
积分
Ta的主页
发私信
图文热点
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败50 ...
驱动安装成功,工具无法使用
...
【微调打榜内测】【书生】端侧小模型论
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦 ...
推荐话题
1.
获取GPU状态的方式问题
2.
【论坛功能调整公告】
3.
支持qwen vl吗
4.
支持vl模型吗
5.
使用沐曦GPU可以自己创建虚拟环境吗
6.
沐熙c500支持ptx吗?
7.
沐熙c500,要使用vllm0.8.5版本启动大模型
8.
OSError: libmxomp.so: cannot open shared
精彩时刻
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败502
驱动安装成功,工具无法使用
【微调打榜内测】【书生】端侧小模型
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦语凭
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图保存
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? 没
新人必看
社区规则
隐私保护
监督机制
关于版权
技术支持邮箱:support-sw@metax-tech.com
法律声明
联系我们
©沐曦 沪ICP备2020031767号-1
快速回复
返回顶部
返回列表