登录
|
立即注册
首页
DeepSeek专区
AI应用生态
论坛
社区
文档
下载
沐曦大学
沐曦开发者社区
»
论坛
›
产品
›
沐曦产品
›
内容
发新帖
PDE 智算Release_2.31.0.X 发布公告
[复制链接]
77
0
发表于 2025-4-1 10:46:15
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
2.31.0.X已经正式发布并在软件中的
下载 - 沐曦开发者
上线,欢迎下载。
本次发布的软件包新增/优化/修复说明:
正式商用 / 特定试用
[Megatron-LM] auto search;冷热专家;deepseek系列基础结构,aux loss free;更新Readme和特性feature介绍;
[DeepSpeed] 增加liger_kernel融合算子;torch切换到2.4;
[Colossalai]
官方版本从0.3.4搭配,升级到0.3.6;
基本演示
[T
riton-inference-server
]
Pytorch版本升级到2.4;
已知模块问题和限制说明:
【Paddle-maca】
1. 个别模型偶现训练报错;
2. 个别模型存在loss为NaN及loss不收敛问题;
【vLLM】
1. 个别模型性能测试不稳定;
2. OpenAI测试如遇问题请参考官方issue:
https://github.com/vllm-project/vllm/issues/7246
;
3. 多卡如遇dmesg显存超出信息为正常输出;
4. 版本升级个别模型性能需优化;
5. 多模态性能测试支持qwen v1和intern v1;
6. 个别模型在开启gragh场景性能测试容易出现异常;
【modelzoo.llm.ppl】
baichuan2-13Btps在八卡环境上需要加临时环境变量,四卡环境正常;
【ColossalAI】
如果出现OOM:
1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9;
2.在运行命令前执行exportMALLOC_THRESHOLD=99;
【BitsAndBytes】
1. 个别大矩阵性能较低;
2. 部分矩阵性能不稳定;
【modelzoo.cnn.training】
1. centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况;
2. Pytorch训练多VF场景下偶发hang;
3. Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率;
4. GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动;
5. 个别模型对CPU资源敏感易出现性能波动现象;
6. ssd模型多卡训练偶发loss为NaN;
7. Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN;
8. FP32精度训练,可以通过使能特定环境变量提升性能;
9. centernet模型FP32精度训练时,设置特定环境变量时可能导致精度问题;
10. 个别模型多卡对单卡性能提升的线性度不足;
11. 个别模型在torch2.1和torch2.0版本性能存在差异;
12. 使用torchprofiler功能,需要设置exportMACA_TRACING_MODE=2提升准确性;
13. 个别分类模型性能有小幅下降;
【TensorFlow2】
1. keras部分模型训练性能、精度偏低;
2. keras部分模型训练性能、精度不稳定;
3. facenet模型训练性能偏低;
4. facenet模型在Arm环境中训练存在异常的情况;
【mmcv】
1. 部分算子报AssertionError错误;
2. container中FFmpeg报错缺少libxcb-shape.so.0;
【Deepspeed】
部分模型性能不达标;
【model zoo.llm.transformers】
1. 在arm平台下,性能数据有下降;
2. 个别模型精度有误差;
3. 部分模型性能数据有波动;
【CV-CUDA】
个别测试有报错;
【XTuner】
1. 部分模型偶现dmesg libmccl.so segfault;
2. C500 internlm2-20b 模型训练dmesg 有"failed to create bo on domain VRAM"Error;
3. 模型训练日志有异常信息;
4. LLaVA-InternLM2-20B、internlm2_5-7b性能有下降;
【Megatron-LM】
1. 多机模型运行遇到Gloo connectFullMesh failed时,需要增加一下2个环境变量
exportMCCL_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
exportGLOO_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
注:此问题属于pytorch原生问题
https://pytorch.org/docs/stable/distributed.
html#common-environment-variables
【LMDeploy】
不支持LMDeploy的兼容适配
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
黄美玲
注册会员
7
主题
3
回帖
135
积分
Ta的主页
发私信
图文热点
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败50 ...
驱动安装成功,工具无法使用
...
【微调打榜内测】【书生】端侧小模型论
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦 ...
推荐话题
1.
获取GPU状态的方式问题
2.
【论坛功能调整公告】
3.
支持qwen vl吗
4.
支持vl模型吗
5.
使用沐曦GPU可以自己创建虚拟环境吗
6.
沐熙c500支持ptx吗?
7.
沐熙c500,要使用vllm0.8.5版本启动大模型
8.
OSError: libmxomp.so: cannot open shared
精彩时刻
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败502
驱动安装成功,工具无法使用
【微调打榜内测】【书生】端侧小模型
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦语凭
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图保存
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? 没
新人必看
社区规则
隐私保护
监督机制
关于版权
技术支持邮箱:support-sw@metax-tech.com
法律声明
联系我们
©沐曦 沪ICP备2020031767号-1
快速回复
返回顶部
返回列表