登录
|
立即注册
首页
DeepSeek专区
AI应用生态
论坛
社区
文档
下载
沐曦大学
沐曦开发者社区
»
论坛
›
产品
›
沐曦产品
›
内容
发新帖
PDE 智算Release_2.29.0.X 发布公告
[复制链接]
46
0
发表于 2025-3-3 09:19:44
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本帖最后由 黄美玲 于 2025-3-3 09:23 编辑
2.29.0.X已经正式发布并在
软件中心 (metax-tech.com)
上线,欢迎下载。
本次发布的软件包新增/优化/修复说明:
正式商用 / 特定试用
1. [Megatron-LM]
Megatron-0.8 release,新增功能:1. Transformer engine 1.8发布并兼容;2. 其他megatron-lm新增特性:
2. [Modelzoo.LLM.Transformers]
新增性能/精度测试模块,支持LLM/VLM性能、精度测试;
3. [XTuner]
修复部分模型的性能问题以及QA测试过程中的OOM;
预商用
1. [vLLM]
预计切换vllm 0.6.6(torch 2.1),w8a8量化方式支持和优化,gguf支持(优化),支持分离式推理,新增模型:deepseek v3,qvq,qaq等,其他0.6.6特性兼容;
2. [Modelzoo.LLM.vLLM]
兼容0.6.6特性脚本更新,新增模型【补充】vllm升级python310,python38暂不做支持;
特定试用
1. [Bisandbytes] Dequantize_4bit,quantize_4bit性能优化;
基本演示
1. [CV-CUDA] 修复部分Test精度问题;
已知模块问题和限制说明
【Paddle-maca】
1. 个别模型偶现训练报错;
2. 个别模型存在loss为NaN及loss不收敛问题;
【Onnxruntime-maca】
1. 少数模型性能出现下降
2. arm架构下多线程且输入内存类型为cpu、maca_pinned时,跨MetaxLink推理暂不支持;
【model zoo.llm diffusers】
部分模型多卡上性能不符合预期;
【vLLM】
1. 个别模型性能测试不稳定;
2. OpenAI测试如遇问题请参考官方issue:
https://github.com/vllm-project/vllm/issues/7246
;
3. 多卡如遇dmesg显存超出信息为正常输出;
4. 版本升级个别模型性能需优化;
5. 多模态性能测试支持qwen v1和intern v1;
6. 个别模型在开启gragh场景性能测试容易出现异常;
【modelzoo.llm.ppl】
baichuan2-13Btps在八卡环境上需要加临时环境变量,四卡环境正常;
【ColossalAI】
如果出现OOM:
1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9;
2.在运行命令前执行exportMALLOC_THRESHOLD=99;
【BitsAndBytes】
1. 个别大矩阵性能较低;
2. 部分矩阵性能不稳定;
【Diffusers.training】
在ky2309a-aarch64平台上,性能数据有下降;
【modelzoo.cnn.training】
1. centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况;
2. Pytorch训练多VF场景下偶发hang;
3. Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率;
4. GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动;
5. 个别模型对CPU资源敏感易出现性能波动现象;
6. ssd模型多卡训练偶发loss为NaN;
7. Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN;
8. FP32精度训练,可以通过使能特定环境变量提升性能;
9. centernet模型FP32精度训练时,设置特定环境变量时可能导致精度问题;
10. 个别模型多卡对单卡性能提升的线性度不足;
11. 个别模型在torch2.1和torch2.0版本性能存在差异;
12. 使用torchprofiler功能,需要设置exportMACA_TRACING_MODE=2提升准确性;
13. 个别分类模型性能有小幅下降;
【TensorFlow2】
1. keras部分模型训练性能、精度偏低;
2. keras部分模型训练性能、精度不稳定;
3. facenet模型训练性能偏低;
4. facenet模型在Arm环境中训练存在异常的情况;
【mmcv】
1. 部分算子报AssertionError错误;
2. container中FFmpeg报错缺少libxcb-shape.so.0;
【Deepspeed】
部分模型性能不达标;
【model zoo.llm.transformers】
1. 在arm平台下,性能数据有下降;
2. 个别模型精度有误差;
3. 部分模型性能数据有波动;
【CV-CUDA】
个别测试有报错;
【XTuner】
1. 部分模型偶现dmesg libmccl.so segfault;
2. C500 internlm2-20b 模型训练dmesg 有"failed to create bo on domain VRAM"Error;
3. 部分模型不同docker os/python version时性能波动在10%左右;
4. internlm2_5-7b性能有下降;
【Megatron-LM】
1. 多机模型运行遇到Gloo connectFullMesh failed时,需要增加一下2个环境变量
exportMCCL_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
exportGLOO_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
注:此问题属于pytorch原生问题
https://pytorch.org/docs/stable/ ... vironment-variables
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
黄美玲
注册会员
7
主题
3
回帖
135
积分
Ta的主页
发私信
图文热点
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败50 ...
驱动安装成功,工具无法使用
...
【微调打榜内测】【书生】端侧小模型论
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦 ...
推荐话题
1.
获取GPU状态的方式问题
2.
【论坛功能调整公告】
3.
支持qwen vl吗
4.
支持vl模型吗
5.
使用沐曦GPU可以自己创建虚拟环境吗
6.
沐熙c500支持ptx吗?
7.
沐熙c500,要使用vllm0.8.5版本启动大模型
8.
OSError: libmxomp.so: cannot open shared
精彩时刻
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败502
驱动安装成功,工具无法使用
【微调打榜内测】【书生】端侧小模型
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦语凭
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图保存
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? 没
新人必看
社区规则
隐私保护
监督机制
关于版权
技术支持邮箱:support-sw@metax-tech.com
法律声明
联系我们
©沐曦 沪ICP备2020031767号-1
快速回复
返回顶部
返回列表