登录
|
立即注册
首页
DeepSeek专区
AI应用生态
论坛
社区
文档
下载
沐曦大学
沐曦开发者社区
»
论坛
›
产品
›
沐曦产品
›
内容
发新帖
PDE 智算Release_2.29.0.X 发布公告
[复制链接]
27
0
发表于 2025-3-3 09:19:44
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本帖最后由 黄美玲 于 2025-3-3 09:23 编辑
2.29.0.X已经正式发布并在
软件中心 (metax-tech.com)
上线,欢迎下载。
本次发布的软件包新增/优化/修复说明:
正式商用 / 特定试用
1. [Megatron-LM]
Megatron-0.8 release,新增功能:1. Transformer engine 1.8发布并兼容;2. 其他megatron-lm新增特性:
2. [Modelzoo.LLM.Transformers]
新增性能/精度测试模块,支持LLM/VLM性能、精度测试;
3. [XTuner]
修复部分模型的性能问题以及QA测试过程中的OOM;
预商用
1. [vLLM]
预计切换vllm 0.6.6(torch 2.1),w8a8量化方式支持和优化,gguf支持(优化),支持分离式推理,新增模型:deepseek v3,qvq,qaq等,其他0.6.6特性兼容;
2. [Modelzoo.LLM.vLLM]
兼容0.6.6特性脚本更新,新增模型【补充】vllm升级python310,python38暂不做支持;
特定试用
1. [Bisandbytes] Dequantize_4bit,quantize_4bit性能优化;
基本演示
1. [CV-CUDA] 修复部分Test精度问题;
已知模块问题和限制说明
【Paddle-maca】
1. 个别模型偶现训练报错;
2. 个别模型存在loss为NaN及loss不收敛问题;
【Onnxruntime-maca】
1. 少数模型性能出现下降
2. arm架构下多线程且输入内存类型为cpu、maca_pinned时,跨MetaxLink推理暂不支持;
【model zoo.llm diffusers】
部分模型多卡上性能不符合预期;
【vLLM】
1. 个别模型性能测试不稳定;
2. OpenAI测试如遇问题请参考官方issue:
https://github.com/vllm-project/vllm/issues/7246
;
3. 多卡如遇dmesg显存超出信息为正常输出;
4. 版本升级个别模型性能需优化;
5. 多模态性能测试支持qwen v1和intern v1;
6. 个别模型在开启gragh场景性能测试容易出现异常;
【modelzoo.llm.ppl】
baichuan2-13Btps在八卡环境上需要加临时环境变量,四卡环境正常;
【ColossalAI】
如果出现OOM:
1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9;
2.在运行命令前执行exportMALLOC_THRESHOLD=99;
【BitsAndBytes】
1. 个别大矩阵性能较低;
2. 部分矩阵性能不稳定;
【Diffusers.training】
在ky2309a-aarch64平台上,性能数据有下降;
【modelzoo.cnn.training】
1. centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况;
2. Pytorch训练多VF场景下偶发hang;
3. Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率;
4. GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动;
5. 个别模型对CPU资源敏感易出现性能波动现象;
6. ssd模型多卡训练偶发loss为NaN;
7. Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN;
8. FP32精度训练,可以通过使能特定环境变量提升性能;
9. centernet模型FP32精度训练时,设置特定环境变量时可能导致精度问题;
10. 个别模型多卡对单卡性能提升的线性度不足;
11. 个别模型在torch2.1和torch2.0版本性能存在差异;
12. 使用torchprofiler功能,需要设置exportMACA_TRACING_MODE=2提升准确性;
13. 个别分类模型性能有小幅下降;
【TensorFlow2】
1. keras部分模型训练性能、精度偏低;
2. keras部分模型训练性能、精度不稳定;
3. facenet模型训练性能偏低;
4. facenet模型在Arm环境中训练存在异常的情况;
【mmcv】
1. 部分算子报AssertionError错误;
2. container中FFmpeg报错缺少libxcb-shape.so.0;
【Deepspeed】
部分模型性能不达标;
【model zoo.llm.transformers】
1. 在arm平台下,性能数据有下降;
2. 个别模型精度有误差;
3. 部分模型性能数据有波动;
【CV-CUDA】
个别测试有报错;
【XTuner】
1. 部分模型偶现dmesg libmccl.so segfault;
2. C500 internlm2-20b 模型训练dmesg 有"failed to create bo on domain VRAM"Error;
3. 部分模型不同docker os/python version时性能波动在10%左右;
4. internlm2_5-7b性能有下降;
【Megatron-LM】
1. 多机模型运行遇到Gloo connectFullMesh failed时,需要增加一下2个环境变量
exportMCCL_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
exportGLOO_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
注:此问题属于pytorch原生问题
https://pytorch.org/docs/stable/ ... vironment-variables
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
黄美玲
注册会员
7
主题
0
回帖
109
积分
Ta的主页
发私信
图文热点
【微调打榜内测】【书生】端侧小模型论
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦 ...
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图 ...
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? ...
推荐话题
1.
沐曦MXMACA平台上pytorch构造CUDA算子库扩
2.
驱动安装kernel不匹配,cp: can't stat
3.
曦云 C500 跑 普通版本的 Qwen 可以,但是
4.
驱动装好了 但是使用vllm的benchmark 报错
5.
曦云C500 这个显卡功耗温度是不是有点异常
6.
【微调打榜内测】【书生】端侧小模型论文分
7.
【五一内测】沐曦玩转 LMDeploy、XTuner 和
8.
LMDeploy部署&&xtune微调IntenLM
精彩时刻
【微调打榜内测】【书生】端侧小模型
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦语凭
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图保存
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? 没
沐曦玩转 LMDeploy、XTuner 和 Inter
体验了一下模型量化和微调
【大模型实战营】【报名】欢迎论坛小
恭喜小伙伴成功报名第五期书生大模型实战营!所有课程免费!!! 第五期项目申报地
新人必看
社区规则
隐私保护
监督机制
关于版权
技术支持邮箱:support-sw@metax-tech.com
法律声明
联系我们
©沐曦 沪ICP备2020031767号-1
快速回复
返回顶部
返回列表