登录
|
立即注册
首页
DeepSeek专区
AI应用生态
论坛
社区
文档
下载
沐曦大学
沐曦开发者社区
»
论坛
›
产品
›
沐曦产品
›
内容
发新帖
PDE 智算Release_2.27.0.X 发布公告
[复制链接]
110
0
发表于 2025-1-2 17:22:14
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本帖最后由 黄美玲 于 2025-1-9 09:14 编辑
2.27.0.X已经正式发布并在
软件中心 (metax-tech.com)
上线,欢迎下载。
本次发布的软件包新增/优化/修复说明:
[ColossalAI] 无更新,跟随新的maca发布;
[DeepSpeed] 搭配0.12.3 or 0.15.1版本发布,具体待定;
[Megatron-LM] 更新Torch2.1;
[ONNXRuntime]
增加mha算子attn_mask broadcast规则支
持;
修复fasterRcnn的NMS、topk算子问题;
增加bert、字节模型优化;
[PPL.LLM.Serving] 无更新,跟随新的maca发布;
[InternLM] 无更新,跟随新的maca发布;
[Modelzoo.CNN.Inference] 添加新模型支持,具体模型范围待明确;
[Modelzoo.CNN.Training] 无更新,跟随新的maca发布;
[Modelzoo.LLM.PPL] 无更新,跟随新的maca发布;
[Modelzoo.LLM.Transformers] 无更新,跟随新的maca发布;
[Modelzoo.LLM.Diffusers] 新增支持flux;
[Diffusers.Training] 无更新、跟随新的maca发布;
[Alpaca-LoRA] 无更新、跟随新的maca发布;
[TensorFlow2]
仅支持eager模式、混合精度;
修复qa报的混合训练bug;
[PaddlePaddle] 无更新、跟随新的maca发布;
[Bisandbytes] 适配版本0.44.0;
[MMCV] 无新增功能和改动,预升级官方版本,当前2.2;
[TritonInferenceServer] 无更新、跟随新的maca发布;PS:GUP Metrics功能还不支持;
[Text-generation-inference] 无更新、跟随新的maca发布;
[CV-CUDA] 无新增功能和改动,预升级官方版本,当前0.7.0;
[LMDeploy] Alpha版本,支持常见模型;
[vLLM]
采用临时的flash attn包集成
切换0.6.2版本;
优化gptq&awq性能(gidx属性,正在fix);
预计默认开启cuda-graph,脚本相比之前有变化;
依赖flash attn的whl包(需要vllm包里的flash attn whl包);
num_schedule_steps支持;
[Modelzoo.LLM.vLLM]
vllm更新为0.6.2支持num_scheduler_steps;
batched测试增加warmup;
新增部分模型(awq/gptq...);
cuda graph默认开启;
已知模块问题和限制说明
【Paddle-maca】
1. 个别模型偶现训练报错;
2. 个别模型存在loss为NaN及loss不收敛问题;
【Onnxruntime-maca】
1. ARM推理部分模型缺少libpaddle依赖,推理之前export
2. LD_PRELOAD=/opt/conda/lib/libgomp.so.1
3. conformer的模型缺libsndfile,可手动安装
4. 少数模型性能出现下降
5. arm架构下多线程且输入内存类型为cpu、maca_pinned时,跨MetaxLink推理暂不支持。
【vLLM】
1.
个别模型性能存在波动
2. 部分单卡模型需设置MACA_VLLM_PG_OPT=1提升性能
3. 个别模型bf16与fp16测试值存在小部分偏差
4. 多卡如遇dmesg显存超出信息为正常输出
5. 建议性能测试配置单独执行
6. 个别量化模型测试有异常情况
【modelzoo.llm.ppl】
baichuan2-13Btps在八卡环境上需要加临时环境变量,四卡环境正常;
【ColossalAI】
如果出现OOM:
1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9
2.在运行命令前执行exportMALLOC_THRESHOLD=99
【BitsAndBytes】
1. 个别大矩阵性能较低
2. 部分矩阵性能不稳定
【Diffusers.training】
在ky2309a-aarch64平台上,性能数据有下降;
【modelzoo.cnn.training】
1. centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况;
2. Pytorch训练多VF场景下偶发hang;
3. Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率;
4. GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动;
5. 个别模型对CPU资源敏感易出现性能波动现象;
6. ssd模型多卡训练偶发loss为NaN;
7. Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN;
8. FP32精度训练,可以通过使能PYTORCH_ALLOW_CUDA_CUDNN_TF32,TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量提升性能;
9. centernet模型FP32精度训练时,设置PYTORCH_ALLOW_CUDA_CUDNN_TF32,TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量时可能导致精度问题;
10. 个别模型多卡对单卡性能提升的线性度不足;
11. 个别模型在torch2.1和torch2.0版本性能存在差异
12. N260环境特殊场景下可能存在性能下降
【TensorFlow2】
1. keras个别模型训练精度不符合预期;
2. keras训练性能偏低;
3. facenet模型训练性能偏低;
4. facenet模型在Arm环境中训练存在异常的情况;
5. facenet模型训练存在偶发hang的情况;
【mmcv】
1. 部分算子报AssertionError错误;
2. container中FFmpeg报错缺少libxcb-shape.so.0;
【Deepspeed】
1. 部分模型性能不达标
2. Xtuner部分模型偶现dmesglibmccl.sosegfault
3. Xtunerinternlm2-20b模型训练dmesg有“failedtocreateboondomainVRAM”Error
4. XtunerQwen2-7B-Instruct和Qwen1.5-1.8B-Chat模型训练失败
5. Xtuner部分模型训练存在性能较低情况
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
黄美玲
注册会员
7
主题
3
回帖
135
积分
Ta的主页
发私信
图文热点
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败50 ...
驱动安装成功,工具无法使用
...
【微调打榜内测】【书生】端侧小模型论
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦 ...
推荐话题
1.
获取GPU状态的方式问题
2.
【论坛功能调整公告】
3.
支持qwen vl吗
4.
支持vl模型吗
5.
使用沐曦GPU可以自己创建虚拟环境吗
6.
沐熙c500支持ptx吗?
7.
沐熙c500,要使用vllm0.8.5版本启动大模型
8.
OSError: libmxomp.so: cannot open shared
精彩时刻
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败502
驱动安装成功,工具无法使用
【微调打榜内测】【书生】端侧小模型
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦语凭
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图保存
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? 没
新人必看
社区规则
隐私保护
监督机制
关于版权
技术支持邮箱:support-sw@metax-tech.com
法律声明
联系我们
©沐曦 沪ICP备2020031767号-1
快速回复
返回顶部
返回列表