PDE 智算Release_2.31.0.X 发布公告

查看全部 · 发表于 2025-4-1 10:46:15

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

2.31.0.X已经正式发布并在软件中的下载 - 沐曦开发者上线，欢迎下载。

本次发布的软件包新增/优化/修复说明：
正式商用 / 特定试用
[Megatron-LM] auto search；冷热专家；deepseek系列基础结构，aux loss free；更新Readme和特性feature介绍；
[DeepSpeed] 增加liger_kernel融合算子；torch切换到2.4；
[Colossalai] 官方版本从0.3.4搭配，升级到0.3.6；
基本演示
[Triton-inference-server] Pytorch版本升级到2.4;

已知模块问题和限制说明：
【Paddle-maca】
  1. 个别模型偶现训练报错；
  2. 个别模型存在loss为NaN及loss不收敛问题；
【vLLM】
  1. 个别模型性能测试不稳定；
  2. OpenAI测试如遇问题请参考官方issue：https://github.com/vllm-project/vllm/issues/7246；
  3. 多卡如遇dmesg显存超出信息为正常输出；
  4. 版本升级个别模型性能需优化；
  5. 多模态性能测试支持qwen v1和intern v1；
  6. 个别模型在开启gragh场景性能测试容易出现异常；
【modelzoo.llm.ppl】
  baichuan2-13Btps在八卡环境上需要加临时环境变量，四卡环境正常；
【ColossalAI】
  如果出现OOM：
  1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9；
  2.在运行命令前执行exportMALLOC_THRESHOLD=99；
【BitsAndBytes】
  1. 个别大矩阵性能较低；
  2. 部分矩阵性能不稳定；
【modelzoo.cnn.training】
  1. centernet_R18和Retinanet模型训练时，存在amp精度loss为NaN的情况；
  2. Pytorch训练多VF场景下偶发hang；
  3. Pytorch训练学习率策略，推荐使用--auto-scale-lr自适应学习率；
  4. GPU占用率低时受到其他硬件因素影响较大，在不同机器测试时易出现性能波动；
  5. 个别模型对CPU资源敏感易出现性能波动现象；
  6. ssd模型多卡训练偶发loss为NaN；
  7. Deeplabv3模型FP32精度单卡训练时，需要设置新的环境变量以避免loss为NaN；
  8. FP32精度训练，可以通过使能特定环境变量提升性能；
  9. centernet模型FP32精度训练时，设置特定环境变量时可能导致精度问题；
  10. 个别模型多卡对单卡性能提升的线性度不足;
  11. 个别模型在torch2.1和torch2.0版本性能存在差异；
  12. 使用torchprofiler功能，需要设置exportMACA_TRACING_MODE=2提升准确性；
  13. 个别分类模型性能有小幅下降；
【TensorFlow2】
  1. keras部分模型训练性能、精度偏低；
  2. keras部分模型训练性能、精度不稳定；
  3. facenet模型训练性能偏低；
  4. facenet模型在Arm环境中训练存在异常的情况；
【mmcv】
  1. 部分算子报AssertionError错误；
  2. container中FFmpeg报错缺少libxcb-shape.so.0；
【Deepspeed】
  部分模型性能不达标；
【model zoo.llm.transformers】
  1. 在arm平台下，性能数据有下降；
  2. 个别模型精度有误差；
  3. 部分模型性能数据有波动；
【CV-CUDA】
  个别测试有报错；
【XTuner】
  1. 部分模型偶现dmesg libmccl.so segfault；
  2. C500 internlm2-20b 模型训练dmesg 有"failed to create bo on domain VRAM"Error；
  3. 模型训练日志有异常信息；
  4. LLaVA-InternLM2-20B、internlm2_5-7b性能有下降；
【Megatron-LM】
  1. 多机模型运行遇到Gloo connectFullMesh failed时，需要增加一下2个环境变量
   exportMCCL_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
   exportGLOO_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
   注：此问题属于pytorch原生问题
   https://pytorch.org/docs/stable/distributed.html#common-environment-variables
【LMDeploy】
不支持LMDeploy的兼容适配

PDE 智算Release_2.31.0.X 发布公告

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

图文热点

社区下载页面无法登录

驱动安装成功，工具无法使用

【微调打榜内测】【书生】端侧小模型论

推荐话题

精彩时刻

新人必看