PDE 智算Release_2.32.0.X 发布公告

[复制链接]
15 0

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 黄美玲 于 2025-5-7 09:54 编辑

2.32.0.X正式发布,已上传至软件中心的下载 - 沐曦开发者,欢迎下载。


本次发布的软件包新增/优化/修复说明:
正式商用
[Megatron-LM] 计算通信并行支持sdmaattentionoffload支持TE;
预商用
[PaddlePaddle] 修复op paddle.eye;修复bug;
特定试用
[BitsAndbytes] 升级到0.45.2社区版;
基本演示
[Ray] 首次发布,支持ray.dag

已知模块问题和限制说明:
【Paddle-maca】
  1. 个别模型偶现训练报错;
  2. 个别模型存在loss为NaN及loss不收敛问题;
【vLLM】
  1. 个别模型性能测试不稳定;
  2. OpenAI测试如遇问题请参考官方issue:https://github.com/vllm-project/vllm/issues/7246
  3. 多卡如遇dmesg显存超出信息为正常输出;
  4. 版本升级个别模型性能需优化;
  5. 多模态性能测试支持qwen v1和intern v1;
  6. 个别模型在开启gragh场景性能测试容易出现异常;
【modelzoo.llm.ppl】
  baichuan2-13Btps在八卡环境上需要加临时环境变量,四卡环境正常;
【ColossalAI】
  如果出现OOM:
  1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9;
  2.在运行命令前执行exportMALLOC_THRESHOLD=99;
【BitsAndBytes】
  1. 个别大矩阵性能较低;
  2. 部分矩阵性能不稳定;
【modelzoo.cnn.training】
  1. centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况;
  2. Pytorch训练多VF场景下偶发hang;
  3. Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率;
  4. GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动;
  5. 个别模型对CPU资源敏感易出现性能波动现象;
  6. ssd模型多卡训练偶发loss为NaN;
  7. Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN;
  8. FP32精度训练,可以通过使能特定环境变量提升性能;
  9. centernet模型FP32精度训练时,设置特定环境变量时可能导致精度问题;
  10. 个别模型多卡对单卡性能提升的线性度不足;
  11. 个别模型在torch2.1和torch2.0版本性能存在差异;
  12. 使用torchprofiler功能,需要设置exportMACA_TRACING_MODE=2提升准确性;
【TensorFlow2】
  1. keras部分模型训练性能、精度偏低;
  2. keras部分模型训练性能、精度不稳定;
  3. facenet模型训练性能偏低;
  4. facenet模型在Arm环境中训练存在异常的情况;
【mmcv】
  1. 部分算子报AssertionError错误;
  2. container中FFmpeg报错缺少libxcb-shape.so.0;
【Deepspeed】
  1. LLama-factoryqwen2.5-72b/QvQ-72b-preview多机训练失败;
  2. 550上部分模型训练需要加上exportCUBLAS_WORKSPACE_CONFIG=:4096:64后再执行训练脚本;
【model zoo.llm.transformers】
  1. 在arm平台下,性能数据有下降;
  2. 部分模型性能数据有下降;
【CV-CUDA】
  个别测试有报错;
【XTuner】
  部分模型偶现dmsg libmcc.so segfault;
【Megatron-LM】
  1. 多机模型运行遇到Gloo connectFullMesh failed时,需要增加一下2个环境变量
      exportMCCL_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
      exportGLOO_SOCKET_IFNAME=多机模型训练使用IP对应的ifname
      注:此问题属于pytorch原生问题
      https://pytorch.org/docs/stable/distributed.html#common-environment-variables
【LMDeploy】
不支持LMDeploy的兼容适配







您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

©沐曦 沪ICP备2020031767号-1
快速回复 返回顶部 返回列表