登录
|
立即注册
首页
DeepSeek专区
AI应用生态
论坛
社区
文档
下载
沐曦大学
沐曦开发者社区
»
论坛
›
产品
›
沐曦产品
›
内容
发新帖
PDE 智算Release_2.25.2.X 发布公告
[复制链接]
85
0
发表于 2024-11-28 08:46:42
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本帖最后由 黄美玲 于 2024-11-28 09:14 编辑
2.25.2.X已经正式发布并在
软件中心 (metax-tech.com)
上线,欢迎下载。
本次发布的软件包新增/优化/修复说明:
【Colossalai】更新操作及说明文档;
【Deepspeed】更新操作及说明文档;修正参数;
【Onnxruntime】新增支持若干模型;max_pool glabal_ave_pool reducemean 5d算子支持;进一步优化了conv、bridge算子性能,支持了conv 3d;支持了QuickGelu算子融合;Bert性能优化;
【Megatron-LM】增加QAdam;修正参数;
【vLLM】0.5.4版本支持;官方多模态能力支持;gptq、awq功能优化;支持cuda graph;优化了MOE模型性能;支持了PP流水线并行;
【Paddle-maca】无新增,跟随发布;
【Tensorflow2】仅支持Eager模式、混合精度;
【PPL-LLM】合入openppl 8月特性;修复部分kernel地址越界问题;
【internlm】更新操作及说明文档;
【modelzoo.llm.ppl】新增qwen1.5/yi1.5模型支持;更新说明文档;;
【modelzoo.cnn.inference】新增I3D、Speech-Transformer、yolov5s_tag5模型;
【modelzoo.llm.diffusers】支持静态模型推理;更新说明文档;
【modelzoo.llm.transformers】无新增,跟随发布;
【modelzoo.llm.vLLM】支持了cuda graph测试功能;更新说明文档;
【diffusers.training】更新说明文档;
【Alpaca-LoRA】无新增,跟随发布;
【MMCV】更新说明文档;
【TritonlnferenceServer】功能支持;
【text-generation-inference】功能支持;
已知模块问题和限制说明
【Paddle-maca】
1. 个别模型偶现训练报错;
2. 个别模型存在loss为NaN及loss不收敛问题;
【Onnxruntime-maca】
个别模型推理中出现精度不符合预期,推理报错问题;
【vLLM】
1. 个别模型性能测试不稳定;
2. OpenAI测试如遇问题请参考官方issue:
https://github.com/vllm-project/vllm/issues/7246
;
3. 多卡如遇dmesg显存超出信息为正常输出;
【modelzoo.llm.ppl】
baichuan2-13Btps在八卡环境上需要加临时环境变量,四卡环境正常;
【ColossalAI】
如果出现OOM:
1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax
xcore_page_size=9
2.在运行命令前执行exportMALLOC_THRESHOLD=99
【BitsAndBytes】
Int8xInt8toInt8个别大矩阵乘法运算会有异常;
Int8xInt8toInt8性能较低;
Matmult矩阵乘性能可能不稳定;
【Diffusers.training】
在ky2309a-aarch64平台上,性能数据有下降;
【modelzoo.cnn.training】
1. centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况;
2. Pytorch训练多VF场景下偶发hang;
3. Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率;
4. GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动;
5. 个别模型对CPU资源敏感易出现性能波动现象;
6. ssd模型多卡训练偶发loss为NaN;
7. Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN;
8. FP32精度训练,可以通过使能
PYTORCH_ALLOW_CUDA_CUDNN_TF32,TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量提升性能;
9. centernet模型FP32精度训练时,设置PYTORCH_ALLOW_CUDA_CUDNN_TF32,
TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量时可能导致精度问题;
【TensorFlow2】
1. keras个别模型训练精度不符合预期;
2. keras训练性能偏低;
3. facenet模型训练性能偏低;
4. facenet模型在Arm环境中训练存在异常的情况;
5. facenet模型训练存在偶发hang的情况;
【mmcv】
1. 部分算子报AssertionError错误;
2. container中FFmpeg报错缺少libxcb-shape.so.0;
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
黄美玲
注册会员
7
主题
3
回帖
135
积分
Ta的主页
发私信
图文热点
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败50 ...
驱动安装成功,工具无法使用
...
【微调打榜内测】【书生】端侧小模型论
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦 ...
推荐话题
1.
获取GPU状态的方式问题
2.
【论坛功能调整公告】
3.
支持qwen vl吗
4.
支持vl模型吗
5.
使用沐曦GPU可以自己创建虚拟环境吗
6.
沐熙c500支持ptx吗?
7.
沐熙c500,要使用vllm0.8.5版本启动大模型
8.
OSError: libmxomp.so: cannot open shared
精彩时刻
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败502
驱动安装成功,工具无法使用
【微调打榜内测】【书生】端侧小模型
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦语凭
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图保存
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? 没
新人必看
社区规则
隐私保护
监督机制
关于版权
技术支持邮箱:support-sw@metax-tech.com
法律声明
联系我们
©沐曦 沪ICP备2020031767号-1
快速回复
返回顶部
返回列表