登录
|
立即注册
首页
DeepSeek专区
AI应用生态
论坛
社区
文档
下载
沐曦大学
沐曦开发者社区
»
论坛
›
产品
›
沐曦产品
›
内容
发新帖
MACA Monthly Release 2.29.0.x 发布公告
[复制链接]
129
0
发表于 2025-2-20 10:39:00
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本帖最后由 沐曦-马天舒 于 2025-3-26 15:14 编辑
MACA 2.29.0.x 已经正式发布并在
软件中心 (metax-tech.com)
上线,欢迎下载。
版本信息:
Component Name
Version Information
Metax vbios
1.22.3.0
Metax Driver
2.29.0.13
MACA SDK
2.29.0.19
MACA Pytorch
2.29.0.4
发布内容:
[Feature]支持基于apt/yum的Metax Driver和MACA SDK在线安装和卸载的基本功能。
[Feature]支持在多个未执行完的kernel里精确定位引起trap问题的kernel,以及trapDump工具增强kernel入参检查。
[Feature]Fortran OpenACC编译器中支持了Reduction分离特性。
[Feature]新增mlir-translate编译器组件工具,支持mlir文件到Ivm ir文件的转换。
[Feature]发布mcPytorch2.4版本。
[Feature]mcAudio发布2.4版本,功能支持95%
[Feature]mcTriton发布3.0版本。
[Feature]重新调整mcBLAS库头文件,兼容性测试已经通过。
[Feature]升级flashAttn库版本到2.6.3,增加了softcap、small page size推理等功能的支持。
[Feature]发布mcspconv库初版。
[Improvement]MXMACAGraph的并行节点最大限度分散到不同硬件queue,提升部分场景的性能。
[lmprovement]DirectDispatch的command状态更新代码从app线程迁移到后台管理线程,提升部分场景的性能。
[Improvement]mcTracer/mcpti的tracing数据准确性提升,改进mcMemcpy在大size拷贝时耗时统计的精确性。
[Improvement]mcTracer/mcpti增加后台非实时线程处理app线程的tracing数据,降低app线程进行tracing的overhead(在某多进程多卡场景的profiling时间从75s減少到15s)
[Improvement]github上挑选的有意义的CUDA开源项目,通过率达到3429/3838=89%
[Improvement]MCCL优化C500/C550AllToAll通信,整体性能平均提升20%
[Improvement]MCCL优化C500/C550低时延算法,小数据量通信时延平均降低30%
[Improvement]MCCL优化C500X Switch跨机EP4/EP8通信性能,整体性能平均提升200%
[Improvement]MCCL支持基于nccl 2.20版本的异构集群。
[Improvement]改进post ra调度策略,消除了非必要snop,Triton的TN pipeline性能提升5%
[Improvement]post register allocation ldp/stp进行合并,提升了flashattention的性能。
[Improvement]mcBLAS库优化了部分大模型推理场景下的性能。
[lmprovement]flashAttn库优化了部分大模型推理场景下paged attention的性能。
[Improvement]mcTlass优化int8TN gemm在vllm w8a8应用场景下的性能。
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
沐曦-马天舒
DOC_CTL
5
主题
1
回帖
286
积分
Ta的主页
发私信
图文热点
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败50 ...
驱动安装成功,工具无法使用
...
【微调打榜内测】【书生】端侧小模型论
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦 ...
推荐话题
1.
获取GPU状态的方式问题
2.
【论坛功能调整公告】
3.
支持qwen vl吗
4.
支持vl模型吗
5.
使用沐曦GPU可以自己创建虚拟环境吗
6.
沐熙c500支持ptx吗?
7.
沐熙c500,要使用vllm0.8.5版本启动大模型
8.
OSError: libmxomp.so: cannot open shared
精彩时刻
社区下载页面无法登录
社区论坛页面正常登录成功,但是一到下载页面就需要重新登录,且一直登录失败502
驱动安装成功,工具无法使用
【微调打榜内测】【书生】端侧小模型
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦语凭
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图保存
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? 没
新人必看
社区规则
隐私保护
监督机制
关于版权
技术支持邮箱:support-sw@metax-tech.com
法律声明
联系我们
©沐曦 沪ICP备2020031767号-1
快速回复
返回顶部
返回列表