登录
|
立即注册
首页
DeepSeek专区
AI应用生态
论坛
社区
文档
下载
沐曦大学
沐曦开发者社区
»
论坛
›
产品
›
沐曦产品
›
内容
发新帖
MACA Monthly Release 2.29.0.x 发布公告
[复制链接]
88
0
发表于 2025-2-20 10:39:00
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本帖最后由 沐曦-马天舒 于 2025-3-26 15:14 编辑
MACA 2.29.0.x 已经正式发布并在
软件中心 (metax-tech.com)
上线,欢迎下载。
版本信息:
Component Name
Version Information
Metax vbios
1.22.3.0
Metax Driver
2.29.0.13
MACA SDK
2.29.0.19
MACA Pytorch
2.29.0.4
发布内容:
[Feature]支持基于apt/yum的Metax Driver和MACA SDK在线安装和卸载的基本功能。
[Feature]支持在多个未执行完的kernel里精确定位引起trap问题的kernel,以及trapDump工具增强kernel入参检查。
[Feature]Fortran OpenACC编译器中支持了Reduction分离特性。
[Feature]新增mlir-translate编译器组件工具,支持mlir文件到Ivm ir文件的转换。
[Feature]发布mcPytorch2.4版本。
[Feature]mcAudio发布2.4版本,功能支持95%
[Feature]mcTriton发布3.0版本。
[Feature]重新调整mcBLAS库头文件,兼容性测试已经通过。
[Feature]升级flashAttn库版本到2.6.3,增加了softcap、small page size推理等功能的支持。
[Feature]发布mcspconv库初版。
[Improvement]MXMACAGraph的并行节点最大限度分散到不同硬件queue,提升部分场景的性能。
[lmprovement]DirectDispatch的command状态更新代码从app线程迁移到后台管理线程,提升部分场景的性能。
[Improvement]mcTracer/mcpti的tracing数据准确性提升,改进mcMemcpy在大size拷贝时耗时统计的精确性。
[Improvement]mcTracer/mcpti增加后台非实时线程处理app线程的tracing数据,降低app线程进行tracing的overhead(在某多进程多卡场景的profiling时间从75s減少到15s)
[Improvement]github上挑选的有意义的CUDA开源项目,通过率达到3429/3838=89%
[Improvement]MCCL优化C500/C550AllToAll通信,整体性能平均提升20%
[Improvement]MCCL优化C500/C550低时延算法,小数据量通信时延平均降低30%
[Improvement]MCCL优化C500X Switch跨机EP4/EP8通信性能,整体性能平均提升200%
[Improvement]MCCL支持基于nccl 2.20版本的异构集群。
[Improvement]改进post ra调度策略,消除了非必要snop,Triton的TN pipeline性能提升5%
[Improvement]post register allocation ldp/stp进行合并,提升了flashattention的性能。
[Improvement]mcBLAS库优化了部分大模型推理场景下的性能。
[lmprovement]flashAttn库优化了部分大模型推理场景下paged attention的性能。
[Improvement]mcTlass优化int8TN gemm在vllm w8a8应用场景下的性能。
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
新手社区
沐曦-马天舒
DOC_CTL
5
主题
1
回帖
274
积分
Ta的主页
发私信
图文热点
【微调打榜内测】【书生】端侧小模型论
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦 ...
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图 ...
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? ...
推荐话题
1.
沐曦MXMACA平台上pytorch构造CUDA算子库扩
2.
驱动安装kernel不匹配,cp: can't stat
3.
曦云 C500 跑 普通版本的 Qwen 可以,但是
4.
驱动装好了 但是使用vllm的benchmark 报错
5.
曦云C500 这个显卡功耗温度是不是有点异常
6.
【微调打榜内测】【书生】端侧小模型论文分
7.
【五一内测】沐曦玩转 LMDeploy、XTuner 和
8.
LMDeploy部署&&xtune微调IntenLM
精彩时刻
【微调打榜内测】【书生】端侧小模型
在智算大语言模型蓬勃发展的浪潮中,书生・浦语(InternLM)脱颖而出。书生・浦语凭
LMDeploy部署&&xtune微调IntenLM
XTune微调及验证截图 LMDeploy推理及验证结果(做完的时候没看到后面写的要截图保存
有没有C500的安装视频?
请问有没有C500的安装视频? 目前买了两张C500的显卡, 但是不知道怎么安装? 没
沐曦玩转 LMDeploy、XTuner 和 Inter
体验了一下模型量化和微调
【大模型实战营】【报名】欢迎论坛小
恭喜小伙伴成功报名第五期书生大模型实战营!所有课程免费!!! 第五期项目申报地
新人必看
社区规则
隐私保护
监督机制
关于版权
技术支持邮箱:support-sw@metax-tech.com
法律声明
联系我们
©沐曦 沪ICP备2020031767号-1
快速回复
返回顶部
返回列表