是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程

[复制链接]
121 2

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您好,是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程?



只看到了较小的模型  Qwen2.5-Math-1.5B 的 SFT 的方法(使用DeepSeek-Factory),如果要使用 TP + PP 的并行方式(类似 megatron )在 4 x 8卡C500 环境微调较大的模型,比如 72B,应该如何执行?比如指定 TP=8, PP=4。


或者是否可以有适配使用 Megatron LM 训练框架的镜像和对应的例子?

精彩评论2

zhangjinnan  版主  发表于 2025-4-11 11:10:35 | 显示全部楼层
本帖最后由 zhangjinnan 于 2025-4-11 11:16 编辑

部署可参考:https://developer.metax-tech.com/doc/105
DataTree  新手上路  发表于 2025-4-11 14:15:22 | 显示全部楼层
https://developer.metax-tech.com/doc/42 这个是megatron lm训练的例子。蒸馏模型的微调和非蒸馏模型微调方法是一致的,在框架层面上和cuda上使用体验也是一致的,并行策略上可以尝试tp4pp8
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

©沐曦 沪ICP备2020031767号-1
快速回复 返回顶部 返回列表