只需一步,快速开始
短信验证,便捷登录
军衔等级:
少校
开源针对Hopper架构GPU(例如H100或H800)加速MLA机制计算的FlashMLA内核 开源加速MoE模型高效通信和并行处理,实现H800带宽翻倍的DeepEP代码库 开源采用CUDA编写,适用于矩阵和MoE模型计算,支持FP8精度的高性能通用矩阵乘法库DeepGEMM 开源V3/R1训练中采用的计算与通信重叠的双向管道/流水线并行算法DualPipe,用以提升资源利用率 开源利用SSD和RDMA网络带宽设计的并行文件系统3FS文件系统,用以提升模型训推效率
1 举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图
GMT+8, 2025-3-9 22:08 , Processed in 0.202964 second(s), 16 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed