开源针对Hopper架构GPU(例如H100或H800)加速MLA机制计算的FlashMLA内核
开源加速MoE模型高效通信和并行处理,实现H800带宽翻倍的DeepEP代码库
开源采用CUDA编写,适用于矩阵和MoE模型计算,支持FP8精度的高性能通用矩阵乘法库DeepGEMM
开源V3/R1训练中采用的计算与通信重叠的双向管道/流水线并行算法DualPipe,用以提升资源利用率
开源利用SSD和RDMA网络带宽设计的并行文件系统3FS文件系统,用以提升模型训推效率
通信人家园 (https://www.txrjy.com/) | Powered by C114 |