Megatron-LM:使用模型并行训练数十亿参数的语言模型
最新文章
Reducing Activation Recomputation in Large Transformer Models
阅读约
1 分钟
paper
大规模 Transformer 激活重计算的系统级优化
pytorch中的stream和event
阅读约
1 分钟
stream
PyTorch 中的 Stream / Event 与跨流同步:原理、用法与可运行示例
attention中张量并行与GQA
阅读约
1 分钟
attention
megatron中attention实现中tp与GQA参数的关系
pytorch send and recv
阅读约
1 分钟
send recv
pytorch中send和recv实现
pytorch Shard
阅读约
1 分钟
shard
pytorch中Shard实现