果冻甜甜的

0%

最新文章

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

阅读约 1 分钟 paper

Megatron-LM：使用模型并行训练数十亿参数的语言模型

Reducing Activation Recomputation in Large Transformer Models

阅读约 1 分钟 paper

大规模 Transformer 激活重计算的系统级优化

pytorch中的stream和event

阅读约 1 分钟 stream

PyTorch 中的 Stream / Event 与跨流同步：原理、用法与可运行示例

attention中张量并行与GQA

阅读约 1 分钟 attention

megatron中attention实现中tp与GQA参数的关系

pytorch send and recv

阅读约 1 分钟 send recv

pytorch中send和recv实现

pytorch Shard

阅读约 1 分钟 shard

pytorch中Shard实现