大规模 Transformer 激活重计算的系统级优化
Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
Posted on
In
论文阅读
Megatron-LM 三维并行实践解析
InstructCoder: Instruction Tuning Large Language Models for Code Editing
Posted on
In
论文阅读
InstructCoder:面向代码编辑的指令微调实践解析
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
Posted on
In
论文阅读
Megatron-LM:使用模型并行训练数十亿参数的语言模型
token 简介
Posted on
In
其它
介绍token的基础知识
pytorch中的stream和event
Posted on
In
分布式基础
PyTorch 中的 Stream / Event 与跨流同步:原理、用法与可运行示例
ubuntu常见shell命令
记录最常用的shell命令
lumos:Efficient Performance Modeling and Estimation for Large-scale LLM Training
lumos模拟器论文记录
attention中张量并行与GQA
megatron中attention实现中tp与GQA参数的关系
pytorch Shard
pytorch中Shard实现