Category: 训练 | 果冻甜甜的

0%

2026

03-15

AMPeD: An Analytical Model for Performance in Distributed Training of Transformers

03-15

InstructCoder: Instruction Tuning Large Language Models for Code Editing

03-15

Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM

03-15

lumos:Efficient Performance Modeling and Estimation for Large-scale LLM Training

03-15

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

03-15

Rail-only: A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters

03-15

Reducing Activation Recomputation in Large Transformer Models

03-15

Reducing Energy Bloat in Large Model Training