【分布式训练】Megatron-LM 中 Context Parallel原理:如何结合flash_attnV2和Ring attention
第二步:Megatron-LM 中 Context Parallel原理, 如何实现负载均衡的, 数据对称重组,并移除causal masking中不必要的计算, 如何修正F2。第一步:先学习flash_attn和Ring Attntion。第三步:修正F2 的原理及公式推导。
·
第一步:先学习flash_attn和Ring Attntion
入门flash_attn , 这是我看的第一篇文章, 图解大模型计算加速系列:FlashAttention V1,从硬件到计算逻辑
作者其他专栏也很好
第二步:Megatron-LM 中 Context Parallel原理, 如何实现负载均衡的, 数据对称重组,并移除causal masking中不必要的计算, 如何修正F2
[并行训练]Context Parallelism的原理与代码浅析
第三步:修正F2 的原理及公式推导
ring attention + flash attention:超长上下文之路
详细推导
第四步:最后再看这个统一的代码推导。看懂前面的,再看这个,写的真不错。
从Coding视角出发推导Ring Attention和FlashAttentionV2前向过程
更多推荐
所有评论(0)