单机8卡A100-80G deepspeed ZERO3 或者非ZERO3 pretrain LLaMA-7B时，不能充分利用显卡 #56

ShadowTeamCN · 2023-04-25T06:42:09Z

不用deepspeed会爆显存，
有没有推荐的预训练参数设置，可以全程高效率的跑GPU

MinhuiWan · 2023-08-28T03:26:21Z

根据megatron框架的对比测试，zero3策略，megatron使用from apex.optimizers import FusedAdam as Adam 比 TencentPretrain中使用的deepspeed.ops.adam.DeepSpeedCPUAdam，GPU利用率高

Provide feedback