sft训练Wan2.1-T2V-14B,开启zero3,在accelerate.yaml中设置了zero3_save_16bit_model: true,存储模型通信卡死,根据日志发现卡死原因,rank 0使用op allgather_base,其他rank使用op allreduce 换用zero2可以正常工作 这是deepspeed的bug吗,还是diffsynth模型需要适配?