-
Notifications
You must be signed in to change notification settings - Fork 5.8k
Open
Labels
Description
请提出你的问题 Please ask your question
32卡训练qwen卡死(4机,每张机器8卡),应该是通信问题,日志没有报错,但是gpu利用率一直100%,并且显卡占用每张卡全部不变(之前训练过程中,每张卡显存占用会发生变化的)。并且日志已经好几小时不更新了。
日志如下:

pid 10640 进程(一个训练进程)的gdb显示:
py-spy dump --pid 10640显示:

top -p 10640显示:

请问应该怎么解决呢。目前的参数设置如下:
tensor_parallel_degree=1
per_device_train_batch_size=16
gradient_accumulation_steps=2
train_args="
--sharding stage1
--sharding_parallel_degree 32
--spm_alpha 0.05
--distributed_dataloader true
--use_flash_attention true
--recompute
--recompute_granularity full
--group_size 2
--embedding_temperature 0.02
--embedding_negatives_cross_device true
--max_query_len 256
--max_passage_len 768
--embedding_matryoshka_dims 2048 1024
"