@@ -1169,7 +1169,7 @@ function llama_align_dygraph_dy2st_auto_bs2_bf16_DP2-MP1-PP1() {
1169
1169
export FLAGS_call_stack_level=3
1170
1170
export NVIDIA_TF32_OVERRIDE=0
1171
1171
export FLAGS_enable_pir_api=1
1172
- export FLAGS_max_inplace_grad_add=3
1172
+ export FLAGS_max_inplace_grad_add=4
1173
1173
1174
1174
task_name=" llama_align_dygraph_dy2st_auto_bs2_bf16_dp2"
1175
1175
case_out_dir=" output/$task_name "
@@ -1191,7 +1191,7 @@ function llama_align_dygraph_dy2st_auto_bs2_bf16_DP2-MP1-PP1() {
1191
1191
--weight_decay 0.01 \
1192
1192
--warmup_ratio 0.01 \
1193
1193
--warmup_steps 30 \
1194
- --max_grad_norm 0 .0 \
1194
+ --max_grad_norm 1 .0 \
1195
1195
--learning_rate 3e-05 \
1196
1196
--min_learning_rate 3e-06 \
1197
1197
--max_steps 10 \
@@ -1217,17 +1217,17 @@ function llama_align_dygraph_dy2st_auto_bs2_bf16_DP2-MP1-PP1() {
1217
1217
--recompute_use_reentrant true \
1218
1218
--recompute_granularity full \
1219
1219
--pp_recompute_interval 0 \
1220
- --bf16 1\
1220
+ --bf16 1 \
1221
1221
--fp16_opt_level " O2" \
1222
1222
--amp_custom_black_list " reduce_sum" " c_softmax_with_cross_entropy" \
1223
1223
--amp_custom_white_list " lookup_table" " lookup_table_v2" \
1224
1224
--amp_master_grad 1 \
1225
1225
--fuse_attention_ffn true \
1226
- --fuse_attention_qkv false \
1226
+ --fuse_attention_qkv true \
1227
1227
--fuse_sequence_parallel_allreduce false \
1228
1228
--use_flash_attention 0 \
1229
1229
--use_fused_rope false \
1230
- --use_fused_rms_norm 0 \
1230
+ --use_fused_rms_norm 1 \
1231
1231
--max_seq_length 4096 \
1232
1232
--sep_parallel_degree 1 \
1233
1233
--sequence_parallel false \
@@ -1244,9 +1244,9 @@ function llama_align_dygraph_dy2st_auto_bs2_bf16_DP2-MP1-PP1() {
1244
1244
ips=-1
1245
1245
mem=-1
1246
1246
echo " result: to_static=$to_static loss=$loss ips=$ips mem=$mem "
1247
- loss_base=10.06303482
1247
+ loss_base=9.97198105
1248
1248
if [ $IS_A100 -ne 0 ]; then
1249
- loss_base=10.24704742
1249
+ loss_base=10.18783569
1250
1250
fi
1251
1251
ips_base=-1
1252
1252
mem_base=-1
0 commit comments