 @brightmart 多谢!多谢!多谢! `sequence_len`是512吗? 只跑了125K step也就是12W step预训练?