作者您好! 请教一下,你们在训练这种大批量的数据,而且数据形式类似的情况下,会出现数据没有训练完,loss就很快收敛的情况吗? 如果存在,那这是什么原因?是因为数据比较类似吗?这样训练还有意义吗? 谢谢!!!