您好,不知道在这里请教您是否合适,这篇文章中他写道,在增量学习中将dense layer 和attention layer这些共享层解冻,在增量学习中不断优化。文章中写道只有分布差异大才会被添加新专家训练,所以这三个数据集应该是和原始预训练权重存在冲突,至少不是一致的数据分布,直觉上来讲这样如果顺序训练会遗忘其之前任务的效果,因为论文中没有代码无法复现其中的结果。