一点疑问  “Lifelong Language Pretraining with Distribution-Specialized Experts”

您好，不知道在这里请教您是否合适，这篇文章中他写道，在增量学习中将dense layer 和attention layer这些共享层解冻，在增量学习中不断优化。文章中写道只有分布差异大才会被添加新专家训练，所以这三个数据集应该是和原始预训练权重存在冲突，至少不是一致的数据分布，直觉上来讲这样如果顺序训练会遗忘其之前任务的效果，因为论文中没有代码无法复现其中的结果。