Skip to content

一点疑问 “Lifelong Language Pretraining with Distribution-Specialized Experts” #2

@CloudComputing-linux

Description

@CloudComputing-linux

您好,不知道在这里请教您是否合适,这篇文章中他写道,在增量学习中将dense layer 和attention layer这些共享层解冻,在增量学习中不断优化。文章中写道只有分布差异大才会被添加新专家训练,所以这三个数据集应该是和原始预训练权重存在冲突,至少不是一致的数据分布,直觉上来讲这样如果顺序训练会遗忘其之前任务的效果,因为论文中没有代码无法复现其中的结果。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions