Skip to content

基座模型的通用能力有下降吗? #12

@xiexie123

Description

@xiexie123

nice work!

有2个问题非常期待作者的分享:

  1. 因为paper是围绕memory这部分有很多实验。但是好像没有看到M+ 和 基座模型(Llama-3.1-8B)在通识能力上的对比。即,引入了memory这部分,加上3个stage的后训练后得到的M+ 模型的通识能力如何。就是作为用户,我既希望模型很强又希望模型拥有“记忆”。

  2. 目前训练得到的M+模型的"memory和retrieve"的能力是“通用”的吗?即 用户可以直接使用。还是跟训练数据有baise呢,比如医学知识或者特别小众领域的知识长文档, M+的memory指标都能稳定在线?

再次感谢作者的开源

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions