nice work! 有2个问题非常期待作者的分享: 1. 因为paper是围绕memory这部分有很多实验。但是好像没有看到M+ 和 基座模型(Llama-3.1-8B)在通识能力上的对比。即,引入了memory这部分,加上3个stage的后训练后得到的M+ 模型的通识能力如何。就是作为用户,我既希望模型很强又希望模型拥有“记忆”。 2. 目前训练得到的M+模型的"memory和retrieve"的能力是“通用”的吗?即 用户可以直接使用。还是跟训练数据有baise呢,比如医学知识或者特别小众领域的知识长文档, M+的memory指标都能稳定在线? 再次感谢作者的开源