基座模型的通用能力有下降吗？

nice work!

有2个问题非常期待作者的分享：

1. 因为paper是围绕memory这部分有很多实验。但是好像没有看到M+ 和 基座模型（Llama-3.1-8B）在通识能力上的对比。即，引入了memory这部分，加上3个stage的后训练后得到的M+ 模型的通识能力如何。就是作为用户，我既希望模型很强又希望模型拥有“记忆”。

2. 目前训练得到的M+模型的"memory和retrieve"的能力是“通用”的吗？即 用户可以直接使用。还是跟训练数据有baise呢，比如医学知识或者特别小众领域的知识长文档, M+的memory指标都能稳定在线？

再次感谢作者的开源