如题,看了一遍太多地方有问题了,非常容易误导人。 例如,2.1关于“降维”的形容 2.2关于权重共享,会让人误解原始transformer就是权重共享的,然而这只是一些研究中或者部署上进行性能效率提升的办法。 但还是感谢总结分享这些LLM知识。