大模型新架构如 SSM、MMAMA、Linear Transformer、RKWV 在多个方面进行了创新与优化。它通过更高效的并行计算策略,提升了模型训练和推理的速度;采用新的网络结构设计,增强了模型对复杂数据的理解能力;同时引入了更灵活的参数共享机制,在不降低性能的前提下降低了计算资源消耗。此外,新架构还注重与实际应用场景的结合,能够更好地适应不同任务需求,为 AI 的广泛应用提供了更强大的技术支撑。
建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
| 大纲 | 小节 | 链接 | 状态 |
|---|---|---|---|
| 创新架构 | 01 打破 Transformer 架构垄断 | PPT, 视频 | ✅ |
| 创新架构 | 02 Linear Transformer 线性层 | PPT, 视频 | ✅ |
| 💖 | 🌟 | 💖 | |
| 代码实践 💻 | 01 基于 RWKV 的 RNN 范式革新 | Markdown, Jupyter | ✅ |
| 代码实践 💻 | 02 Mamba 状态空间模型 | Markdown, Jupyter | ✅ |
| 代码实践 💻 | 03 RetNet:混合训练实战 | Markdown, Jupyter | ✅ |
系列视频托管B 站和油管,PPT 开源在github,欢迎引用!
非常希望您参与到这个开源课程中,B 站给 ZOMI 留言哦!