推理王国的兔狲小思考：当我们谈论线性注意力，我们到底在谈论什么？

lizixi-0x2F · lizixi-0x2F · commit cc81880c61d9 · 2026-04-09T12:09:19.000+08:00
diff --git a/docs/volume1/chapterbonous/index.md b/docs/volume1/chapterbonous/index.md
@@ -4,6 +4,22 @@
 
 ---
 
+:::details 推理王国的兔狲小思考：当我们谈论线性注意力，我们到底在谈论什么？
+
+在探索大模型架构的跋涉中，线性注意力曾被视为打破算力枷锁的圣杯。它的优雅在于其底层严密的代数结构——Monoid（幺半群）。在这里，前缀和的结合律允许我们将长序列切分并行，轻松摆脱了平方级的 BIG-O 复杂度诅咒。
+
+然而，这种优雅的代价是不可逆的纠缠。在 Monoid 的世界里，一旦特征被写入状态矩阵，就如同红墨水滴入水缸，彻底与其他信息混叠。这里只有不断叠加的单向记忆，却没有名为"撤销"的逆元。这种单向性，恰恰构成了模型走向真正因果理解的死穴。
+
+当试图让模型真正具备推理能力时，Pearl 的 do 算子是必须跨越的高山。do 算子的本质是精准干预：强行切断某条因果链，观察反事实的结果。这就要求从浩瀚的记忆池中，精确剥离某个特定特征的全部影响。
+
+但 Monoid 缺失逆元，使得 do 算子所必需的"剥离"操作，在代数基石上根本不存在。这不是工程的缺陷，而是数学法则的铁壁。Spartacus 模型（兔狲的踩坑研究，详见下方抽象代数插曲）在此做出了极致的妥协，用多维度的独立衰减让机器学会精细地"遗忘"。它穷尽了墙内的极限，却依然触不到墙外那个属于 Group（群）的因果世界。
+
+关于因果神经算子和线性注意力的局限以及 do 干预算子的缺失，详见本章番外的抽象代数插曲，里面记录了兔狲的踩坑记录（对，是兔狲一个月前刚踩的）。
+
+:::
+
+---
+
 上卷走过了13章：从熵增与预测（第1章），到符号系统的天花板（第2章），再到因果的边界（第6章）、注意力机制（第9章）、搜索的艺术（第10章），最后在推理的边界前停下（第13章）。
 
 这些理论如何变成可运行的代码？