Skip to content

Commit cc81880

Browse files
committed
推理王国的兔狲小思考:当我们谈论线性注意力,我们到底在谈论什么?
1 parent d4ff364 commit cc81880

File tree

1 file changed

+16
-0
lines changed

1 file changed

+16
-0
lines changed

docs/volume1/chapterbonous/index.md

Lines changed: 16 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -4,6 +4,22 @@
44
55
---
66

7+
:::details 推理王国的兔狲小思考:当我们谈论线性注意力,我们到底在谈论什么?
8+
9+
在探索大模型架构的跋涉中,线性注意力曾被视为打破算力枷锁的圣杯。它的优雅在于其底层严密的代数结构——Monoid(幺半群)。在这里,前缀和的结合律允许我们将长序列切分并行,轻松摆脱了平方级的 BIG-O 复杂度诅咒。
10+
11+
然而,这种优雅的代价是不可逆的纠缠。在 Monoid 的世界里,一旦特征被写入状态矩阵,就如同红墨水滴入水缸,彻底与其他信息混叠。这里只有不断叠加的单向记忆,却没有名为"撤销"的逆元。这种单向性,恰恰构成了模型走向真正因果理解的死穴。
12+
13+
当试图让模型真正具备推理能力时,Pearl 的 do 算子是必须跨越的高山。do 算子的本质是精准干预:强行切断某条因果链,观察反事实的结果。这就要求从浩瀚的记忆池中,精确剥离某个特定特征的全部影响。
14+
15+
但 Monoid 缺失逆元,使得 do 算子所必需的"剥离"操作,在代数基石上根本不存在。这不是工程的缺陷,而是数学法则的铁壁。Spartacus 模型(兔狲的踩坑研究,详见下方抽象代数插曲)在此做出了极致的妥协,用多维度的独立衰减让机器学会精细地"遗忘"。它穷尽了墙内的极限,却依然触不到墙外那个属于 Group(群)的因果世界。
16+
17+
关于因果神经算子和线性注意力的局限以及 do 干预算子的缺失,详见本章番外的抽象代数插曲,里面记录了兔狲的踩坑记录(对,是兔狲一个月前刚踩的)。
18+
19+
:::
20+
21+
---
22+
723
上卷走过了13章:从熵增与预测(第1章),到符号系统的天花板(第2章),再到因果的边界(第6章)、注意力机制(第9章)、搜索的艺术(第10章),最后在推理的边界前停下(第13章)。
824

925
这些理论如何变成可运行的代码?

0 commit comments

Comments
 (0)