为什么：高尔顿与回归分析 #19

chengjun · 2021-08-19T05:46:12Z

chengjun
Aug 19, 2021
Maintainer

要想理解统计学是如何变成一个模型盲、以数据约简为其主要事业的学科，我们只能拿起因果透镜，以关于因果关系的新科学为视角重新叙述高尔顿和皮尔逊的故事，除此之外我们别无他法。

弗朗西斯·高尔顿爵士（达尔文的大表弟）在皇家学院展示他的“高尔顿板”（Galton board）或称“梅花机”（quincunx）。他将这种类似弹珠台的仪器看作对基因特性（如身高）遗传的类比。弹球会堆积成一个上边缘为钟形曲线的图案，该曲线与人类身高的分布曲线非常相似。那么，为什么人类一代传一代，其身高分布并没有像弹球那样散开？这一难题引领他走向了“向均值回归”（regression to the mean）现象的发现。

这种规律性的图形模式有一个数学解释：单个球下落的整个路径就像一系列独立的硬币抛掷的结果一样。小球每撞上一根大头针，其或者弹向左边，或者弹向右边，表面上看，它的选择似乎是完全随机的。而所有结果之和，即往右弹落的次数与往左弹落的次数之差，则确定了小球最终会落于哪个插槽。根据1810年由皮埃尔–西蒙·拉普拉斯证明的中心极限定理[1]，任何此类随机过程，即多次硬币抛掷之总效，都会导向相同的概率分布，这种概率分布被称为正态分布（或钟形曲线）[2]。高尔顿板只是拉普拉斯中心极限定理的一个直观演示。

图2.1 高尔顿板，弗朗西斯·高尔顿用以类比人类的身高遗传规律。

（a）将许多小球扔进弹球仪器，随机向下弹跳的小球堆积成钟形曲线。
（b）高尔顿指出，经过A和B两个通道，通过两层的高尔顿板（用以模拟两代人）下落的小球所堆积成的钟形曲线会变得更宽。
（c）为了抵消这种曲线变宽的趋势，他安装了斜槽，以使“第二代”小球回到中心。斜槽是高尔顿对“向均值回归”这一现象的因果解释（资料来源：弗朗西斯·高尔顿《自然遗传》，1889）

因此，对高尔顿来说，梅花机就是一种关于身高遗传的模型，甚至可能也是关于许多其他遗传特征的模型。这是一个因果模型。简单来说，高尔顿相信，就像人类会遗传他们上一代的身高一样，金属小球也会“遗传”它们在梅花机中的位置。

但是，如果我们暂且接受这个模式，就会出现一个难题，这也是高尔顿当晚的主题。钟形曲线的宽度取决于放置在钉板顶部和底部之间钉子的行数。假设我们将行数加倍，我们就构建了一个能够表示两代遗传的模型，其中上半部分代表第一代，下半部分代表第二代。此时你就会发现，第二代比第一代出现了更多的变异情况，而在随后的几代中，钟形曲线会变得越来越宽。

身高特征更易测量，跟遗传的关联也更强。高个子男性的儿子往往身高也比普通人高——但很可能不如他们的父辈高；矮个子男性的儿子往往身高比一般人矮——但很可能不如他们的父辈矮。一开始，高尔顿称这种现象为“复归”（reversion），后又改称为“向均值回归”（regression toward mediocrity）[4]。

图2.2 散点图显示了有关身高的数据集，每个点代表的是父亲的身高（x轴）和他儿子的身高（y轴）的组合。

虚线与椭圆的主轴重合，而实线（我们称其为回归线）连接了椭圆最右边和最左边的点。二者之间的差异就是向均值回归的体现。
例如，椭圆中的黑色星号显示，父辈身高为72英寸，则其子辈平均身高为71英寸，即图中垂直框中所有数据点的平均值为71英寸。
水平框和白色星号显示的是在非因果方向（时间逆转方向）存在同样的身高损失现象

（资料来源：马雅·哈雷尔绘图，克里斯托弗·布歇供稿）

我们可以在许多其他的情境中观察到这种现象。

如果让学生参加基于同样复习资料的两次不同的标准化测试，那么，第一次测试得分较高的学生在第二次测试中的得分通常仍然高于均值，但没有第一次那么高。这种向均值回归的现象普遍存在于生活、教育和商业领域的方方面面。
比如，棒球赛中的“年度新秀”（第一赛季表现异常出色的球员）经常会遭遇“新秀墙”，即在次年的比赛中陷入表现欠佳的低谷。

当然，高尔顿并不知道这些，他认为他偶然发现的是一条遗传规律，而不是统计规律。

高尔顿推测，向均值回归是一个物理过程，一种自然方式，用以确保身高（或智力）的分布在代代相传中保持恒定。高尔顿告诉观众：“复归过程符合遗传变异的一般规律。”他将这一过程与胡克定律进行了比较，后者描述的是弹簧恢复到稳态长度的趋势。

请记住这个日子。1877年，高尔顿致力于寻求一个因果解释，并认为向均值回归是一个因果过程，就像物理定律一样。他错了，但他的错误绝非个例。时至今日，许多人仍在继续犯着同样的错误。

例如，棒球专家总是试图寻找球员遭遇新秀墙的因果解释。他们会抱怨，“他变得过度自信了”，或者“其他球员搞清楚了他的弱点”。他们也许是对的，但新秀墙实际上并不需要一个因果解释，这种现象单凭概率规则就足以解释了。

现代统计学的解释很简单。正如丹尼尔·卡尼曼在他的著作**《思考，快与慢》**中总结的：

“成功=天赋+运气，巨大的成功=更多的天赋+更多的运气。”

一个赢得年度最佳新秀奖的球员可能的确比一般人更有才华，但他（更）可能也有很多的运气。在下个赛季，他可能就没有那么幸运了，他的平均击球率也会因此下降。

高尔顿开始收集各种“人体测量”方面的统计数据：身高、前臂长度、头部长度、头部宽度等。他注意到，譬如当他根据前臂长度计算身高时，同样的向均值回归的现象又出现了：高个子男性通常有长度大于均值的前臂，但又不会像他的身高那样远高于均值。显然，身高不是前臂长度的因，反之亦然。如果存在一个原因的话，那么应该说二者都是由基因遗传决定的。高尔顿开始使用一个新的词来描述这种关系：身高和前臂长度是“共同相关的”（co-related）。之后，他又将这个词简化为一个更普通的英语单词——“相关的”（correlated）。

后来，他又意识到一个更令人吃惊的事实：在进行代际比较时，向均值回归的时间顺序可以逆转。也就是说，子辈的父辈的遗传特征情况也会回归到均值。即儿子的身高若高于均值，则其父亲的身高很可能也高于均值，但往往父亲要比儿子矮（见图2.2）。在意识到这一点时，高尔顿不得不放弃了寻找向均值回归的因果解释的任何想法，因为子辈的身高显然不可能是父辈身高的因。

通过思考这个问题，高尔顿无意间发现了一个重要事实：预测总是落在一条直线上，他称这条直线为回归线，它比椭圆的主轴（或对称轴）的斜率小（见图2.3）。事实上，这样的直线有两条，我们选择哪条线作为回归线取决于我们要预测哪个变量而将哪个变量作为证据。你可以根据父亲的身高预测儿子的身高，或者根据儿子的身高“预测”父亲的身高，这两种情况是完全对称的。

回归斜率介于0到1之间，不可能大于1，否则高个子父亲的儿子其身高会进一步高于平均值，矮个子父亲的儿子其身高会进一步低于平均值，这将使得身高分布随时间的推移而变宽。

这再次表明，对于向均值回归这一现象，因和果是没有区别的。

史学家斯蒂芬·施蒂格勒撰写了大量关于高尔顿的文章，他注意到了高尔顿在目标和志向上的这一突然转变：

“悄然消失的是达尔文、斜槽和所有的‘适者生存’……极具讽刺意味的是，高尔顿尝试将《物种起源》的理论框架数学化的初衷最终导向了他对这部伟大著作的精髓的摒弃！”

但是在当下因果推断的语境下，对我们来说，最初的那个问题依然存在：

RQ: 根据达尔文的学说，变异是代代相传的，那么我们究竟应该如何解释总体的稳定性？

根据因果图回顾高尔顿的梅花机，我首先注意到的是其中装置构建的错误。那个让高尔顿不得不设置斜槽以施加反力的不断增长的分散力，从一开始就不该出现。事实上，如果我们追踪梅花机中从一层落到下一层的某个小球，我们会看到，小球在下一层的位移继承了其沿路撞到的所有钉子带给它的变化的总和。这就与卡尼曼的方程产生了明显的矛盾：

成功=天赋+运气

巨大的成功=更多的天赋+更多的运气

根据卡尼曼的方程，第二代的成功不会继承第一代的运气。按其定义，运气本身是一个只具有短暂影响的事件，因此其对后代没有影响。然而这一具有短暂影响的事件与高尔顿的梅花机是不兼容的。

为将这两个概念放在一起比较，让我们试着画出相应的因果图。在图2.4（a）（高尔顿的概念）中，成功是世代相传的，运气的变化是无限累积的。如果“成功”等同于财富或显赫，那这个过程看起来还算合理。然而，对于像身高这样的物理特征的遗传，我们必须用图2.4（b）中的模式取代高尔顿的模型。因为只有可遗传的成分（在此图示中以天赋代指）是世代相传的，而运气则独立地影响每一代，影响某一代的运气因素不会直接或间接地影响其后代。

图2.4 关于遗传的两种模型。

（a）高尔顿板模型，在这种模型下，运气世代相传，这就导致成功的分布不断变宽。
（b）遗传模型，在这种模型下，运气不会累积，这就导致成功在代际间的稳定分布

这两种模型都与身高的钟形分布兼容，但是第一种模型不符合身高（或成功）分布的代际稳定性。而第二种模型则表明，要解释世代相传中的特征（成功）分布稳定性，我们只需要解释总体基因遗传（天赋）的稳定性即可。这种稳定性现在被称为哈代—温伯格平衡，是1908年由戈弗雷·哈罗德·哈代和威廉·温伯格在其研究中提出的，他们为这一现象给出了一个令人满意的数学解释。是的，他们借助的工具是另一个因果模型——孟德尔遗传理论。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

为什么：高尔顿与回归分析 #19

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

为什么：高尔顿与回归分析 #19

Uh oh!

chengjun Aug 19, 2021 Maintainer

Replies: 0 comments

chengjun
Aug 19, 2021
Maintainer