diff --git a/lectures/rand_resp.md b/lectures/rand_resp.md index 34ed11af..dc60e769 100644 --- a/lectures/rand_resp.md +++ b/lectures/rand_resp.md @@ -15,7 +15,7 @@ kernelspec: 社会污名可能会阻止人们承认潜在的令人尴尬的行为或观点。 -当人们不愿意参与关于个人敏感问题的抽样调查时,他们可能会拒绝参与,即使参与了,他们也可能会对敏感问题提供不正确的答案。 +当人们不愿意参与关于个人敏感问题的抽样调查时,他们可能会拒绝参与。即使参与了,他们也可能会对敏感问题提供不真实的答案。 这些问题会导致**选择**偏差,给调查的解释和设计带来挑战。 @@ -31,7 +31,7 @@ Warner的想法是在受访者的答案与调查制作者最终收到的**信号 相关理念构成了现代**差分隐私**系统的基础。 -(参见 https://en.wikipedia.org/wiki/Differential_privacy) +(参见 https://baike.baidu.com/item/%E5%B7%AE%E5%88%86%E9%9A%90%E7%A7%81/22415732) ## Warner的策略 @@ -50,10 +50,9 @@ import pandas as pd Warner {cite}`warner1965randomized` 提出并分析了以下程序: -- 从人群中有放回地抽取 $n$ 个随机样本,并对每个人进行访谈。 - 从人群中有放回地抽取 $n$ 个随机样本,并对每个人进行访谈。 - 准备一个**随机转盘**,该转盘指向字母 A 的概率为 $p$,指向字母 B 的概率为 $(1-p)$。 -- 每个受试者转动随机转盘,看到一个面试官**看不到**的结果(A 或 B)。 +- 每个受试者转动随机转盘,看到一个访谈者**看不到**的结果(A 或 B)。 - 受试者说明自己是否属于转盘所指向的组。 - 如果转盘指向受试者所属的组,受试者回答"是";否则回答"否"。 - 受试者如实回答问题。 @@ -80,7 +79,7 @@ $$ \log(L)= n_1 \log \left[\pi p + (1-\pi)(1-p)\right] + (n-n_{1}) \log \left[(1-\pi) p +\pi (1-p)\right] $$ (eq:two) -关于$\pi$最大化对数似然函数的一阶必要条件是: +关于 $\pi$ 最大化对数似然函数的一阶必要条件是: $$ \frac{(n-n_1)(2p-1)}{(1-\pi) p +\pi (1-p)}=\frac{n_1 (2p-1)}{\pi p + (1-\pi)(1-p)} @@ -99,7 +98,7 @@ $$ \hat{\pi}=\frac{p-1}{2p-1}+\frac{n_1}{(2p-1)n} $$ (eq:four) -我们计算MLE估计量 $\hat \pi$ 的均值和方差为: +我们计算最大似然估计量 $\hat \pi$ 的均值和方差为: $$ \begin{aligned} @@ -151,7 +150,7 @@ $$ (eq:seven) 在我们的非随机化回答法中,我们假设: - A组成员以概率 $T_a$ 说真话,而B组成员以概率 $T_b$ 说真话 -- $Y_i$ 为1或0,取决于样本中第i个成员的报告是否属于A组。 +- $Y_i$ 为 $1$ 或 $0$,取决于样本中第 $i$ 个成员的报告是否属于A组。 那么我们可以估计 $\pi$ 为: @@ -269,9 +268,9 @@ df1_mc 我们看到在许多情况下,特别是当偏差不小时,随机抽样方法的均方误差比非随机抽样方法要小。 -随着$p$的增加,这些差异变得更大。 +随着 $p$ 的增加,这些差异变得更大。 -通过调整参数$\pi_A$和$n$,我们可以研究不同情况下的结果。 +通过调整参数 $\pi_A$ 和 $n$,我们可以研究不同情况下的结果。 例如,对于Warner {cite}`warner1965randomized`描述的另一种情况: @@ -309,7 +308,7 @@ df3_mc = cp3.MCsimulation() df3_mc ``` -显然,随着$n$的增加,随机化回应法在更多情况下表现更好。 +显然,随着 $n$ 的增加,随机化回应法在更多情况下表现更好。 ## 结束语