Skip to content
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
19 changes: 9 additions & 10 deletions lectures/rand_resp.md
Original file line number Diff line number Diff line change
Expand Up @@ -15,7 +15,7 @@ kernelspec:

社会污名可能会阻止人们承认潜在的令人尴尬的行为或观点。

当人们不愿意参与关于个人敏感问题的抽样调查时,他们可能会拒绝参与即使参与了,他们也可能会对敏感问题提供不正确的答案
当人们不愿意参与关于个人敏感问题的抽样调查时,他们可能会拒绝参与即使参与了,他们也可能会对敏感问题提供不真实的答案

这些问题会导致**选择**偏差,给调查的解释和设计带来挑战。

Expand All @@ -31,7 +31,7 @@ Warner的想法是在受访者的答案与调查制作者最终收到的**信号

相关理念构成了现代**差分隐私**系统的基础。

(参见 https://en.wikipedia.org/wiki/Differential_privacy)
(参见 https://baike.baidu.com/item/%E5%B7%AE%E5%88%86%E9%9A%90%E7%A7%81/22415732)


## Warner的策略
Expand All @@ -50,10 +50,9 @@ import pandas as pd

Warner {cite}`warner1965randomized` 提出并分析了以下程序:

- 从人群中有放回地抽取 $n$ 个随机样本,并对每个人进行访谈。
- 从人群中有放回地抽取 $n$ 个随机样本,并对每个人进行访谈。
- 准备一个**随机转盘**,该转盘指向字母 A 的概率为 $p$,指向字母 B 的概率为 $(1-p)$。
- 每个受试者转动随机转盘,看到一个面试官**看不到**的结果(A 或 B)。
- 每个受试者转动随机转盘,看到一个访谈者**看不到**的结果(A 或 B)。
- 受试者说明自己是否属于转盘所指向的组。
- 如果转盘指向受试者所属的组,受试者回答"是";否则回答"否"。
- 受试者如实回答问题。
Expand All @@ -80,7 +79,7 @@ $$
\log(L)= n_1 \log \left[\pi p + (1-\pi)(1-p)\right] + (n-n_{1}) \log \left[(1-\pi) p +\pi (1-p)\right]
$$ (eq:two)

关于$\pi$最大化对数似然函数的一阶必要条件是:
关于 $\pi$ 最大化对数似然函数的一阶必要条件是:

$$
\frac{(n-n_1)(2p-1)}{(1-\pi) p +\pi (1-p)}=\frac{n_1 (2p-1)}{\pi p + (1-\pi)(1-p)}
Expand All @@ -99,7 +98,7 @@ $$
\hat{\pi}=\frac{p-1}{2p-1}+\frac{n_1}{(2p-1)n}
$$ (eq:four)

我们计算MLE估计量 $\hat \pi$ 的均值和方差为:
我们计算最大似然估计量 $\hat \pi$ 的均值和方差为:

$$
\begin{aligned}
Expand Down Expand Up @@ -151,7 +150,7 @@ $$ (eq:seven)
在我们的非随机化回答法中,我们假设:

- A组成员以概率 $T_a$ 说真话,而B组成员以概率 $T_b$ 说真话
- $Y_i$ 为1或0,取决于样本中第i个成员的报告是否属于A组
- $Y_i$ 为 $1$ 或 $0$,取决于样本中第 $i$ 个成员的报告是否属于A组

那么我们可以估计 $\pi$ 为:

Expand Down Expand Up @@ -269,9 +268,9 @@ df1_mc

我们看到在许多情况下,特别是当偏差不小时,随机抽样方法的均方误差比非随机抽样方法要小。

随着$p$的增加,这些差异变得更大。
随着 $p$ 的增加,这些差异变得更大。

通过调整参数$\pi_A$$n$,我们可以研究不同情况下的结果。
通过调整参数 $\pi_A$$n$,我们可以研究不同情况下的结果。

例如,对于Warner {cite}`warner1965randomized`描述的另一种情况:

Expand Down Expand Up @@ -309,7 +308,7 @@ df3_mc = cp3.MCsimulation()
df3_mc
```

显然,随着$n$的增加,随机化回应法在更多情况下表现更好。
显然,随着 $n$ 的增加,随机化回应法在更多情况下表现更好。

## 结束语

Expand Down
Loading