Skip to content

Commit 10c42d9

Browse files
committed
🐇update ch6 ch10
1 parent 0fa672f commit 10c42d9

File tree

2 files changed

+4
-4
lines changed

2 files changed

+4
-4
lines changed

resources/资料/请于学习完成后打开/期中大作业答案/ch6 期中大作业(答案版).md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -123,13 +123,13 @@ u3,l2,t7
123123
u3,l3,t8
124124
```
125125

126-
### 6.2.2 作业详情(改格式)
126+
### 6.2.2 作业详情
127127

128128
我们用 $n_{\operatorname{loc}_i}^{u_j}$ 来表示 用户 $u_{j}$ 在位置 $loc_{i}$ 的签到次数,用 $n_{u_{j}}$ 来表示用户 $u_{j}$ 的签到总次数。因此,$n_{u_j}= \sum_{l o c_i \in L_{u_j}} n_{l o c_i}^{u_j}$ ,其中 $L_{u_{j}}$ 为 用户 $u_{j}$ 签到过的位置的集合。
129129

130130
用户 $u_{j}$ 在位置 $loc_{i}$ 的签到概率为 $prob_{l o c_i}^{u_j}=\frac{n_{l o c_i}^{u_j}}{n_{u_j}}$ 。您的任务是为每个用户计算该用户访问过的每个位置 的签到概率 $prob_{l o c_i}^{u_j}$。
131131

132-
### 6.2.3 输出格式(改格式)
132+
### 6.2.3 输出格式
133133

134134
将结果存储在 HDFS 中,格式为"$loc_i$\t $u_j,prob_{loc_i}^{u_j}$"。结果首先按升序按位置 ID 排序,然后按降序按用户的签到概率排序。如果两个用户具有相同的概率,则按照他们的 ID 以升序排序。
135135

resources/资料/请于学习完成后打开/期末大作业答案/ch10 期末大作业(答案版).md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -101,7 +101,7 @@ Hadoop生态主要分为三大类型,并以此展开来说(开放式)
101101
20201016,china builds pig apartment blocks to guard against swine flu
102102
```
103103

104-
### 10.2.2 文本权重计算(改格式)
104+
### 10.2.2 文本权重计算
105105

106106
您需要忽略诸如“ to”、“ the”和“ in”之类的停用词。该文件存储了停用词。
107107

@@ -117,7 +117,7 @@ $Weight(文本 t, 年份 y, 数据集 D) = TF(文本 t, 年份 y)* IDF(文本 t,
117117

118118
请使用 `import math` 并使用 `math.log10()`计算文本权重,并将结果四舍五入到小数点后6位。
119119

120-
### 10.2.3 输出格式(改格式)
120+
### 10.2.3 输出格式
121121

122122
如果数据集中有 N 年,那么您应该在最终输出文件中输出正好 N 行,并且这些行按年份升序排序。在每一行中,您需要以`<term, weight> `的格式输出 k 对list,并且这些对按照文本权重降序排序。如果两个文本具有相同的权重,则按字母顺序对它们进行排序。具体来说,每行的格式类似于:
123123
“year**\t** Term1,Weight1;Term 2,Weight2;… …;Termk,Weightk” 。例如,给定上述数据集和 **k** = 3,输出应该是:

0 commit comments

Comments
 (0)