🐇update ch6 ch10

wzfer · wzfer · commit 10c42d98a6ca · 2023-02-03T21:16:56.000+08:00
diff --git a/resources/资料/请于学习完成后打开/期中大作业答案/ch6 期中大作业（答案版）.md b/resources/资料/请于学习完成后打开/期中大作业答案/ch6 期中大作业（答案版）.md
@@ -123,13 +123,13 @@ u3,l2,t7
 u3,l3,t8 
 ```
 
-### 6.2.2 作业详情（改格式）
+### 6.2.2 作业详情
 
 我们用 $n_{\operatorname{loc}_i}^{u_j}$ 来表示 用户 $u_{j}$ 在位置 $loc_{i}$ 的签到次数，用 $n_{u_{j}}$ 来表示用户 $u_{j}$ 的签到总次数。因此，$n_{u_j}= \sum_{l o c_i \in L_{u_j}} n_{l o c_i}^{u_j}$ ，其中 $L_{u_{j}}$ 为 用户 $u_{j}$ 签到过的位置的集合。
 
 用户 $u_{j}$ 在位置 $loc_{i}$ 的签到概率为 $prob_{l o c_i}^{u_j}=\frac{n_{l o c_i}^{u_j}}{n_{u_j}}$ 。您的任务是为每个用户计算该用户访问过的每个位置 的签到概率 $prob_{l o c_i}^{u_j}$。
 
-### 6.2.3 输出格式（改格式）
+### 6.2.3 输出格式
 
 将结果存储在 HDFS 中，格式为"$loc_i$\t $u_j,prob_{loc_i}^{u_j}$"。结果首先按升序按位置 ID 排序，然后按降序按用户的签到概率排序。如果两个用户具有相同的概率，则按照他们的 ID 以升序排序。
 
diff --git a/resources/资料/请于学习完成后打开/期末大作业答案/ch10 期末大作业（答案版）.md b/resources/资料/请于学习完成后打开/期末大作业答案/ch10 期末大作业（答案版）.md
@@ -101,7 +101,7 @@ Hadoop生态主要分为三大类型，并以此展开来说（开放式）
 20201016,china builds pig apartment blocks to guard against swine flu
 ```
 
-### 10.2.2 文本权重计算（改格式）
+### 10.2.2 文本权重计算
 
 您需要忽略诸如“ to”、“ the”和“ in”之类的停用词。该文件存储了停用词。
 
@@ -117,7 +117,7 @@ $Weight(文本 t, 年份 y, 数据集 D) = TF(文本 t, 年份 y)* IDF(文本 t,
 
 请使用 `import math` 并使用 `math.log10()`计算文本权重，并将结果四舍五入到小数点后6位。
 
-### 10.2.3 输出格式（改格式）
+### 10.2.3 输出格式
 
 如果数据集中有 N 年，那么您应该在最终输出文件中输出正好 N 行，并且这些行按年份升序排序。在每一行中，您需要以`<term, weight> `的格式输出 k 对list，并且这些对按照文本权重降序排序。如果两个文本具有相同的权重，则按字母顺序对它们进行排序。具体来说，每行的格式类似于: 
 “year**\t** Term1,Weight1;Term 2,Weight2;… …;Termk,Weightk” 。例如，给定上述数据集和 **k** = 3，输出应该是: