📝

jiangyangcreate · jiangyangcreate · commit 03774fbac92e · 2024-12-14T01:33:49.000+08:00
diff --git a/docs/docs/机器学习/传统算法/朴素贝叶斯.md b/docs/docs/机器学习/传统算法/朴素贝叶斯.md
@@ -62,6 +62,106 @@ P（垃圾邮件|免费，恭喜，辛苦） = P（免费|垃圾邮件）* P（
 P（正常邮件|免费，恭喜，辛苦） = P（免费|正常邮件）* P（恭喜|正常邮件）* P（辛苦|正常邮件）* P（正常邮件）= (5+1/20)² * (6+1/20) * (2+1/20) * 0.2 =0.012885
 ```
 
+```python showLineNumbers
+
+# 参考答案
+import numpy as np
+
+class NaiveBayes:
+    def __init__(self):
+        self.class_probs = {}  # 存储每个类别的先验概率 P(c)
+        self.word_probs = {}   # 存储每个类别中单词的条件概率 P(w|c)
+        self.vocab = set()     # 保存所有出现的单词构成的词汇表
+        self.smooth = 1        # 拉普拉斯平滑参数
+
+    def fit(self, X, y):
+        # 获取唯一类别和其数量
+        classes, class_counts = np.unique(y, return_counts=True)
+        self.class_probs = {label: count / len(y) for label, count in zip(classes, class_counts)}  # 先验概率
+        
+        # 初始化词汇表和词频统计
+        word_count = {label: {} for label in classes}  # 每个类别的词频表
+        class_word_totals = {label: 0 for label in classes}  # 每个类别单词总数
+        
+        # 遍历每个样本进行分词和统计
+        for text, label in zip(X, y):
+            words = text.split(" ")
+            for word in words:
+                self.vocab.add(word)  # 添加到词汇表
+                if word not in word_count[label]:
+                    word_count[label][word] = 0
+                word_count[label][word] += 1  # 更新词频
+                class_word_totals[label] += 1  # 当前类别单词总数加1
+
+        # 计算条件概率 P(w|c) 加拉普拉斯平滑
+        vocab_size = len(self.vocab)  # 词汇表大小
+        self.word_probs = {label: {} for label in classes}
+        for label in classes:
+            for word in self.vocab:
+                count = word_count[label].get(word, 0)  # 获取词频，若未出现则为0
+                self.word_probs[label][word] = (count + self.smooth) / (
+                    class_word_totals[label] + vocab_size * self.smooth
+                )
+
+    def predict(self, X):
+        predictions = []  # 存储所有样本的预测结果
+        for text in X:
+            words = text.split(" ")
+            class_scores = {}  # 存储每个类别的后验概率
+
+            # 计算后验概率 P(c|w1,w2,...,wn)
+            for label in self.class_probs:
+                class_scores[label] = self.class_probs[label]
+                for word in words:
+                    if word in self.word_probs[label]:  # 如果词在词汇表中
+                        class_scores[label] *= self.word_probs[label][word]
+                    else:
+                        # 若单词未在词汇表中，跳过计算
+                        class_scores[label] *= 1/len(self.vocab)
+            
+            # 选择后验概率最大的类别作为预测结果
+            predictions.append(max(class_scores, key=class_scores.get))
+        
+        return predictions
+    
+    def score(self, X, y):
+        predictions = self.predict(X)
+        return np.mean(predictions == y)
+
+
+# 数据
+data = np.array([
+    ("恭喜 你 赢得 了 大奖 ！","诈骗"),
+    ("请 立即 更新 您 的 账户 信息","诈骗"),
+    ("您的 账户 存在 异常 ，请 尽快 处理","诈骗"),
+    ("这是 您 的 账单 ，请 查看","正常"),
+    ("您的 订单 已 发货","正常"),
+    ("请 确认 您 的 注册 信息","正常"),
+    ("您 有 新的 消息 ，请 查看","正常"),
+    ("点击 此 链接 获取 优惠券","诈骗"),
+    ("您的 账户 已 被 锁定 ，请 立即 联系","诈骗"),
+    ("恭喜 您 获得 免费 试用 ！","诈骗"),
+    ("请 不要 分享 您 的 密码","正常"),
+    ("您的 订阅 即将 到期 ，请 续费","正常"),
+    ("您 有 未 读 邮件 ，请 查看","正常"),
+    ("立即 行动 ，获取 限时 优惠 ！","诈骗"),
+    ("您的 信用卡 信息 需要 更新","诈骗"),
+])
+X = data[:, 0]  # 文本数据
+y = data[:, 1]  # 标签数据
+
+# 创建模型并训练
+model = NaiveBayes()
+model.fit(X, y)
+
+# 输出结果，比较预测类别与实际类别
+print(model.score(X, y))
+
+
+```
+
+### 使用sklearn模块完成
+
 ```python showLineNumbers
 from sklearn.naive_bayes import GaussianNB
 import numpy as np
@@ -89,6 +189,7 @@ print("类别概率:", predicted_proba)
 
 ```
 
+
 ### 简单示例
 
 ```python showLineNumbers