From aa695b2b5ebc42792876d503d1bef4d3a363e03e Mon Sep 17 00:00:00 2001 From: beep-bebop <41529995+beep-bebop@users.noreply.github.com> Date: Fri, 12 Apr 2024 16:20:57 +0800 Subject: [PATCH] Update perplexity.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 模型的困惑度越低,说明模型对真实数据的预测能力越强。 --- docs/tutorials/deep_learning/metrics/perplexity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/tutorials/deep_learning/metrics/perplexity.md b/docs/tutorials/deep_learning/metrics/perplexity.md index 660d45ea9..6e88c089a 100644 --- a/docs/tutorials/deep_learning/metrics/perplexity.md +++ b/docs/tutorials/deep_learning/metrics/perplexity.md @@ -38,7 +38,7 @@ p(s) &= p(w_1,w_2,...,w_n) \\ &= \prod_{i=1}^n p(w_i|w_1,w_2,...,w_{i-1}) \end{align} $$ -在语言模型训练完成之后,如何去评判语言模型的好坏?这时,困惑度就可以发挥作用了。一般来讲,用于评判语言模型的测试集均是合理的、高质量的语料,只要语言模型在测试集上的困惑度越高,则代表语言模型训练地越好,反之亦然。 +在语言模型训练完成之后,如何去评判语言模型的好坏?这时,困惑度就可以发挥作用了。一般来讲,用于评判语言模型的测试集均是合理的、高质量的语料,只要语言模型在测试集上的困惑度越低,则代表语言模型训练地越好,反之亦然。 在了解了语句概率的计算后,则对于语句$s=w_1, w_2, w_3, ..., w_n$​​,其困惑度可以这样来定义: