latex公式识别 #14487

lm91888 · 2025-01-03T09:51:11Z

lm91888
Jan 3, 2025

在原来基础上改了些代码，现在训练时的效果特别好，第一个epoch_rate就已经达到0.9。在训练时指标看着也没有过拟合的迹象，但是在测试模型时输出的预测结果和真实的结果完全不一样。并且我使用训练集来进行测试，结果也是一样的，预测 ['{{{{{{{{{{{{{{{{{', '\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,']
真实 ['\sigma(42)=96=3\times4\times8=\sigma(2)\times\sigma(3)\times\sigma(7)=1+2+3+6+7+14+21+42', 't\rightarrow t+\xi^{t}(x,X^{a})\,,\quad x^{m}\rightarrow x^{m}+\xi^{m}(x,X),\quad X^{a}\rightarrow X^{a}+\xi^{a}(X)\,,']。

我把训练日志也传上来，现在不知道到底是什么情况，说是解码器中评估时生成预测输出的代码有问题吧，但是弄到源码中去又能识别出来一些，不会像现在这样乱七八糟的。有没有大佬能看出来是什么问题吗？
train.log

lm91888 · 2025-01-03T09:51:53Z

lm91888
Jan 3, 2025
Author

图片中是每隔200步记录一次的

0 replies

GreatV · 2025-01-03T09:59:29Z

GreatV
Jan 3, 2025
Maintainer

从你的描述来看，问题的核心是模型在训练时表现良好，但在测试阶段（无论是测试集还是训练集）预测结果与真实值严重不符，输出乱码。这种情况通常是由以下几种原因之一导致的：

1. 解码器或后处理逻辑问题

现象：如果训练时的指标正常，但推理阶段输出完全不正确，很可能是解码器在生成预测或后处理时出了问题。
排查建议：
1. 仔细检查解码器的实现代码（尤其是测试阶段的预测逻辑），确保解码过程与训练阶段的逻辑一致。
2. 确认测试时的rec_char_dict_path（字符字典）与训练阶段使用的字典完全一致。如果字典文件不匹配，可能会导致预测结果乱码。
3. 如果你已经对源码进行了修改，重点检查你更改的部分，尤其是解码逻辑或生成过程中是否有特殊字符未被正确处理。

2. 数据预处理不一致

现象：训练时数据预处理正确，但测试时由于预处理不一致，导致模型输入与期望不符。
排查建议：
1. 确认测试阶段的图片预处理代码与训练阶段完全一致，例如图片的归一化、尺寸缩放等操作。
2. 确保预测时输入的数据格式（如白底黑字）与训练时数据格式一致。LaTeX-OCR要求输入图片为白底黑字，如果输入图片格式不对，可能会导致模型无法正确识别。

3. 训练过程中过拟合或漂移

现象：训练集上的表现很好，但实际上模型可能只是记住了训练集的特定模式，未能泛化。
排查建议：
1. 检查训练集和测试集是否有显著分布差异。例如，测试集是否包含了训练集中未见过的字符或公式。
2. 如果训练集表现也异常（如乱码输出），可能是模型在训练中过拟合或学习到了错误的模式，建议在训练时增加正则化手段，如dropout或数据增强。

4. 模型权重保存或加载错误

现象：训练时模型表现优异，但加载保存的权重文件后，测试效果完全不对。
排查建议：
1. 确认训练时保存的权重文件是否正确保存，并在测试时正确加载。
2. 检查配置文件中的pretrained_model路径，确保指向正确的权重文件。
3. 如果使用的是冻结后的inference模型，确保权重转换时未出错。

5. 损失函数或指标计算问题

现象：训练过程中的epoch_rate达到了0.9，但模型实际性能不佳。
排查建议：
1. 检查训练时的损失函数和评价指标实现是否正确。
2. 确认你的ExpRate等评价指标是否与文档中提到的一致，或者在计算过程中是否存在偏差。

6. 字符字典及Tokenization问题

现象：测试输出中出现了大量无意义字符，如{{{{{{{{{{{{{{{{。
排查建议：
1. 检查训练和测试时的字典文件latex_ocr_tokenizer.json，确保其内容一致。
2. 确保训练时的标签数据（如math.txt）正确映射到字典中的索引，避免标签和字典错位。

具体推荐操作

根据你的描述，建议按以下顺序操作：

检查解码器代码（测试阶段的预测生成逻辑），确保与训练阶段一致。
验证字符字典一致性：确认训练和测试阶段使用的是同一个字典文件。
验证数据预处理一致性：确保图片输入格式（如白底黑字）和训练时一致。
测试训练好的模型：
- 使用训练集图片进行预测，观察是否仍然输出乱码。
- 如果训练集预测也不正确，问题可能出在解码器或模型权重上。
分析日志文件：
- 从你提供的train.log中，检查训练时是否存在异常输出、过高的损失值波动或其他异常。

结论

从你的描述中，最可能的原因是测试阶段的解码器逻辑或字符字典的使用不一致。建议优先从解码器和字典入手排查。如果仍然无法解决，可以尝试将训练日志和更多上下文（如修改的代码段）提供出来，以便更具体地定位问题。

希望对你有所帮助！

Response generated by feifei-bot | chatgpt-4o-latest

1 reply

lm91888 Jan 5, 2025
Author

字符字典是一样的，解码器逻辑不是本来就和训练时的不一样吗？训练时使用Teacher forcing，每一步都是使用正确的token作为输入，评估时使用上一步生成的token继续进行预测
enhanced_latexocr_head copy.md
zheshi这是改了之后的解码器代码，由于不支持上传py，我把后缀改成了md，如果可以的话可以帮我看一下吗？万分感谢

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

latex公式识别 #14487

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

latex公式识别 #14487

Uh oh!

lm91888 Jan 3, 2025

Replies: 2 comments · 1 reply

Uh oh!

lm91888 Jan 3, 2025 Author

Uh oh!

GreatV Jan 3, 2025 Maintainer

1. 解码器或后处理逻辑问题

2. 数据预处理不一致

3. 训练过程中过拟合或漂移

4. 模型权重保存或加载错误

5. 损失函数或指标计算问题

6. 字符字典及Tokenization问题

具体推荐操作

结论

Uh oh!

lm91888 Jan 5, 2025 Author

lm91888
Jan 3, 2025

Replies: 2 comments 1 reply

lm91888
Jan 3, 2025
Author

GreatV
Jan 3, 2025
Maintainer

lm91888 Jan 5, 2025
Author