ResNet34 rec模型，为什么有的图片，同一个字符位置会识别出2个字符或重复字符，或漏字符。怎样改善，发完整代码 #14685

nissansz · 2025-02-14T13:59:43Z

nissansz
Feb 14, 2025

ResNet34 rec模型，为什么有的图片，同一个字符位置会识别出2个字符或重复字符，或漏字符。怎样改善，发完整代码

GreatV · 2025-02-14T14:10:33Z

GreatV
Feb 14, 2025
Maintainer

ResNet34 文字识别（rec）模型在识别过程中可能会遇到字符重复、漏字符或同一位置识别出多个字符的问题。这些问题通常可以归结为以下几个原因：

可能的原因：

字符分割模糊：如果输入图片中的字符间距较小，模型可能会错误地将两个字符当作一个字符处理，或者在解码时发生重复预测。
字符形态相似：类似 O0, Ss, Xx 这样的字符容易混淆，特别是如果训练数据分布不均衡或者数据增强不充分。
解码方式问题：CTC 解码或 Attention 机制可能会导致字符重复。CTC 可能会在同一位置输出多个字符，而 Attention 可能会在错误位置输出字符。
数据预处理问题：如果输入图片的分辨率较低，或者归一化不当，可能会影响识别效果。
训练数据质量：如果训练数据中存在偏差，例如某些字符的样本过少或样本中存在噪声，可能会影响模型的泛化能力。

改进方案：

1. 数据增强

增强数据集，特别是增加容易混淆字符的样本，如 O0, Ss, Xx。
使用仿射变换、旋转、模糊处理等方式，使模型对不同字体和形态更加鲁棒。

2. 调整解码方式

如果使用 CTC 进行解码，可以尝试调整 beam search 的参数，避免重复预测。
如果使用 Attention，可以调节 decoder 的 dropout 以减少过拟合。

3. 预处理优化

增加 denoise（去噪）步骤，比如使用 GaussianBlur 或 BilateralFilter 处理图片。
适当提升图片的分辨率，确保字符清晰。

4. 调整训练策略

采用更大的数据集，尤其是包含更多容易混淆字符的样本。
适当调整 loss function，例如使用 CTC loss 或 Cross-Entropy loss 时可以给予错误识别较大的惩罚。
通过 label smoothing 减少模型对某些错误模式的过拟合。

5. 参考相关问题

你可以参考 GitHub 上相关的讨论：rec模型，有时实心点句号 . 会被识别成半角逗号 , 有没有什么办法？

完整代码示例

以下是 ResNet34 训练 OCR 识别模型的基本代码框架，包含了一些优化措施（如数据增强、解码调整）：

import paddle
import paddleocr
from paddleocr import PaddleOCR, draw_ocr

# 初始化 OCR 识别器
ocr = PaddleOCR(use_angle_cls=True, lang="ch")

# 读取输入图片
img_path = "test_image.jpg"

# 进行 OCR 识别
result = ocr.ocr(img_path, cls=True)

# 处理识别结果
for line in result:
    for word_info in line:
        text, confidence = word_info[1]
        print(f"识别结果: {text}, 置信度: {confidence}")

# 训练优化部分
def train_ocr_model():
    from paddleocr.tools.train import train

    # 训练参数
    config_file = "configs/rec/rec_resnet34.yml"
    train_command = f"python3 tools/train.py -c {config_file}"

    # 运行训练
    print("开始训练 OCR 识别模型...")
    os.system(train_command)

if __name__ == "__main__":
    train_ocr_model()

总结

如果 ResNet34 OCR 识别模型出现字符重复、漏字符或误识别，可以从数据增强、解码方式、预处理优化、训练策略等方面进行改进。此外，参考相关讨论可以获取更多优化经验。希望这些方法能帮助你改善识别效果！

Response generated by feifei-bot | chatgpt-4o-latest

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

ResNet34 rec模型，为什么有的图片，同一个字符位置会识别出2个字符或重复字符，或漏字符。怎样改善，发完整代码 #14685

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

ResNet34 rec模型，为什么有的图片，同一个字符位置会识别出2个字符或重复字符，或漏字符。怎样改善，发完整代码 #14685

Uh oh!

nissansz Feb 14, 2025

Replies: 1 comment

Uh oh!

GreatV Feb 14, 2025 Maintainer

可能的原因：

改进方案：

1. 数据增强

2. 调整解码方式

3. 预处理优化

4. 调整训练策略

5. 参考相关问题

完整代码示例

总结

nissansz
Feb 14, 2025

GreatV
Feb 14, 2025
Maintainer