我训练好的文本识别模型在测试识别结果是效果很好，但是模型导出后再预测效果非常糟糕，请求大佬帮助 #12320

Homura852 · 2024-03-10T03:19:15Z

Homura852
Mar 10, 2024

我训练好的文本识别模型在测试识别结果是效果很好，但是模型导出后再预测效果非常糟糕，请求大佬帮助

Zomcxj · 2024-03-11T06:34:20Z

Zomcxj
Mar 11, 2024

啥也不说怎么帮？

0 replies

Homura852 · 2024-03-11T06:38:40Z

Homura852
Mar 11, 2024
Author

@Zomcxj 不好意思哥，下面是我的配置文件：是以ch_PP-OCRv3_rec_distillation.yml文件进行修改的

Global:
  debug: false
  use_gpu: true
  epoch_num: 200
  log_smooth_window: 20
  print_batch_step: 10
  save_model_dir: ./output/rec_ppocr_v3_distillation
  save_epoch_step: 10
  eval_batch_step: [0, 2000]
  cal_metric_during_train: true
  pretrained_model: Model/ch_PP-OCRv3_rec_train/best_accuracy.pdparams
  checkpoints:
  save_inference_dir:
  use_visualdl: false
  infer_img: doc/imgs_words/ch/word_1.jpg
  character_dict_path: ppocr/utils/en_dict.txt
  max_text_length: &max_text_length 25
  infer_mode: false
  use_space_char: true
  distributed: true
  save_res_path: ./output/rec/predicts_ppocrv3_distillation.txt
  d2s_train_image_shape: [3, 48, -1]


Optimizer:
  name: Adam
  beta1: 0.9
  beta2: 0.999
  lr:
    name: Piecewise
    decay_epochs : [700]
    values : [0.0005, 0.00005]
    warmup_epoch: 5
  regularizer:
    name: L2
    factor: 3.0e-05


Architecture:
  model_type: &model_type "rec"
  name: DistillationModel
  algorithm: Distillation
  Models:
    Teacher:
      pretrained:
      freeze_params: false
      return_all_feats: true
      model_type: *model_type
      algorithm: SVTR_LCNet
      Transform:
      Backbone:
        name: MobileNetV1Enhance
        scale: 0.5
        last_conv_stride: [1, 2]
        last_pool_type: avg
        last_pool_kernel_size: [2, 2]
      Head:
        name: MultiHead
        head_list:
          - CTCHead:
              Neck:
                name: svtr
                dims: 64
                depth: 2
                hidden_dims: 120
                use_guide: True
              Head:
                fc_decay: 0.00001
          - SARHead:
              enc_dim: 512
              max_text_length: *max_text_length
    Student:
      pretrained:
      freeze_params: false
      return_all_feats: true
      model_type: *model_type
      algorithm: SVTR_LCNet
      Transform:
      Backbone:
        name: MobileNetV1Enhance
        scale: 0.5
        last_conv_stride: [1, 2]
        last_pool_type: avg
        last_pool_kernel_size: [2, 2]
      Head:
        name: MultiHead
        head_list:
          - CTCHead:
              Neck:
                name: svtr
                dims: 64
                depth: 2
                hidden_dims: 120
                use_guide: True
              Head:
                fc_decay: 0.00001
          - SARHead:
              enc_dim: 512
              max_text_length: *max_text_length
Loss:
  name: CombinedLoss
  loss_config_list:
  - DistillationDMLLoss:
      weight: 1.0
      act: "softmax"
      use_log: true
      model_name_pairs:
      - ["Student", "Teacher"]
      key: head_out
      multi_head: True
      dis_head: ctc
      name: dml_ctc
  - DistillationDMLLoss:
      weight: 0.5
      act: "softmax"
      use_log: true
      model_name_pairs:
      - ["Student", "Teacher"]
      key: head_out
      multi_head: True
      dis_head: sar
      name: dml_sar
  - DistillationDistanceLoss:
      weight: 1.0
      mode: "l2"
      model_name_pairs:
      - ["Student", "Teacher"]
      key: backbone_out
  - DistillationCTCLoss:
      weight: 1.0
      model_name_list: ["Student", "Teacher"]
      key: head_out
      multi_head: True
  - DistillationSARLoss:
      weight: 1.0
      model_name_list: ["Student", "Teacher"]
      key: head_out
      multi_head: True

PostProcess:
  name: DistillationCTCLabelDecode
  model_name: ["Student", "Teacher"]
  key: head_out
  multi_head: True

Metric:
  name: DistillationMetric
  base_metric_name: RecMetric
  main_indicator: acc
  key: "Student"
  ignore_space: False

Train:
  dataset:
    name: SimpleDataSet
    data_dir: train_data/
    ext_op_transform_idx: 1
    label_file_list:
    - train_data/train.txt
    transforms:
    - DecodeImage:
        img_mode: BGR
        channel_first: false
    - RecConAug:
        prob: 0.5
        ext_data_num: 2
        image_shape: [48, 320, 3]
        max_text_length: *max_text_length
    - RecAug:
    - MultiLabelEncode:
    - RecResizeImg:
        image_shape: [3, 48, 320]
    - KeepKeys:
        keep_keys:
        - image
        - label_ctc
        - label_sar
        - length
        - valid_ratio
  loader:
    shuffle: true
    batch_size_per_card: 8
    drop_last: true
    num_workers: 4
Eval:
  dataset:
    name: SimpleDataSet
    data_dir: train_data/
    label_file_list:
    - train_data/val.txt
    transforms:
    - DecodeImage:
        img_mode: BGR
        channel_first: false
    - MultiLabelEncode:
    - RecResizeImg:
        image_shape: [3, 48, 320]
    - KeepKeys:
        keep_keys:
        - image
        - label_ctc
        - label_sar
        - length
        - valid_ratio
  loader:
    shuffle: false
    drop_last: false
    batch_size_per_card: 8
    num_workers: 4

0 replies

Homura852 · 2024-03-11T06:45:20Z

Homura852
Mar 11, 2024
Author

@Zomcxj 现在问题是我将训练好后的模型转换为推理模型后，利用命令行运行tools/export_model.py是能够正常识别结果的，但是我想用paddleocr的package进行python脚本的运行，于是我就照着官方提供的修改步骤进行修改：
ocr = PaddleOCR( rec_model_dir='{your_rec_model_dir（这里我用的是转推理模型后存放的文件夹位置）}',
rec_char_dict_path='{your_rec_char_dict_path}',）
结果是：如果只是修改ocr = PaddleOCR( rec_model_dir='{your_rec_model_dir（这里我用的是转推理模型后存放的文件夹位置）}'）不加自己的字典路径，识别效果不是很好，主要表现在有的文本图片能够正确识别，但是有的文本图片识别结果为空。
但是要是在ocr = PaddleOCR（）中加上rec_char_dict_path路径，那么上面能够正常识别的图片在这里会变成乱七八糟的结果

0 replies

Homura852 · 2024-03-11T06:48:35Z

Homura852
Mar 11, 2024
Author

@Zomcxj 上面说错了，是利用命令行运行tools/predict_rec.py文件是能够正常识别的。export_model.py这个是模型转换

0 replies

lawen5 · 2024-03-13T01:58:22Z

lawen5
Mar 13, 2024

请问解决了吗，我训练的字符检测模型使用训练文件可以正常使用，而转化为推理文件却检测不出字符位置，但是字符识别的模型转化前后都是正常的，就是检测模型异常。

0 replies

Homura852 · 2024-03-13T08:39:28Z

Homura852
Mar 13, 2024
Author

@cyj02132654 没有啊兄弟

0 replies

lawen5 · 2024-03-14T01:51:29Z

lawen5
Mar 14, 2024

我这边解决了，就是图片尺寸不一样导致的，可以在推理文件predict_det.py文件中334行左右找到图片传入模型的接口前面，把图片不失真压缩到与训练测试时使用到的图片大小就可以了（效果会和训练时的效果一样），但是直接传入OCR库中使用我还没试，

1 reply

wsybb252237 May 16, 2025

您好，您的识别模型的泛化能力怎么样呀，我用自己的数据集，大概有2000多张，是手写汉字（学生）的识别，但是我训练完发现，在这2000多张样本（这一批样本中的名字）中测试效果还不错，但是其他没练过的汉字（名字）的效果还没有官方的推理模型效果好（自己练完后发现对其他字识别成功率下降了，下降程度还挺大），请问这是因为训练数据太少，泛化能力不足，还是有其他的训练策略和细节上的疏忽吗，希望得到解答，谢谢啦

zhanghengjiayou · 2024-04-16T07:07:02Z

zhanghengjiayou
Apr 16, 2024

我这边解决了，就是图片尺寸不一样导致的，可以在推理文件predict_det.py文件中334行左右找到图片传入模型的接口前面，把图片不失真压缩到与训练测试时使用到的图片大小就可以了（效果会和训练时的效果一样），但是直接传入OCR库中使用我还没试，

请问训练时的图片大小是一致的吗，我在det的yml里没有看到啊，rec的yml是有规定尺寸的，但rec在推理的过程中会做resize，能不能稍微讲一下啊

9 replies

SWHL May 16, 2025
Maintainer

这个说不好。可以参考PaddleOCR技术报告说法。https://arxiv.org/pdf/2009.09941

wsybb252237 May 16, 2025

这个说不好。可以参考PaddleOCR技术报告说法。https://arxiv.org/pdf/2009.09941

好的，感谢您的回复，祝您一切顺利！

wsybb252237 May 16, 2025

这个说不好。可以参考PaddleOCR技术报告说法。https://arxiv.org/pdf/2009.09941

您好，我想在问一下，对于识别模型的训练，训练和推理的时候，图片的尺寸需要更改吗，或者在哪更改呀（有什么需要注意的吗），我现在推理使用的是“/tools/infer/predict_system.py”进行推理的

SWHL May 16, 2025
Maintainer

这个可以参考一下训练的配置文件：（举个例子）

PaddleOCR/configs/rec/PP-OCRv4/ch_PP-OCRv4_rec.yml

Line 22 in 75526f0

d2s_train_image_shape: [3, 48, 320]

一般会统一resize到固定尺寸，推理时候会动态改变。

wsybb252237 May 16, 2025

这个可以参考一下训练的配置文件：（举个例子）

PaddleOCR/configs/rec/PP-OCRv4/ch_PP-OCRv4_rec.yml

Line 22 in 75526f0

d2s_train_image_shape: [3, 48, 320]

一般会统一resize到固定尺寸，推理时候会动态改变。

好的，谢谢您！！

SWHL · 2024-06-18T01:20:44Z

SWHL
Jun 18, 2024
Maintainer

如果还没有解决，请参考RapidOCR项目吧。这个项目就是将模型转化为onnx，并推理的。

0 replies

我训练好的文本识别模型在测试识别结果是效果很好，但是模型导出后再预测效果非常糟糕，请求大佬帮助 #12320

Uh oh!

Replies: 9 comments · 10 replies

Uh oh!

Uh oh!

Uh oh!

Homura852 Mar 11, 2024 Author

Uh oh!

Homura852 Mar 11, 2024 Author

Uh oh!

Homura852 Mar 11, 2024 Author

Uh oh!

Uh oh!

Homura852 Mar 13, 2024 Author

Uh oh!

Uh oh!

Uh oh!

Uh oh!

SWHL May 16, 2025 Maintainer

Uh oh!

Uh oh!

Uh oh!

SWHL May 16, 2025 Maintainer

Uh oh!

Uh oh!

SWHL Jun 18, 2024 Maintainer

Replies: 9 comments 10 replies

Homura852
Mar 11, 2024
Author

Homura852
Mar 11, 2024
Author

Homura852
Mar 11, 2024
Author

Homura852
Mar 13, 2024
Author

SWHL May 16, 2025
Maintainer

SWHL May 16, 2025
Maintainer

SWHL
Jun 18, 2024
Maintainer