rec v4模型训练，acc不提升，从第5个epoch开始一直到第500个始终维持在0.2 #13139

cddddd6 · 2024-06-20T02:44:36Z

cddddd6
Jun 20, 2024

问题描述 / Problem Description

rec v4模型训练，acc和norm_edit_dis不提升，从第5个epoch开始一直到第500个，acc始终维持在0.2，norm_edit_dis维持在0.25，loss从1.6稳步下降至1.25
第五个epoch：
[2024/06/17 21:25:07] ppocr INFO: epoch: [5/500], global_step: 375, lr: 0.000500, acc: 0.162760, norm_edit_dis: 0.251667, CTCLoss: 0.419245, NRTRLoss: 1.264903, loss: 1.716696, avg_reader_cost: 0.00009 s, avg_batch_cost: 0.30337 s, avg_samples: 83.2, ips: 274.25515 samples/s, eta: 6:24:43, max_mem_reserved: 32275 MB, max_mem_allocated: 28751 MB
第490个epoch：
[2024/06/19 20:18:17] ppocr INFO: epoch: [490/500], global_step: 33810, lr: 0.000500, acc: 0.187500, norm_edit_dis: 0.310671, CTCLoss: 0.053128, NRTRLoss: 1.220689, loss: 1.272771, avg_reader_cost: 0.00020 s, avg_batch_cost: 0.59513 s, avg_samples: 156.8, ips: 263.47019 samples/s, eta: 0:07:08, max_mem_reserved: 29210 MB, max_mem_allocated: 27333 MB
[2024/06/19 20:18:19] ppocr INFO: cur metric, acc: 0.19544740819899994, norm_edit_dis: 0.2862414661770183, fps: 1205.2127416129172
best epoch：
[2024/06/19 20:18:19] ppocr INFO: best metric, acc: 0.20094191365037745, is_float16: False, norm_edit_dis: 0.22495511140089897, fps: 1212.9491793506809, best_epoch: 334

文本素材为长文本，文本示例如下：
H123_HNC_123KWH_3_WSS82_00237_V1.2.G.3_B_123789
H546_QSK_456Kwh_1_PQ_NGWS84_23469_V8.7.G.6_B_186238

用训练后的模型进行infer，发现大部分文本识别准确，但总会缺胳膊少腿，比如少一个字符，少一个.，或者少一个符号

运行环境 / Runtime Environment

OS:Linux
Paddle:2.6.1
PaddleOCR:2.7

config：ch_PP-OCRv4_rec.yml

Global:
  debug: false
  use_gpu: true
  epoch_num: 500
  log_smooth_window: 20
  print_batch_step: 10
  save_model_dir: ./output
  save_epoch_step: 10
  eval_batch_step: [0, 138]
  cal_metric_during_train: true
  pretrained_model: /PaddleOCR-main/rec_pretrained_model_v4/student.pdparams
  checkpoints:
  save_inference_dir: ./inference_model/
  use_visualdl: false
  infer_img: /PaddleOCR-main/infer_data
  character_dict_path: ppocr/utils/ppocr_keys_v1.txt
  max_text_length: &max_text_length 100
  infer_mode: false
  use_space_char: true
  distributed: true
  save_res_path: ./infer/predicts_ppocrv4_pretrained_val.txt 


Optimizer:
  name: Adam
  beta1: 0.9
  beta2: 0.999
  lr:
    name: Const
    learning_rate: 0.0005
    warmup_epoch: 2
  regularizer:
    name: L2
    factor: 3.0e-05


Architecture:
  model_type: rec
  algorithm: SVTR_LCNet
  Transform:
  Backbone:
    name: PPLCNetV3
    scale: 0.95
  Head:
    name: MultiHead
    head_list:
      - CTCHead:
          Neck:
            name: svtr
            dims: 120
            depth: 2
            hidden_dims: 120
            kernel_size: [1, 3]
            use_guide: True
          Head:
            fc_decay: 0.00001
      - NRTRHead:
          nrtr_dim: 384
          max_text_length: *max_text_length

Loss:
  name: MultiLoss
  loss_config_list:
    - CTCLoss:
    - NRTRLoss:

PostProcess:  
  name: CTCLabelDecode

Metric:
  name: RecMetric
  main_indicator: acc

Train:
  dataset:
    name: MultiScaleDataSet
    ds_width: false
    data_dir: /PaddleOCR-main/train_data
    ext_op_transform_idx: 1
    label_file_list:
    - PaddleOCR-main/train_data/train.txt
    transforms:
    - DecodeImage:
        img_mode: BGR
        channel_first: false
    - RecConAug:
        prob: 0.5
        ext_data_num: 2
        image_shape: [48, 320, 3]
        max_text_length: *max_text_length
    - RecAug:
    - MultiLabelEncode:
        gtc_encode: NRTRLabelEncode
    - KeepKeys:
        keep_keys:
        - image
        - label_ctc
        - label_gtc
        - length
        - valid_ratio
  sampler:
    name: MultiScaleSampler
    scales: [[320, 32], [320, 48], [320, 64]]
    first_bs: &bs 192
    fix_bs: false
    divided_factor: [8, 16] # w, h
    is_training: True
  loader:
    shuffle: true
    batch_size_per_card: *bs
    drop_last: true
    num_workers: 8
Eval:
  dataset:
    name: SimpleDataSet
    data_dir: /PaddleOCR-main/train_data
    label_file_list:
    - /PaddleOCR-main/train_data/test.txt
    transforms:
    - DecodeImage:
        img_mode: BGR
        channel_first: false
    - MultiLabelEncode:
        gtc_encode: NRTRLabelEncode
    - RecResizeImg:
        image_shape: [3, 48, 320]
    - KeepKeys:
        keep_keys:
        - image
        - label_ctc
        - label_gtc
        - length
        - valid_ratio
  loader:
    shuffle: false
    drop_last: false
    batch_size_per_card: 128
    num_workers: 2

SWHL · 2024-06-20T03:51:12Z

SWHL
Jun 20, 2024
Maintainer

数据集规模多大？字典多大？
建议提问尽量把问题描述清楚哈

1 reply

cddddd6 Jun 20, 2024
Author

数据集标注数据1000张，合成数据1w张，字典用的ppocr默认字典，6000多个字符

SWHL · 2024-06-20T03:57:45Z

SWHL
Jun 20, 2024
Maintainer

我记得在ppocr技术报告中，ppocr训练文本识别数据是1700w左右吧。你这数据少了点

…

---- 回复的原邮件 ---- | 发件人 | ***@***.***> | | 发送日期 | 2024年06月20日 11:54 | | 收件人 | PaddlePaddle/PaddleOCR ***@***.***> | | 抄送人 | SWHL ***@***.***>, Comment ***@***.***> | | 主题 | Re: [PaddlePaddle/PaddleOCR] rec v4模型训练，acc不提升，从第5个epoch开始一直到第500个始终维持在0.2 (Discussion #13139) | 数据集标注数据1000张，合成数据1w张，字典用的ppocr默认字典，6000多个字符 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

16 replies

SWHL Jun 24, 2024
Maintainer

我刚注意到你这用的是中文字典。正常情况是字典都是根据你的数据集而来的。数据集标签里有哪些字符，字典就是哪些。

换成英文配置的话，对应的预训练模型也要换成英文的。

cddddd6 Jun 24, 2024
Author

我刚注意到你这用的是中文字典。正常情况是字典都是根据你的数据集而来的。数据集标签里有哪些字符，字典就是哪些。

换成英文配置的话，对应的预训练模型也要换成英文的。

好的好的，已经换了在重新训练，我用之前那个中文rec模型evaluate了一下eval数据集，acc是0.15，但我用中文rec模型infer了一下eval数据集，发现实际准确率是0.28，请教下为啥这里acc和实际准确率会不一致

SWHL Jun 24, 2024
Maintainer

这个自己debug一下吧，估计前后处理没统一

cddddd6 Jun 27, 2024
Author

这个自己debug一下吧，估计前后处理没统一

大佬，我用预训练v4模型eval测试了一下，acc只有0.06，norm_edit_dis只有0.1。但我用模型infer了相同数据集10张图片，识别的准确率至少有90%，请问这个是啥原因，evaluate和infer时调用的参数会不一样吗？是否是因为识别长文本image_shape : [48, 320, 3]有问题？感谢！

SWHL Jun 27, 2024
Maintainer

看你描述，我也不知道为啥哈。需要仔细debug，除模型外其他因素是否有不同的。

GreatV · 2024-06-24T04:10:04Z

GreatV
Jun 24, 2024
Maintainer

检查一下数据集吧

0 replies

rec v4模型训练，acc不提升，从第5个epoch开始一直到第500个始终维持在0.2 #13139

Uh oh!

Uh oh!

cddddd6 Jun 20, 2024

问题描述 / Problem Description

运行环境 / Runtime Environment

config：ch_PP-OCRv4_rec.yml

Replies: 3 comments · 17 replies

Uh oh!

SWHL Jun 20, 2024 Maintainer

Uh oh!

cddddd6 Jun 20, 2024 Author

Uh oh!

SWHL Jun 20, 2024 Maintainer

Uh oh!

SWHL Jun 24, 2024 Maintainer

Uh oh!

cddddd6 Jun 24, 2024 Author

Uh oh!

SWHL Jun 24, 2024 Maintainer

Uh oh!

cddddd6 Jun 27, 2024 Author

Uh oh!

SWHL Jun 27, 2024 Maintainer

Uh oh!

GreatV Jun 24, 2024 Maintainer

cddddd6
Jun 20, 2024

Replies: 3 comments 17 replies

SWHL
Jun 20, 2024
Maintainer

cddddd6 Jun 20, 2024
Author

SWHL
Jun 20, 2024
Maintainer

SWHL Jun 24, 2024
Maintainer

cddddd6 Jun 24, 2024
Author

SWHL Jun 24, 2024
Maintainer

cddddd6 Jun 27, 2024
Author

SWHL Jun 27, 2024
Maintainer

GreatV
Jun 24, 2024
Maintainer