中文v4版本训练途中iter acc 很高实际辨识会有多字、漏字情形 #16109

ZiHenCheng · 2025-07-22T09:10:51Z

ZiHenCheng
Jul 22, 2025

paddleocr 2.6
paddlepaddle-gpu 2.4.2.post117
经常性的辨识多字、漏字
目前训练集已有14000张+ (字典有变更)
在训练途中经常性出现

[2025/07/22 12:17:05] ppocr INFO: epoch: [198/200], global_step: 4750, lr: 0.000001, acc: 0.999998, norm_edit_dis: 1.000000, CTCLoss: 0.011095, NRTRLoss: 1.208231, loss: 1.219588, avg_reader_cost: 0.00014 s, avg_batch_cost: 0.17315 s, avg_samples: 9.2, ips: 53.13352 samples/s, eta: 0:00:10, max_mem_reserved: 3786 MB, max_mem_allocated: 3491 MB
eval model:: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:06<00:00, 11.35it/s]
[2025/07/22 12:17:11] ppocr INFO: cur metric, acc: 0.4185848216659436, norm_edit_dis: 0.8920313446664886, fps: 210.18005090029894
[2025/07/22 12:17:11] ppocr INFO: best metric, acc: 0.4671781716353097, is_float16: False, norm_edit_dis: 0.9008529489931351, fps: 210.71439580887272, best_epoch: 92
甚至是Train & Eval都已经相同资料集与gt.txt
都还是无法达到acc 0.9X

而实际使用rec辨识时会有多字情形 ex, ans : 140007 ocr : 1400007
是否有人遇过相同情形

yaml :

Global:
debug: false # 是否开启 debug 模式，建议关闭以提升效能
use_gpu: true # 是否使用 GPU 训练（也可为 false，使用 CPU 训练）
epoch_num: 100 # 总训练轮数（也可设大些如 300，依资料集大小决定）
log_smooth_window: 20 # 用于平滑 log 显示的 batch 数量，选项为任意整数
print_batch_step: 10 # 每 N 个 batch 显示一次训练资讯，任意正整数
save_model_dir: ./output/XXXXXXXXXXXXX # 模型储存资料夹，可自订
save_epoch_step: 50 # 每 N 个 epoch 储存模型，选项为任意整数
eval_batch_step: [0, 20] # [开始评估步数, 每 N 步评估一次]，格式为 [int, int]
cal_metric_during_train: true # 训练时是否即时计算 acc（true / false）
pretrained_model: XXXXXXXXXXXXX # 可为空代表不使用
checkpoints: # 若接续训练可填最新模型目录，否则留空
save_inference_dir: # 用于导出推论模型的资料夹，可填 ./inference_model
use_visualdl: true # 是否开启 VisualDL（Paddle 版 tensorboard）
infer_img: doc/imgs_words/ch/word_1.jpg # 推论测试的范例图，可自订
character_dict_path: XXXXXXXXXXXXX.txt # 字典档，可自行定义内容
max_text_length: &max_text_length 50 # 最大预期辨识长度，会影响 loss 与预测长度
infer_mode: false # 推论模式（推论任务才打开）
use_space_char: true # 是否包含空白作为可辨识字元
distributed: false # 是否使用多卡训练（单卡设 false）
save_res_path: ./output/rec/predicts_ppocrv3.txt # 验证/推论结果存档位置

freeze_params:

- Backbone

- Head.0.Neck

Optimizer:
name: AdamW # 支援选项有：Adam、AdamW、SGD、RMSProp
beta1: 0.9 # 适用于 Adam 类优化器
beta2: 0.999 # 同上
lr:
name: Cosine # 支援：Cosine、Piecewise、PolynomialDecay、Step、Linear
learning_rate: 0.0003 # 初始学习率（0.001~0.0001 常见）
warmup_epoch: 2 # 预热学习率 epoch 数，视模型大小设定

lr:

name: Piecewise

decay_epochs: [10, 20, 30]

boundaries: [10, 20, 30]

values: [0.001, 0.0003, 0.0001, 0.00005]

regularizer:
name: L2 # 支援：L2、L1
factor: 5.0e-05 # 正则化强度

Architecture:
model_type: rec # 支援：rec（识别）、det（检测）等
algorithm: SVTR_LCNet # 选项有：CRNN、Rosetta、NRTR、SVTR_LCNet、ViTSTR 等 ####
Transform: # 支援：TPS、STN 等，空表示不使用
Backbone:
name: PPLCNetV3 # 选项如：MobileNetV1/V3、ResNet、PPLCNetV3、SVTRNet 等
scale: 0.95 # 模型宽度缩放系数，可为 0.5, 1.0, 0.95 等
Head:
name: MultiHead # 可为 CTCHead、AttentionHead、MultiHead
head_list:

CTCHead:
Neck:
name: svtr # 颈部选项如：svtr、rnn
dims: 120
depth: 2
hidden_dims: 120
kernel_size: [1, 3]
use_guide: True
Head:
fc_decay: 0.00001
NRTRHead:
nrtr_dim: 384
max_text_length: *max_text_length

Loss:
name: MultiLoss
loss_config_list:

CTCLoss:
weight: 0.5 # 支援：CTCLoss、AttentionLoss、NRTRLoss、SARLoss 等
NRTRLoss:
weight: 0.5

PostProcess:
name: CTCLabelDecode # 若为 Attention 模型则使用 AttnLabelDecode

Metric:
name: RecMetric # 支援：RecMetric、DetMetric
main_indicator: acc # 或 norm_edit_dis（平均编辑距离）

Train:
dataset:
name: MultiScaleDataSet
ds_width: false
data_dir: XXXXXXXXXXXXX
ext_op_transform_idx: 1
label_file_list:

XXXXXXXXXXXXX
transforms:
DecodeImage:
img_mode: BGR
channel_first: false

- RecConAug:

prob: 0.3

ext_data_num: 4

image_shape: [3, 48, 640]

max_text_length: *max_text_length

- RecAug:

use_tia: True

aug_prob: 0.8

MultiLabelEncode:
gtc_encode: NRTRLabelEncode
KeepKeys:
keep_keys:
image
label_ctc
label_gtc
length
valid_ratio
sampler:
name: MultiScaleSampler # 或使用 DistributedBatchSampler、BatchSampler
scales: [[640, 24], [640, 32], [640, 40], [640, 48], [640, 56], [640, 64]]
first_bs: &bs 16
fix_bs: false
divided_factor: [8, 16]
is_training: true
loader:
shuffle: true
batch_size_per_card: *bs
drop_last: true
num_workers: 1

Eval:
dataset:
name: SimpleDataSet
data_dir: XXXXXXXXXXXXX
label_file_list:

XXXXXXXXXXXXX
transforms:
DecodeImage:
img_mode: BGR
channel_first: false
- MultiLabelEncode:
gtc_encode: NRTRLabelEncode
- RecResizeImg:
image_shape: [3, 48, 640] # 評估固定為單一尺寸
- KeepKeys:
keep_keys:
- image
- label_ctc
- label_gtc
- length
- valid_ratio
loader:
shuffle: false
drop_last: false
batch_size_per_card: 16
num_workers: 1

ZiHenCheng · 2025-07-22T09:12:32Z

ZiHenCheng
Jul 22, 2025
Author

有任何需要我补充的资料请各位跟我讲
已经卡两周了...

5 replies

liuhongen1234567 Jul 22, 2025
Collaborator

您好，可以去计算识别指标的地方

PaddleOCR/ppocr/metrics/rec_metric.py

Line 44 in 0d78401

for (pred, pred_conf), (target, _) in zip(preds, labels):

打印一下训练和评估的预测结果和label。
或者使用PP-OCR的默认配置重新训练一遍，比较一下。

ZiHenCheng Jul 22, 2025
Author

这个是呼叫ocr rec时的funtion?
我现在卡的是训练时无法过拟合去针对性训练

ZiHenCheng Jul 23, 2025
Author

另外补充使用PPOCR官方v4rec.yaml一样无法收敛且辨识不准确

liuhongen1234567 Jul 23, 2025
Collaborator

您好，训练精度是一开始是到0.999了吗？一般模型不太可能到这么高的精度，能到的话一般是label不太对，由于分隔符设置的原因，识别的内容都是“”，模型自然很容易学习到这个内容。只看配置我这边看不出什么问题，最好提供下训练和评估的数据集。

ZiHenCheng Jul 23, 2025
Author

是很快就到0.99了，有使用ch ppocr v4 /student 当作预训练模型，但eval时总会多字
是否为ppocr-main-zip下载错误版本非2.4.2版本
是否有办法可取得2.4.2版本之zip 进行clone
训练集无法提供，内容为产业用标签之正常英数字

zhangyubo0722 · 2025-08-18T07:25:40Z

zhangyubo0722
Aug 18, 2025
Collaborator

从训练log看你的评估指标仅为40%多，所以出现识别错误是正常的，而训练过程中acc较大是由于这二者的计算方式不一样，训练中的acc指的是该批次精度，而不是全局精度

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

中文v4版本训练途中iter acc 很高实际辨识会有多字、漏字情形 #16109

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 5 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

中文v4版本 训练途中iter acc 很高 实际辨识会有多字、漏字情形 #16109

Uh oh!

ZiHenCheng Jul 22, 2025

freeze_params:

- Backbone

- Head.0.Neck

lr:

name: Piecewise

decay_epochs: [10, 20, 30]

boundaries: [10, 20, 30]

values: [0.001, 0.0003, 0.0001, 0.00005]

- RecConAug:

prob: 0.3

ext_data_num: 4

image_shape: [3, 48, 640]

max_text_length: *max_text_length

- RecAug:

use_tia: True

aug_prob: 0.8

Replies: 2 comments · 5 replies

Uh oh!

ZiHenCheng Jul 22, 2025 Author

Uh oh!

Uh oh!

liuhongen1234567 Jul 22, 2025 Collaborator

Uh oh!

ZiHenCheng Jul 22, 2025 Author

Uh oh!

ZiHenCheng Jul 23, 2025 Author

Uh oh!

Uh oh!

liuhongen1234567 Jul 23, 2025 Collaborator

Uh oh!

ZiHenCheng Jul 23, 2025 Author

Uh oh!

zhangyubo0722 Aug 18, 2025 Collaborator

中文v4版本训练途中iter acc 很高实际辨识会有多字、漏字情形 #16109

ZiHenCheng
Jul 22, 2025

Replies: 2 comments 5 replies

ZiHenCheng
Jul 22, 2025
Author

liuhongen1234567 Jul 22, 2025
Collaborator

ZiHenCheng Jul 22, 2025
Author

ZiHenCheng Jul 23, 2025
Author

liuhongen1234567 Jul 23, 2025
Collaborator

ZiHenCheng Jul 23, 2025
Author

zhangyubo0722
Aug 18, 2025
Collaborator