20000多张小图片，训练集的acc在0.89，如何提升准确度。 #14668

techflag · 2025-02-13T04:19:30Z

techflag
Feb 13, 2025

训练参数
Global:
debug: false
use_gpu: true
epoch_num: 50
log_smooth_window: 20
print_batch_step: 20
save_model_dir: ./output/rec_ppocr_v4_hgnet
save_epoch_step: 3
eval_batch_step: [0, 500]
cal_metric_during_train: true
pretrained_model: https://paddleocr.bj.bcebos.com/pretrained/ch_PP-OCRv4_rec_server_trained.pdparams
checkpoints:
save_inference_dir:
use_visualdl: true
infer_img: doc/imgs_words/ch/word_1.jpg
character_dict_path: ppocr/utils/ppocr_keys_v1.txt
max_text_length: &max_text_length 25
infer_mode: false
use_space_char: true
distributed: true
save_res_path: ./output/rec/predicts_ppocrv3.txt

Optimizer:
name: AdamW
beta1: 0.9
beta2: 0.999
lr:
name: Cosine
learning_rate: 0.0005
warmup_epoch: 5
warmup_start_lr: 1e-6
regularizer:
name: L2
factor: 1e-05

Architecture:
model_type: rec
algorithm: SVTR_HGNet
Transform:
Backbone:
name: PPHGNet_small
Head:
name: MultiHead
head_list:
- CTCHead:
Neck:
name: svtr
dims: 128
depth: 3
hidden_dims: 128
kernel_size: [3, 3]
use_guide: True
Head:
fc_decay: 0.00001
- NRTRHead:
nrtr_dim: 256
max_text_length: *max_text_length

Loss:
name: MultiLoss
loss_config_list:
- CTCLoss:
weight: 0.7
- NRTRLoss:
weight: 0.3

PostProcess:
name: CTCLabelDecode

Metric:
name: RecMetric
main_indicator: acc

Train:
dataset:
name: MSTextRecDataset
ds_width: false
data_dir: ./train_data/
ext_op_transform_idx: 1
label_file_list:
- ./train_data/train_list.txt
transforms:
- DecodeImage:
img_mode: BGR
channel_first: false
- RecConAug:
prob: 0.5
ext_data_num: 2
image_shape: [48, 320, 3]
max_text_length: *max_text_length
- RecAug:
- MultiLabelEncode:
gtc_encode: NRTRLabelEncode
- KeepKeys:
keep_keys:
- image
- label_ctc
- label_gtc
- length
- valid_ratio
sampler:
name: MultiScaleSampler
scales: [[320, 32], [320, 48], [320, 64]]
first_bs: 16
fix_bs: false
divided_factor: [16, 16] # w, h
is_training: True
loader:
shuffle: true
batch_size_per_card: 24
drop_last: true
num_workers: 8

Eval:
dataset:
name: TextRecDataset
data_dir: ./train_data
label_file_list:
- ./train_data/val_list.txt
transforms:
- DecodeImage:
img_mode: BGR
channel_first: false
- MultiLabelEncode:
gtc_encode: NRTRLabelEncode
- RecResizeImg:
image_shape: [3, 48, 320]
- KeepKeys:
keep_keys:
- image
- label_ctc
- label_gtc
- length
- valid_ratio
loader:
shuffle: false
drop_last: false
batch_size_per_card: 12
8
num_workers: 4
训练样本示例

GreatV · 2025-02-13T04:25:22Z

GreatV
Feb 13, 2025
Maintainer

你的训练集准确率已经达到 0.89，但如果希望进一步提升，可以尝试以下方法：

1. 数据增强（Data Augmentation）

你的训练配置中已经包含了一些数据增强（如 RecConAug 和 RecAug），但可以尝试以下方法：

更多随机变换: 旋转、裁剪、颜色抖动（Color Jitter）、随机模糊等。
MixUp 或 CutMix: 这些技术可以增加数据的多样性，提升模型的泛化能力。
合成数据: 如果数据量有限，可以利用数据合成工具（如 SynthText）生成更多训练样本。

2. 训练超参数调整

增加 epoch_num
- 你当前设置的是 epoch_num: 50，可以尝试增加到 100 或 150，观察是否有提升。
调整学习率 (learning_rate)
- 你的初始学习率是 0.0005，可以尝试 0.001，但需要配合 Cosine 调度策略，避免过快收敛到局部最优。
使用更小的 weight decay
- 你目前的 L2 正则化系数是 1e-5，可以尝试 1e-6 以减少对权重的约束。

3. 模型结构优化

更换 Backbone
- 你当前使用 PPHGNet_small 作为骨干网络，可以尝试 PPHGNet_base 或 PPHGNet_large 来提升特征提取能力。
尝试不同的 Head 结构
- 你的 Head 目前包含 CTCHead 和 NRTRHead，可以尝试调整 CTCHead 的 hidden_dims（如 256），或者去掉 NRTRHead 观察效果。

4. 训练数据优化

检查数据质量
- 确保标注文件无误，特别是 label_file_list 里的字符编码是否正确。
- 去除模糊、难以识别的样本，或者对这些样本进行人工修正后重新训练。
均衡数据分布
- 如果某些类别的样本数量较少，可以尝试 oversampling 或 undersampling。

5. 计算资源优化

增大 batch_size_per_card
- 你当前的 batch_size_per_card 为 24，如果显存允许，可以尝试 32 或 48 以提高训练稳定性。
使用混合精度训练
- 如果你的 GPU 支持 AMP（Automatic Mixed Precision），可以启用 AMP 来加速训练并减少数值误差。

6. 调整 `Loss` 及 `PostProcess`

增加 CTCLoss 的权重
- 你的 MultiLoss 配置是 CTCLoss: 0.7 和 NRTRLoss: 0.3，可以尝试 CTCLoss: 0.8，增强 CTC 监督信号的影响力。
更换 PostProcess
- 你当前使用 CTCLabelDecode，可以尝试 AttnLabelDecode 或 SARLabelDecode 看看是否能改善结果。

7. 迁移学习

你使用了 pretrained_model:
```
pretrained_model: https://paddleocr.bj.bcebos.com/pretrained/ch_PP-OCRv4_rec_server_trained.pdparams
```
可以尝试：
- 使用更强的预训练模型: 例如 ch_PP-OCRv4_rec_distill_trained.pdparams 可能比 server_trained 版本更高效。
- 只微调 Head 部分: 冻结 Backbone 层，只训练 Head，避免模型在小数据集上过拟合。

总结

可以尝试以下组合方案：

增加 epoch_num 到 100 并调整 learning_rate 到 0.001
增加数据增强，如 MixUp、CutMix、更多随机变换
更换 Backbone 为 PPHGNet_base 或 PPHGNet_large
增大 batch_size_per_card 到 32 或 48
调整 CTCLoss 权重到 0.8，减少 NRTRLoss 的影响
尝试更强的 pretrained_model

按照以上方法逐步调整，观察 validation 结果的变化，找到最优组合。

Response generated by feifei-bot | chatgpt-4o-latest

1 reply

techflag Feb 13, 2025
Author

pretrained_model: https://paddleocr.bj.bcebos.com/pretrained/ch_PP-OCRv4_rec_server_trained.pdparams 下载不到这个

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

20000多张小图片，训练集的acc在0.89，如何提升准确度。 #14668

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

20000多张小图片，训练集的acc在0.89，如何提升准确度。 #14668

Uh oh!

techflag Feb 13, 2025

Replies: 1 comment · 1 reply

Uh oh!

GreatV Feb 13, 2025 Maintainer

1. 数据增强（Data Augmentation）

2. 训练超参数调整

3. 模型结构优化

4. 训练数据优化

5. 计算资源优化

6. 调整 Loss 及 PostProcess

7. 迁移学习

总结

Uh oh!

techflag Feb 13, 2025 Author

techflag
Feb 13, 2025

Replies: 1 comment 1 reply

GreatV
Feb 13, 2025
Maintainer

6. 调整 `Loss` 及 `PostProcess`

techflag Feb 13, 2025
Author