关于自定义数据集训练几个问题 #14871

hecheng64 · 2025-03-17T06:47:00Z

hecheng64
Mar 17, 2025

🔎 Search before asking

I have searched the PaddleOCR Docs and found no similar bug report.
I have searched the PaddleOCR Issues and found no similar bug report.
I have searched the PaddleOCR Discussions and found no similar bug report.

🐛 Bug (问题描述)

1 . 文本识别模块微调用[ch_PP-OCRv3_rec_distillation.yml]
还是用[ch_PP-OCRv4_rec_distillation.yml] 比较好

如果在原先基础文本识别推理ch_PP-OCRv3_rec_infer/ch_PP-OCRv4_rec_infer模型基础用自定义数据集
（比如手写中文数据集[CASIA-HWDB2.x]）调优的的话，训练需要配置什么能保存原先推理模型功能，
只用自定义数据集调试。还是说需要原先训练ch_PP- OCRv3_rec_infer/ch_PP-OCRv4_rec_infer数据集+自
定义数据集比例混合训练才可以？

🏃‍♂️ Environment (运行环境)

release/2.10.0版本

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

1 . 文本识别模块微调用[ch_PP-OCRv3_rec_distillation.yml]
还是用[ch_PP-OCRv4_rec_distillation.yml] 比较好

如果在原先基础文本识别推理ch_PP-OCRv3_rec_infer/ch_PP-OCRv4_rec_infer模型基础用自定义数据集
（比如手写中文数据集[CASIA-HWDB2.x]）调优的的话，训练需要配置什么能保存原先推理模型功能，
只用自定义数据集调试。还是说需要原先训练ch_PP- OCRv3_rec_infer/ch_PP-OCRv4_rec_infer数据集+自
定义数据集比例混合训练才可以？

GreatV · 2025-03-17T06:57:11Z

GreatV
Mar 17, 2025
Maintainer

关于你提出的 PaddleOCR 自定义数据集训练问题，我来详细回答：

1. 微调时选择哪个蒸馏配置文件？

ch_PP-OCRv3_rec_distillation.yml vs ch_PP-OCRv4_rec_distillation.yml
- 如果使用的是 PP-OCRv3 作为基础模型，建议使用 ch_PP-OCRv3_rec_distillation.yml 进行蒸馏训练，以保持与 PP-OCRv3 训练策略一致。
- 如果使用 PP-OCRv4 作为基础模型，则应使用 ch_PP-OCRv4_rec_distillation.yml，因为 PP-OCRv4 可能在蒸馏策略上有优化或新的调整。

2. 自定义数据集（例如 CASIA-HWDB2.x）训练配置

是否仅使用自定义数据集训练？
- 通常，仅用自定义数据集微调（fine-tuning）是可以的，特别是如果你希望模型专注于新数据分布（例如手写字体）。
- 如果基础模型 (ch_PP-OCRv3_rec_infer 或 ch_PP-OCRv4_rec_infer) 太过适应原始数据分布，而你希望它仍然具备泛化能力，建议混合原始训练数据集与自定义数据集（如 ch_PP-OCRv3_rec_infer 训练数据 + CASIA-HWDB2.x）。

训练配置建议

采用 继续训练（Fine-Tuning） 方法：

Global:
  pretrained_model: path_to/ch_PP-OCRv3_rec_infer  # 继续基于此模型训练
  save_model_dir: ./output/rec_custom
  epoch_num: 100  # 适当减少 epoch 避免过拟合
Train:
  dataset:
    data_dir: ./custom_dataset  # 你的 CASIA-HWDB 数据集路径
    label_file_list: ["./custom_dataset/label.txt"]
  loader:
    batch_size_per_card: 32  # 视显存大小调整
    num_workers: 8

微调时可调整学习率：

Optimizer:
  lr:
    name: Cosine
    learning_rate: 0.0001  # 可调低以避免模型偏移过大

3. 混合训练 vs 纯自定义数据训练

如果希望保留原模型泛化能力，建议：

数据集按 一定比例（如 50% 原始数据 + 50% CASIA-HWDB2.x）混合训练：

Train:
  dataset:
    label_file_list: ["./original_dataset/label.txt", "./custom_dataset/label.txt"]
    ratio_list: [0.5, 0.5]

如果只是微调让模型适应新任务（例如手写识别），则可以只用 CASIA-HWDB2.x。

huangwei16800
Apr 28, 2025

如果只训练微调英文数字模型，应该期于哪个数据集做训练？目前有500多张新的英文字体，训练参数怎么调整较好？

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

关于自定义数据集训练几个问题 #14871

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 2 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

关于自定义数据集训练几个问题 #14871

Uh oh!

Uh oh!

hecheng64 Mar 17, 2025

🔎 Search before asking

🐛 Bug (问题描述)

🏃‍♂️ Environment (运行环境)

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

Replies: 2 comments

Uh oh!

GreatV Mar 17, 2025 Maintainer

1. 微调时选择哪个蒸馏配置文件？

2. 自定义数据集（例如 CASIA-HWDB2.x）训练配置

3. 混合训练 vs 纯自定义数据训练

相关参考

Uh oh!

huangwei16800 Apr 28, 2025

hecheng64
Mar 17, 2025

GreatV
Mar 17, 2025
Maintainer

huangwei16800
Apr 28, 2025