模型微调 #15000

daijun-hub · 2025-04-11T06:25:08Z

daijun-hub
Apr 11, 2025

我在训练PP-OCRv4模型时,我在字典文件里增加了一个橖字,准备了带橖字的图片1000张左右,主要就是橖字,用了PP-OCRv4的预训练模型,训练出的模型在识别其他文字时,都识别成了橖字.我该如何调整我的训练配置文件,请给出完整的配置文件内容

GreatV · 2025-04-11T06:30:01Z

GreatV
Apr 11, 2025
Maintainer

根据你描述的问题，训练数据主要集中在新增的「橖」字，导致模型在识别其他文本时也倾向输出「橖」，这属于训练数据中类别分布严重不平衡导致的过拟合现象。为了解决该问题，建议你在PP-OCRv4识别模型微调时：

除了「橖」字图像，还需要混入原始通用识别数据，按比例混合训练；
设置合理的学习率与batch size；
并适当减少「橖」字样本在整个训练集中的占比（推荐比例 1:5 ～ 1:10）；
同时停止使用可能造成过拟合的GTC策略。

以下是一个修改后的完整微调配置文件（基于 PP-OCRv3 识别模型）：

🔧 config.yaml

Global:
  use_gpu: true
  epoch_num: 100
  log_smooth_window: 20
  print_batch_step: 10
  save_model_dir: ./output/rec_ppocrv3_custom
  save_epoch_step: 1
  eval_batch_step: [0, 2000]
  cal_metric_during_train: True
  pretrained_model: ./pretrain/ch_PP-OCRv3_rec_train/best_accuracy.pdparams
  checkpoints:
  save_inference_dir:
  use_visualdl: False
  infer_img:
  character_dict_path: ./ppocr/utils/my_dict.txt
  max_text_length: 25
  infer_mode: False
  use_space_char: True
  distributed: False
  save_res_path: ./output/rec/predicts.txt
  use_amp: False

Architecture:
  model_type: rec
  algorithm: SVTR
  Transform:
  Backbone:
    name: MobileNetV1Enhance
    scale: 0.5
    last_conv_stride: [1, 2]
    last_pool_type: avg
  Neck:
    name: SequenceEncoder
    encoder_type: svtr
    dims: 64
    depth: 2
    hidden_dims: 120
    use_guide: False
  Head:
    name: CTCHead
    fc_decay: 0.00001

Loss:
  name: CTCLoss

Optimizer:
  name: Adam
  beta1: 0.9
  beta2: 0.999
  lr:
    name: Piecewise
    decay_epochs: [50, 80]
    values: [0.0001, 0.00002]
    warmup_epoch: 5
  regularizer:
    name: 'L2'
    factor: 0.00001

Train:
  dataset:
    name: SimpleDataSet
    data_dir: ./train_data/
    label_file_list:
      - ./train_data/custom橖.txt
      - ./train_data/general.txt
    ratio_list: [0.2, 0.8]  # 保证橖字样本不过多
    transforms:
      - RecAug: {}
      - CTCLabelEncode: {}
      - KeepKeys:
          keep_keys: ['image', 'label', 'length']
  loader:
    shuffle: True
    drop_last: False
    batch_size_per_card: 64
    num_workers: 4
    use_shared_memory: False

Eval:
  dataset:
    name: SimpleDataSet
    data_dir: ./val_data/
    label_file_list: [./val_data/val.txt]
    transforms:
      - CTCLabelEncode: {}
      - KeepKeys:
          keep_keys: ['image', 'label', 'length']
  loader:
    shuffle: False
    drop_last: False
    batch_size_per_card: 64
    num_workers: 4

📌 注意事项：

字典文件 my_dict.txt 中应正确加入新字「橖」，并保持格式一致；
预训练模型请从 PP-OCRv3 官网下载对应 rec 模型并解压至 ./pretrain/；
custom橖.txt 中只包含橖字图像数据，general.txt 为通用OCR识别数据集；
比例 ratio_list: [0.2, 0.8] 控制微调时偏向通用，防止模型「记住」橖而不泛化；
避免原始配置中的 RecConAug 增强方式，以免合成图像扰乱分布。

⚠️ 如果只有1000张橖字图像，建议你至少收集5000张通用识别样本，并按1:4或1:5比例混合使用。

通过上述配置，你的模型将更好地兼顾新字的识别能力与整体识别性能。

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

⚠️ This is an AI-generated response. Please verify any critical information.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

模型微调 #15000

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

模型微调 #15000

Uh oh!

daijun-hub Apr 11, 2025

Replies: 1 comment

Uh oh!

GreatV Apr 11, 2025 Maintainer

daijun-hub
Apr 11, 2025

GreatV
Apr 11, 2025
Maintainer