训练模型丢失预训练模型权重，只剩下当前训练的权重 #14436

amazoncer · 2024-12-21T14:10:02Z

amazoncer
Dec 21, 2024

下载了官方的预训练模型进行训练后转推理模型，对训练完的模型进行推理测试，发现只能识别刚刚训练过的字，没有训练过的字就连微信截图“你我他”很简单的都会识别错误，我可以判断这种情况是预训练模型权重丢失，官方预训练模型有200m大小训练完成后2个文件加起来不到70m，转成推理模型后文件不到15m，不知道怎么回事，是bug或软件兼容问题，还是我操作不当，比如配置文件设置错误。检测过我配置文件中的已经加载了预训练模型，并且路径也是正确的，不知道预训练权重是在训练的时候就丢失，还是在转成推理模型的时候丢失。反复训练然后转成推理模型很多次，都是这种情况。有没有大佬知道这种情况，感激不尽。
我使用的终端命令如下
python tools/train.py -c configs\det\ch_PP-OCRv3\ch_PP-OCRv3_det_student.yml 训练de模型
python tools/train.py -c configs\rec\PP-OCRv3\ch_PP-OCRv3_rec_distillation.yml 训练rec模型
python tools/export_model.py -c "./configs/det/ch_PP-OCRv3/ch_PP-OCRv3_det_student.yml" -o Global.pretrained_model="./output/ch_PP-OCR_V3_det_student/latest.pdparams" Global.save_inference_dir="./inference_model/det"det模型转inference
python tools/export_model.py -c "./configs/rec/PP-OCRv3/ch_PP-OCRv3_rec_distillation.yml" -o Global.pretrained_model="./output/ch_pp-OCRv3_rec_distillation/best_model/model.pdparams" Global.save_inference_dir="./inference_model/rec"rec模型转inference
以下是我的配置文件
Global:
debug: false
use_gpu: true #是否使用显卡进行训练，true表示使用显卡训练，false表示不使用显卡。
epoch_num: 300 #迭代次数次数越多。训练的模型精度越高
log_smooth_window: 20
print_batch_step: 25
save_model_dir: ./output/ch_pp-OCRv3_rec_distillation #训练后模型所保存的位置。
save_epoch_step: 50 #训练多少次自动保存一次模型
eval_batch_step: 50 #训练多少次进行一次模型评估
cal_metric_during_train: true
pretrained_model: ./pretrain_models/ch_PP-OCRv3_rec_train/best_accuracy.pdparams #预训练模型所保存的路径
checkpoints:
save_inference_dir:
use_visualdl: false
infer_img: doc/imgs_words/ch/word_1.jpg
character_dict_path: ppocr/utils/ppocr_keys_v1.txt
max_text_length: &max_text_length 25
infer_mode: false
use_space_char: true
distributed: true
save_res_path: ./output/rec/predicts_ppocrv3_distillation.txt
d2s_train_image_shape: [3, 48, -1]

Optimizer:
name: Adam
beta1: 0.9
beta2: 0.999
lr:
name: Piecewise
decay_epochs : [700]
values : [0.0005, 0.00005]
warmup_epoch: 5
regularizer:
name: L2
factor: 3.0e-05

Architecture:
model_type: &model_type "rec"
name: DistillationModel
algorithm: Distillation
Models:
Teacher:
pretrained:
freeze_params: false
return_all_feats: true
model_type: *model_type
algorithm: SVTR_LCNet
Transform:
Backbone:
name: MobileNetV1Enhance
scale: 0.5
last_conv_stride: [1, 2]
last_pool_type: avg
last_pool_kernel_size: [2, 2]
Head:
name: MultiHead
head_list:
- CTCHead:
Neck:
name: svtr
dims: 64
depth: 2
hidden_dims: 120
use_guide: True
Head:
fc_decay: 0.00001
- SARHead:
enc_dim: 512
max_text_length: *max_text_length
Student:
pretrained:
freeze_params: false
return_all_feats: true
model_type: *model_type
algorithm: SVTR_LCNet
Transform:
Backbone:
name: MobileNetV1Enhance
scale: 0.5
last_conv_stride: [1, 2]
last_pool_type: avg
last_pool_kernel_size: [2, 2]
Head:
name: MultiHead
head_list:
- CTCHead:
Neck:
name: svtr
dims: 64
depth: 2
hidden_dims: 120
use_guide: True
Head:
fc_decay: 0.00001
- SARHead:
enc_dim: 512
max_text_length: *max_text_length
Loss:
name: CombinedLoss
loss_config_list:

DistillationDMLLoss:
weight: 1.0
act: "softmax"
use_log: true
model_name_pairs:
- ["Student", "Teacher"]
  key: head_out
  multi_head: True
  dis_head: ctc
  name: dml_ctc
DistillationDMLLoss:
weight: 0.5
act: "softmax"
use_log: true
model_name_pairs:
- ["Student", "Teacher"]
  key: head_out
  multi_head: True
  dis_head: sar
  name: dml_sar
DistillationDistanceLoss:
weight: 1.0
mode: "l2"
model_name_pairs:
- ["Student", "Teacher"]
  key: backbone_out
DistillationCTCLoss:
weight: 1.0
model_name_list: ["Student", "Teacher"]
key: head_out
multi_head: True
DistillationSARLoss:
weight: 1.0
model_name_list: ["Student", "Teacher"]
key: head_out
multi_head: True

PostProcess:
name: DistillationCTCLabelDecode
model_name: ["Student", "Teacher"]
key: head_out
multi_head: True

Metric:
name: DistillationMetric
base_metric_name: RecMetric
main_indicator: acc
key: "Student"
ignore_space: False

Train:
dataset:
name: SimpleDataSet
data_dir: ./train_data/ #识别模型数据集所在的文件夹的上一层文件夹
ext_op_transform_idx: 1
label_file_list:
- ./train_data/rec/train.txt #训练数据集所标注文件所在的路径，路径精确到具体的文件的后缀名。
transforms:
- DecodeImage:
img_mode: BGR
channel_first: false
- RecConAug:
prob: 0.5
ext_data_num: 2
image_shape: [48, 320, 3]
max_text_length: *max_text_length
- RecAug:
- MultiLabelEncode:
- RecResizeImg:
image_shape: [3, 48, 320]
- KeepKeys:
keep_keys:
- image
- label_ctc
- label_sar
- length
- valid_ratio
loader:
shuffle: true
batch_size_per_card: 10
drop_last: true
num_workers: 4
Eval:
dataset:
name: SimpleDataSet
data_dir: ./train_data #识别模型数据集所在的文件夹的上一层文件夹
label_file_list:
- ./train_data/rec/val.txt #识别模型数据集标注文件所在的路径，精确的文件后缀名。
transforms:
- DecodeImage:
img_mode: BGR
channel_first: false
- MultiLabelEncode:
- RecResizeImg:
image_shape: [3, 48, 320]
- KeepKeys:
keep_keys:
- image
- label_ctc
- label_sar
- length
- valid_ratio
loader:
shuffle: false
drop_last: false
batch_size_per_card: 10
num_workers: 4

GreatV · 2024-12-21T14:16:58Z

GreatV
Dec 21, 2024
Maintainer

从您的描述和日志信息来看，问题可能集中在以下几个方面：

问题分析

预训练模型权重未正确加载或丢失
- 根据日志中的 WARNING 信息，许多预训练模型参数未能被加载，例如：
```
The pretrained params backbone.conv.conv.weight not in model
The pretrained params backbone.stage0.0.expand_conv.conv.weight not in model
```
  这些警告表明预训练模型的权重与当前模型架构不完全匹配，导致部分权重未能加载成功。这可能会导致训练过程等效于从头开始训练，导致模型只能识别刚刚训练过的字符，而无法利用预训练权重的泛化能力。
模型文件大小异常
- 您提到预训练模型大小为 200MB，而训练后的模型只有 70MB，转成推理模型后又变成 15MB。这表明训练后模型可能丢失了部分权重。推理模型的大小通常会进一步减小，这是因为推理模型通常只保留核心部分，但减小幅度过大可能是配置或导出过程中出错的信号。
配置文件可能存在问题
- 您的配置文件中 pretrained_model 路径为：
```
pretrained_model: ./pretrain_models/ch_PP-OCRv3_rec_train/best_accuracy.pdparams
```
  如果这个路径中的模型文件与当前模型架构不匹配（例如 Backbone 或 Head 的结构不同），即使路径正确，加载过程也可能出错。
训练数据与预训练模型的特性不匹配
- 如果训练数据的字符分布与预训练模型的字符集（例如 character_dict_path 中定义的字符集）差异较大，也可能导致模型无法正确加载权重或训练结果不理想。
推理模型导出可能有问题
- 使用 tools/export_model.py 将模型转为推理模型时，可能没有正确加载训练后的完整权重。例如：
```
Global.pretrained_model="./output/ch_PP-OCR_V3_det_student/latest.pdparams"
```
  如果这里的路径未正确指向训练后的完整模型权重，也会导致推理模型的效果差。

解决方案

1. 确保预训练模型与当前架构匹配

预训练模型的权重是否与当前配置文件中的 Backbone 和 Head 结构一致？
例如：
```
Backbone:
  name: MobileNetV1Enhance
```
如果您使用的预训练模型是针对其他架构（如 ResNet 或不同版本的 MobileNet），就会导致权重不匹配。
请确保预训练模型来源于官方文档中与您配置文件匹配的模型。例如，ch_PP-OCRv3_rec_train/best_accuracy.pdparams 应该是针对 PP-OCRv3 的模型权重。

2. 检查权重加载日志

您可以在训练脚本中添加调试代码，检查具体加载了哪些权重：
```
state_dict = paddle.load('./pretrain_models/ch_PP-OCRv3_rec_train/best_accuracy.pdparams')
print(state_dict.keys())
```
确保权重文件包含与模型架构匹配的键值。

3. 调整推理模型导出流程

在使用 tools/export_model.py 导出推理模型时，请确保路径指向训练后效果最好的权重。例如：
```
Global.pretrained_model="./output/ch_PP-OCRv3_rec_distillation/best_accuracy.pdparams"
```
而非仅指向最新（latest.pdparams）的权重，后者可能未达到最佳性能。

4. 数据集与字典文件的检查

确保 character_dict_path 中定义的字符集与您的训练数据一致。如果训练数据中包含未在字典中定义的字符，这些字符将无法被模型正确训练：
```
character_dict_path: ppocr/utils/ppocr_keys_v1.txt
```
如果需要训练新的字符，请更新字典文件。

5. 验证模型大小与配置

训练后的模型权重大小（70MB）和推理模型大小（15MB）可能过小，建议对比官方模型的大小。如果差异过大，可能是部分权重未被正确保存或导出。

保存完整权重的配置：

save_epoch_step: 1  # 每 1 个 epoch 保存一次模型
save_model_dir: ./output/ch_PP-OCRv3_rec_distillation

6. 检查优化器与学习率

当前学习率调度器配置为 Piecewise，并且初始学习率较低（values : [0.0005, 0.00005]）。如果预训练权重未正确加载，收敛速度可能会受到影响。

如果训练过程中发现 acc 长时间为 0，可以尝试将初始学习率调高，例如：

lr:
  name: Cosine
  learning_rate: 0.001
  warmup_epoch: 5  # 增加 warmup 阶段

7. 验证推理模型的正确性

在导出推理模型后，通过官方提供的推理工具验证推理效果，确保模型文件正确：
```
python tools/infer/predict_rec.py --image_dir="./test_images/" --rec_model_dir="./inference_model/rec/"
```

总结

主要问题可能出现在预训练权重未正确加载或训练过程配置问题。建议仔细检查预训练模型与当前模型架构的匹配性，并确保推理模型的导出过程正确。
按上述步骤逐一排查后，相信可以解决您遇到的问题。如仍有疑问，可提供进一步的日志信息以便更具体分析。

Response generated by feifei-bot | chatgpt-4o-latest

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

训练模型丢失预训练模型权重，只剩下当前训练的权重 #14436

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

训练模型丢失预训练模型权重，只剩下当前训练的权重 #14436

Uh oh!

amazoncer Dec 21, 2024

Replies: 1 comment

Uh oh!

GreatV Dec 21, 2024 Maintainer

问题分析

解决方案

1. 确保预训练模型与当前架构匹配

2. 检查权重加载日志

3. 调整推理模型导出流程

4. 数据集与字典文件的检查

5. 验证模型大小与配置

6. 检查优化器与学习率

7. 验证推理模型的正确性

相关参考

总结

amazoncer
Dec 21, 2024

GreatV
Dec 21, 2024
Maintainer