使用ch_PP-OCRv4_det_cml.yml蒸馏训练一个特定场景的模型，两个Student模型需要加载预训练模型吗，Teacher模型加载配置中给的那个预训练模型就行吗 #15064

jjkgsd · 2025-04-21T08:49:52Z

jjkgsd
Apr 21, 2025

🔎 Search before asking

I have searched the PaddleOCR Docs and found no similar bug report.
I have searched the PaddleOCR Issues and found no similar bug report.
I have searched the PaddleOCR Discussions and found no similar bug report.

🐛 Bug (问题描述)

使用ch_PP-OCRv4_det_cml.yml蒸馏训练一个特定场景的模型，两个Student模型需要加载预训练模型吗，Teacher模型加载配置中给的那个预训练模型就行吗

🏃‍♂️ Environment (运行环境)

python 3.8
paddlepaddle-gpu 2.5.2

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

python tools/train.py -c configs/det/ch_PP-OCRv4/ch_PP-OCRv4_det_cml.yml

jingsongliujing · 2025-04-21T08:59:47Z

jingsongliujing
Apr 21, 2025
Collaborator

如果未加载 Student 预训练模型，可能导致训练效率低、精度收敛差等问题。Teacher模型理论上加载配置中给的那个预训练模型是可以的，但是还是建议优先使用官方提供的同类型预训练模型作为起点。

0 replies

jjkgsd · 2025-04-21T09:08:03Z

jjkgsd
Apr 21, 2025
Author

0 replies

jjkgsd · 2025-04-21T09:09:24Z

jjkgsd
Apr 21, 2025
Author

如果未加载 Student 预训练模型，可能导致训练效率低、精度收敛差等问题。Teacher模型理论上加载配置中给的那个预训练模型是可以的，但是还是建议优先使用官方提供的同类型预训练模型作为起点。

好的，感谢

0 replies

jjkgsd · 2025-04-21T09:09:44Z

jjkgsd
Apr 21, 2025
Author

如果未加载 Student 预训练模型，可能导致训练效率低、精度收敛差等问题。Teacher模型理论上加载配置中给的那个预训练模型是可以的，但是还是建议优先使用官方提供的同类型预训练模型作为起点。

您知道那两个参数作用是什么吗？

0 replies

GreatV · 2025-04-23T11:15:10Z

GreatV
Apr 23, 2025
Maintainer

你问到：

使用 ch_PP-OCRv4_det_cml.yml 进行蒸馏训练时，两个Student模型是否需要加载预训练模型？
Teacher模型只加载配置中给的预训练模型就行吗？

下面结合你的配置内容详细解答：

1. Student 模型是否需要加载预训练模型？

在你的 ch_PP-OCRv4_det_cml.yml 配置里，Student 和 Student2 的 Backbone 预训练策略如下：

Student:
  Backbone:
    name: PPLCNetV3
    scale: 0.75
    pretrained: false

Student2:
  Backbone:
    name: PPLCNetV3
    scale: 0.75
    pretrained: true

Student 的 Backbone 预训练参数是 pretrained: false，即不加载预训练权重。
Student2 的 Backbone 预训练参数是 pretrained: true，即会加载默认路径的 PPLCNetV3 预训练权重。

而且 Student2 外部还有一行

Student2:
  pretrained: null

这意思是整个 Student2 不加载外部预训练参数文件（如大模型 .pdparams），只会照常去加载 backbone 的权重。

结论

是否需要加载预训练模型，取决于你的实际需求和效果。
从配置设计上，推荐至少有一个Student加载预训练模型（通常是ImageNet上的），能帮助模型更快收敛、提升下游任务效果。
- 通用做法就是一个不带预训练（Student），一个带预训练（Student2）。
如果你两个 Student 都设为 pretrained: false，也是可以的，但网络学习速度变慢，蒸馏效果下降。
如果你希望提高 Student 的初始能力，建议把 Student 里的
```
pretrained: true
```
这样和 Student2 一样，都加载 PPLCNetV3 预训练权重，更利于特定场景的小样本收敛。

2. Teacher 模型加载哪个预训练模型？

你的配置如下：

Teacher:
  pretrained: https://paddleocr.bj.bcebos.com/PP-OCRv4/chinese/ch_PP-OCRv4_det_cml_teacher_pretrained/teacher.pdparams
  freeze_params: true

Teacher 只需要加载你在配置里指定的预训练模型即可，不需要自己再写别的下载或加载代码。

freeze_params: true 表示 Teacher 训练过程中参数完全冻结；
只要上述权重文件和链接没有问题，就满足蒸馏要求。

小结与建议

Teacher： 只需要加载配置中给的预训练模型即可，配置已正确。
Student/Student2：
- 至少一个建议使用 pretrained: true，提升模型初始能力。两个都加也可以。
- 如果你项目偏好从头开始训练、或者数据充足，也可以全设为 pretrained: false，效果可能不如用预训练。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

使用ch_PP-OCRv4_det_cml.yml蒸馏训练一个特定场景的模型，两个Student模型需要加载预训练模型吗，Teacher模型加载配置中给的那个预训练模型就行吗 #15064

Uh oh!

{{title}}

Uh oh!

Replies: 5 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

使用ch_PP-OCRv4_det_cml.yml蒸馏训练一个特定场景的模型，两个Student模型需要加载预训练模型吗，Teacher模型加载配置中给的那个预训练模型就行吗 #15064

Uh oh!

jjkgsd Apr 21, 2025

🔎 Search before asking

🐛 Bug (问题描述)

🏃‍♂️ Environment (运行环境)

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

Replies: 5 comments

Uh oh!

jingsongliujing Apr 21, 2025 Collaborator

Uh oh!

jjkgsd Apr 21, 2025 Author

Uh oh!

jjkgsd Apr 21, 2025 Author

Uh oh!

jjkgsd Apr 21, 2025 Author

Uh oh!

GreatV Apr 23, 2025 Maintainer

1. Student 模型是否需要加载预训练模型？

结论

2. Teacher 模型加载哪个预训练模型？

小结与建议

相关 issue 参考

jjkgsd
Apr 21, 2025

jingsongliujing
Apr 21, 2025
Collaborator

jjkgsd
Apr 21, 2025
Author

jjkgsd
Apr 21, 2025
Author

jjkgsd
Apr 21, 2025
Author

GreatV
Apr 23, 2025
Maintainer