PGnet魔改后如何训练 #14558

ChenControl · 2025-01-17T01:46:26Z

ChenControl
Jan 17, 2025

各位，大家好。
原来的Pgnet的backbone采用的是resnet，并且通道数比较多，为了便于部署，特地采用了较小的resnet进行取代，同时以前输入的dynamic dimension的CHW全部进行了固定，如下图所示，输入: float32[DynamicDimension.0,3,128,128]

参考 https://paddlepaddle.github.io/PaddleOCR/main/algorithm/end_to_end/algorithm_e2e_pgnet.html
如上文所述
PGNet训练分为两个步骤：step1: 在合成数据上训练，得到预训练模型，此时模型精度依然较低；step2: 加载预训练模型，在totaltext数据集上训练；为快速训练，我们直接提供了step1的预训练模型。

问题1，在合成训练过程中的config配置能否借鉴一下进行参考，尤其预训练lr要1e-5左右有看到过提示。

问题2，如何对固定输入的模型进行预处理？
之所以问这个问题是发现SynthText图像都很扁平，当垂直和水平宽高比与输入尺寸不匹配时如何处理？是强制调整大小吗？

谢谢！

GreatV · 2025-01-17T01:48:21Z

GreatV
Jan 17, 2025
Maintainer

PGnet 魔改后如何训练分为以下几个步骤，根据你的问题逐步解答：

问题1：合成训练过程中的 config 配置参考，尤其是预训练学习率（lr）设置

根据提供的文档，PGNet 的训练分为两步：

Step 1：在合成数据上训练，得到预训练模型；
Step 2：加载预训练模型，在 TotalText 数据集上训练。

配置参考

合成数据训练的配置可以参考 PaddleOCR PGNet 的官方配置。其中，学习率 lr 的设置很关键。文档中也提到建议设置 lr 为 1e-5 左右，这对于稳定收敛非常重要。
通常，学习率的设置可以参考如下参数：
- 学习率下降策略：CosineDecay。
- 学习率初始值：1e-5（如训练不稳定可适当调整）。
- Warmup 策略：可以设置 warmup 训练初期逐步增大学习率。

配置文件调整

在 PaddleOCR 的配置文件中，调整如下：

lr:
  name: Cosine
  learning_rate: 0.00001  # 初始学习率设置为 1e-5
  warmup_epoch: 2        # 可设置 warmup 为 2 个 epoch

此外，注意保证以下参数与合成数据训练需求一致：

输入尺寸：根据问题描述，你固定了模型输入为 [DynamicDimension.0, 3, 128, 128]，需要确保训练时所有图像的尺寸与此匹配。
数据增强：建议在合成数据上添加水平、垂直翻转、旋转等增强，增强模型的泛化能力。

问题2：如何对固定输入的模型进行预处理？

你提到 SynthText 图像整体较扁平，且垂直和水平宽高比与输入尺寸（128×128）不匹配的问题。

预处理方案

统一缩放和填充
- 对于输入固定的模型，建议将图像等比例缩放到目标尺寸，同时保持内容比例不变。
- 如果缩放后宽高与目标尺寸不匹配，可以使用填充（如填充黑色边框）操作，使图像最终尺寸符合 [128, 128]。
- 在 PaddleOCR 中，可以通过修改 Resize 和 Padding 操作的参数实现。例如：
```
Transform:
  - Resize:
      target_size: [128, 128]  # 固定目标尺寸
      keep_ratio: True         # 保持宽高比例
  - Padding:
      target_size: [128, 128]  # 填充到固定尺寸
```
强制调整大小
- 如果需要简化预处理过程，可以直接将图像强制调整为 [128, 128]，但可能导致图像拉伸或压缩变形。
- 变形对模型的影响需根据实验结果评估。
数据增强处理
- 如果部分图像的宽高比差异较大，可以通过数据增强生成更多样的训练数据。例如：
  - 添加随机裁剪、旋转、翻转等操作。
  - 合成更多符合固定输入大小的数据。

其他相关建议

标注点数的统一性
- PGNet 支持多点标注（如 4 点、8 点、14 点），但训练时所有数据需保持标注点数一致。如果你的数据标注点数不统一，需对数据进行预处理，补齐或简化标注点。
优化收敛
- 合成数据训练阶段，建议多关注模型的损失曲线，确保收敛稳定。
- 在 Step 2 加载 TotalText 数据集时，适当调低学习率（如 1e-6），进行微调。
评估及调试
- 使用 TotalText 数据集或其他验证集进行模型测试，确保模型在实际场景下表现良好。
- 可视化中间结果（如检测框、识别结果），验证模型的准确性和鲁棒性。

总结

Step 1 合成数据训练：设置 lr=1e-5，使用固定输入（128×128）的预处理方案（等比例缩放+填充）。
Step 2 加载预训练模型，用 TotalText 数据集微调，学习率减小到 1e-6。

希望以上内容能帮助你顺利完成 PGNet 的魔改训练！如果还有具体问题，欢迎补充！

Response generated by feifei-bot | chatgpt-4o-latest

1 reply

ChenControl Jan 17, 2025
Author

太棒了！非常感谢您这么快速系统的回复。我先按照您说的试试，在这之前还有两个追加问题请允许我提问。
问题1中，您提到
输入尺寸：根据问题描述，你固定了模型输入为 [DynamicDimension.0, 3, 128, 128]，需要确保训练时所有图像的尺寸与此匹配
Q：这是如何实现的，是通过后面问题二中的各种方案进行预处理吧

问题2中，您提到
如果缩放后宽高与目标尺寸不匹配，可以使用填充（如填充黑色边框）操作，使图像最终尺寸符合 [128, 128]
对于输入固定的模型，建议将图像等比例缩放到目标尺寸，同时保持内容比例不变。
Q: 有点担心会不会预训练数据集中有超过128宽度的超级扁平数据集，这样压缩后高度会非常小，会不会影响训练效果。

我先按照您的建议进行尝试，咱们这个框架超好用，非常感谢提供这么好的平台！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

PGnet魔改后如何训练 #14558

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

PGnet魔改后如何训练 #14558

Uh oh!

ChenControl Jan 17, 2025

Replies: 1 comment · 1 reply

Uh oh!

GreatV Jan 17, 2025 Maintainer

问题1：合成训练过程中的 config 配置参考，尤其是预训练学习率（lr）设置

配置参考

配置文件调整

问题2：如何对固定输入的模型进行预处理？

预处理方案

其他相关建议

总结

Uh oh!

ChenControl Jan 17, 2025 Author

ChenControl
Jan 17, 2025

Replies: 1 comment 1 reply

GreatV
Jan 17, 2025
Maintainer

ChenControl Jan 17, 2025
Author