利用TAL_OCR_MATH小学算数公式数据集进行微调相关问题 #14491

Bestboy125 · 2025-01-04T09:56:33Z

Bestboy125
Jan 4, 2025

数据集格式如下：

其中诸如(,),x,÷,余号的数学符号，该数据集进行了字符的映射，我将这些映射直接作为GT和字典。数据量有3万条，识别模型微调后推理结果大部分数学符号都直接空过，只有数字以及-=+这些没有映射的符号能识别出来。

请问这种情况下，我是否应该重新训练模型而不是微调，还是说我的微调过程出了问题呢，
以下是我的字典和识别模型训练集的标签
dict.txt
rec_gt_train.txt

以下是train的配置文件：
Global:
debug: false
use_gpu: true
epoch_num: 200
log_smooth_window: 20
print_batch_step: 10
save_model_dir: ./output/no_f_math_paddle_v4
save_epoch_step: 10
eval_batch_step: [0, 2000]
cal_metric_during_train: true
pretrained_model: /opt/data/private/envs/paddle_ocr/ch_PP-OCRv4_rec_train/student.pdparams
checkpoints:
save_inference_dir:
use_visualdl: false
infer_img: doc/imgs_words/ch/word_1.jpg
character_dict_path: /opt/data/private/envs/paddle_ocr/PaddleOCR/dict.txt
max_text_length: &max_text_length 25
infer_mode: false
use_space_char: true
distributed: true
save_res_path: ./output/rec/predicts_ppocrv3.txt
d2s_train_image_shape: [3, 48, 320]

Optimizer:
name: Adam
beta1: 0.9
beta2: 0.999
lr:
name: Cosine
learning_rate: 0.0001
warmup_epoch: 5
regularizer:
name: L2
factor: 3.0e-05

Architecture:
model_type: rec
algorithm: SVTR_LCNet
Transform:
Backbone:
name: PPLCNetV3
scale: 0.95
Head:
name: MultiHead
head_list:
- CTCHead:
Neck:
name: svtr
dims: 120
depth: 2
hidden_dims: 120
kernel_size: [1, 3]
use_guide: True
Head:
fc_decay: 0.00001
- NRTRHead:
nrtr_dim: 384
max_text_length: *max_text_length

Loss:
name: MultiLoss
loss_config_list:
- CTCLoss:
- NRTRLoss:

PostProcess:
name: CTCLabelDecode

Metric:
name: RecMetric
main_indicator: acc

Train:
dataset:
name: MultiScaleDataSet
ds_width: false
data_dir: ./train_data/rec
ext_op_transform_idx: 1
label_file_list:
- /opt/data/private/envs/paddle_ocr/PaddleOCR/train_data/rec/rec_gt_train_no_f.txt
transforms:
- DecodeImage:
img_mode: BGR
channel_first: false
- RecConAug:
prob: 0.5
ext_data_num: 2
image_shape: [48, 320, 3]
max_text_length: *max_text_length
- RecAug:
- MultiLabelEncode:
gtc_encode: NRTRLabelEncode
- KeepKeys:
keep_keys:
- image
- label_ctc
- label_gtc
- length
- valid_ratio
sampler:
name: MultiScaleSampler
scales: [[320, 32], [320, 48], [320, 64]]
first_bs: &bs 192
fix_bs: false
divided_factor: [8, 16] # w, h
is_training: True
loader:
shuffle: true
batch_size_per_card: *bs
drop_last: true
num_workers: 8
Eval:
dataset:
name: SimpleDataSet
data_dir: ./train_data
label_file_list:
- /opt/data/private/envs/paddle_ocr/PaddleOCR/train_data/rec/rec_gt_train_no_f.txt
transforms:
- DecodeImage:
img_mode: BGR
channel_first: false
- MultiLabelEncode:
gtc_encode: NRTRLabelEncode
- RecResizeImg:
image_shape: [3, 48, 320]
- KeepKeys:
keep_keys:
- image
- label_ctc
- label_gtc
- length
- valid_ratio
loader:
shuffle: false
drop_last: false
batch_size_per_card: 128
num_workers: 4

GreatV · 2025-01-04T09:59:14Z

GreatV
Jan 4, 2025
Maintainer

从您的描述来看，微调的过程中，数学符号无法正确识别的原因可能有以下几点：

原因分析

数据集中字符映射的符号问题：
您提到数据集对数学符号如(, ), x, ÷, 余号进行了字符映射，并且您直接将这些映射作为GT和字典。如果映射后的符号不在字典中，或者字典未正确加载，则模型可能无法识别这些符号。
预训练模型和目标数据分布的差异：
如果预训练模型的字典与您的数据集字典在符号集合上存在差异，模型可能会忽略掉这些符号。这是因为预训练模型可能没有学习到这些映射符号的特征。
数据量和分布问题：
您的数据集包含3万条数据，但如果映射后的数学符号出现的样本数量不足，模型可能无法有效学习到这些符号的特征。
微调学习率和训练策略：
如果微调时使用的学习率过低，或者训练的epoch数量不足，模型可能无法充分调整其权重以适应新任务。
损失函数和解码方式：
当前配置中的CTCLoss和NRTRLoss可能在处理特定符号上的效果有限，比如映射后的符号序列是否存在问题（如符号间隔过长、识别顺序受干扰）。

解决方案

根据上述可能的原因，您可以尝试以下方法来解决问题：

1. 检查字典和映射的正确性

确保映射后的数学符号已经正确加入到字典文件中（dict.txt），并且训练时加载了正确的字典路径。
确保character_dict_path参数指向您的自定义字典文件路径。

2. 扩充数据集

检查数据集中各个符号的分布，确保每个符号出现的样本数量足够（建议每个符号至少300条样本）。
如果某些符号的样本数量不足，可以通过数据增强（如旋转、缩放、仿射变换）或合成数据来扩充这些符号的样本量。

3. 尝试重新训练模型

如果预训练模型的字典与您的目标数据集差异较大，建议放弃微调，而是以随机初始化的权重重新训练模型。
重新训练时，确保所有符号的标注和字典是一致的。

4. 调整微调配置

学习率：适当提高学习率，例如从0.0001增加到0.001，以加速模型对新数据的适应。
训练epoch：增加训练的epoch数量（如从200增加到300），并关注验证集的准确率，避免过拟合。
权重冻结：如果数学符号的分布与数字等字符的分布有明显不同，可以冻结预训练模型的部分权重，仅训练后面的层。

5. 优化损失函数

如果数学符号的识别结果非常稀疏，可以尝试调整CTC的解码方式（如beam search）或替换为更适合符号序列任务的损失函数。

6. 检查训练日志和可视化

使用训练日志和可视化工具（如VisualDL）检查数学符号的预测结果。对符号的预测为空可能是由于置信度阈值设置过高，可以通过降低阈值观察是否有改善。

示例调整（针对配置文件）

以下是针对您的train配置文件的部分调整建议：

# 学习率调整
Optimizer:
  name: Adam
  beta1: 0.9
  beta2: 0.999
  lr:
    name: Cosine
    learning_rate: 0.001  # 提高学习率
    warmup_epoch: 5

# 数据扩增
Train:
  dataset:
    transforms:
      - RecConAug:
          prob: 0.7  # 增加数据增强概率
          image_shape: [48, 320, 3]
      - RecAug:
          aug_prob: 0.5

# 后处理参数
PostProcess:  
  name: CTCLabelDecode
  ctc_beam_search: True  # 启用 Beam Search 解码

总结

如果数学符号在推理时完全无法识别，可能是字典或模型初始化出现了问题。
如果符号部分能识别但准确率较低，建议从数据量、模型配置、训练策略等方面逐步优化。
尝试先使用小规模数据集验证模型是否可以正常识别符号，再扩展到完整数据集。

希望这些方法能帮助您解决问题！

Response generated by feifei-bot | chatgpt-4o-latest

2 replies

Bestboy125 Jan 4, 2025
Author

请问您知道我把数学符号字符映射后的字幕作为GT和字典这个做法是否正确,我是单卡训练，学习率提高到0.001可以吗

GreatV Jan 4, 2025
Maintainer

试试专门的公式识别模型

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

利用TAL_OCR_MATH小学算数公式数据集进行微调相关问题 #14491

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 2 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

利用TAL_OCR_MATH小学算数公式数据集进行微调相关问题 #14491

Uh oh!

Bestboy125 Jan 4, 2025

Replies: 1 comment · 2 replies

Uh oh!

GreatV Jan 4, 2025 Maintainer

原因分析

解决方案

1. 检查字典和映射的正确性

2. 扩充数据集

3. 尝试重新训练模型

4. 调整微调配置

5. 优化损失函数

6. 检查训练日志和可视化

示例调整（针对配置文件）

总结

Uh oh!

Bestboy125 Jan 4, 2025 Author

Uh oh!

GreatV Jan 4, 2025 Maintainer

Bestboy125
Jan 4, 2025

Replies: 1 comment 2 replies

GreatV
Jan 4, 2025
Maintainer

Bestboy125 Jan 4, 2025
Author

GreatV Jan 4, 2025
Maintainer