CPPD mode - different between forward_train and forward_test #15004

FahNos · 2025-04-12T03:42:21Z

FahNos
Apr 12, 2025

I check the code and see the different between forward_train and forward_test in Class CPPDhead,

In forward train:
char_vis_node_query = paddle.concat([char_node_embed, visual_feats], 1)
char_vis_node_query = char_decoder_layer( char_vis_node_query, char_vis_node_query[:, counting_char_num:, :] )
char_vis_feats = char_vis_node_query[:, counting_char_num:, :]
pos_node_feats = self.edge_decoder( pos_node_query, char_vis_feats, char_vis_feats )
In forward_test:
char_vis_node_query = visual_feats
char_vis_node_query = char_decoder_layer( char_vis_node_query, char_vis_node_query )
char_vis_feats = char_vis_node_query
pos_node_feats = self.edge_decoder( pos_node_query, char_vis_feats, char_vis_feats )
We can see in forward train, tensor char_vis_node_query is attention between concat([char_node_embed, visual_feats], 1) and visual_feats, but in forward test char_vis_node_query is attention between visual_feats and visual_feats, this can make the different between char_vis_feats = char_vis_node_query[:, counting_char_num:, :] in forward_train and char_vis_feats = char_vis_node_query in forward_test

One more think in forward train I see have use
diag_mask = ( paddle.eye(pos_node_feats1.shape[1]) .unsqueeze(0) .tile([pos_node_feats1.shape[0], 1, 1]) )
but in forward_test do not use it

Do you test it and see the different between train and test process ?
If result is good, Can you explain why have different but the result still good

GreatV · 2025-04-12T03:44:11Z

GreatV
Apr 12, 2025
Maintainer

是的，你观察到的 CPPDHead 中 forward_train 和 forward_test 的差异确实存在，并且是有意义的。这种差异主要体现在两个方面：

char_vis_feats 构建方式不同：

在 forward_train 中：

char_vis_node_query = paddle.concat([char_node_embed, visual_feats], 1)
char_vis_node_query = char_decoder_layer(char_vis_node_query, char_vis_node_query[:, counting_char_num:, :])
char_vis_feats = char_vis_node_query[:, counting_char_num:, :]

解释：

char_node_embed 是文字节点（通常是位置或字符类别的嵌入）。
将 char_node_embed 与 visual_feats（视觉特征）拼接后，作为 query 和 key/value，输入给 char_decoder_layer（一个 Transformer block）。
然后提取拼接后位置中的 visual_feats 部分作为 char_vis_feats。

这种做法的好处是在训练阶段“引导”视觉特征学习字符分布或字符节点的上下文信息，有助于优化训练收敛。

在 forward_test 中：

char_vis_node_query = visual_feats
char_vis_node_query = char_decoder_layer(char_vis_node_query, char_vis_node_query)
char_vis_feats = char_vis_node_query

解释：

推理时不再加入 char_node_embed，只使用视觉特征进行 self-attention。
理由是测试阶段并没有 ground truth 的字符标签用于构造 char_node_embed，而模型已经“学会”了如何从视觉特征中恢复必要关系。

是否使用 diag_mask：

你指出 forward_train 中使用了一个 diag_mask：

diag_mask = paddle.eye(pos_node_feats1.shape[1]).unsqueeze(0).tile([...])

用于边关系推理中屏蔽掉自身连接（diagonal），这是训练过程中常见做法，避免模型 trivially 学习 identity mapping。

而在 forward_test 中未使用这个遮罩，通常是因为在预测阶段希望输出完整的连接关系（例如字符之间可能存在更复杂结构），或者此处优化考量。

为什么推理结果仍然好？

这是因为：

模型在训练阶段通过带有辅助信息（concat char_node_embed + 解码器 attention）进行优化以提升泛化。
推理时即便不提供 char_node_embed，模型也已经学习如何从纯视觉特征（visual_feats）中恢复字符关系，且这种设计是故意为之，保证部署简洁高效。
同样，没有使用 diag_mask 是为了获取完整的边结构，不限制模型表达能力。

这是一种常见的训练/测试不对称设计方式，旨在利用更多 prior information 优化训练过程，同时保持推理阶段输入简洁、高效推断。

参考实践：

类似做法在 NLP 和 OCR 中都存在，例如：

训练时采用 label embedding + teacher forcing。
推理时纯由 decoder 自回归预测。

如果你关心进一步验证结果影响，可以通过 ablation test（如：在 forward_test 中加入训练时的设计）来验证是否有准确率变化。

目前没有文档或 Issue 对此逻辑有具体说明，但你可以考虑在 PaddleOCR 提出相关讨论。此类设计通常写在论文或代码注释中。

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

⚠️ This is an AI-generated response. Please verify any critical information.

0 replies

FahNos · 2025-04-12T04:08:04Z

FahNos
Apr 12, 2025
Author

I check again
about mathematics do not have different

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

CPPD mode - different between forward_train and forward_test #15004

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 2 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

CPPD mode - different between forward_train and forward_test #15004

Uh oh!

Uh oh!

FahNos Apr 12, 2025

Replies: 2 comments

Uh oh!

GreatV Apr 12, 2025 Maintainer

Uh oh!

FahNos Apr 12, 2025 Author

FahNos
Apr 12, 2025

GreatV
Apr 12, 2025
Maintainer

FahNos
Apr 12, 2025
Author