OCRv4的技术报告说的PFhead在官方代码里的实现为什么不一样？ #14733

huangqiu15444 · 2025-02-20T08:14:49Z

huangqiu15444
Feb 20, 2025

class LocalModule(nn.Layer):
def init(self, in_c, mid_c, use_distance=True):
super(self.class, self).init()
self.last_3 = ConvBNLayer(in_c + 1, mid_c, 3, 1, 1, act="relu")
self.last_1 = nn.Conv2D(mid_c, 1, 1, 1, 0)

def forward(self, x, init_map, distance_map):
    outf = paddle.concat([init_map, x], axis=1)
    # last Conv
    out = self.last_1(self.last_3(outf)) # 这里和报告中的”（1）PFhead：多分支融合Head结构 “不一样，这里是concat+conv3+conv1， 
    return out

技术报告里说的是“通过过3x3卷积得到输出结果，然后和转置卷积的分支的结果级联并经过1x1卷积层，最后1x1卷积的结果和转置卷积的结果相加得到最后输出的概率图”，我的理解应该是conv3 + concat + conv1。麻烦知道的大佬解答一下。

GreatV · 2025-02-20T08:19:03Z

GreatV
Feb 20, 2025
Maintainer

在OCRv4的技术报告中，PFhead的描述是“通过3x3卷积得到输出结果，然后和转置卷积的分支的结果级联并经过1x1卷积层，最后1x1卷积的结果和转置卷积的结果相加得到最后输出的概率图”。这意味着PFhead的结构应该是先进行3x3卷积，然后将结果与转置卷积的分支进行级联，再经过1x1卷积，最后将1x1卷积的结果与转置卷积的结果相加。

然而，在官方代码中，LocalModule类的实现与报告中的描述有所不同。具体来说，代码中的实现是：

class LocalModule(nn.Layer):
    def __init__(self, in_c, mid_c, use_distance=True):
        super(self.__class__, self).__init__()
        self.last_3 = ConvBNLayer(in_c + 1, mid_c, 3, 1, 1, act="relu")
        self.last_1 = nn.Conv2D(mid_c, 1, 1, 1, 0)

    def forward(self, x, init_map, distance_map):
        outf = paddle.concat([init_map, x], axis=1)
        # last Conv
        out = self.last_1(self.last_3(outf)) # 这里和报告中的”（1）PFhead：多分支融合Head结构 “不一样，这里是concat+conv3+conv1， 
        return out

在代码中，LocalModule的实现是先进行concat操作，将init_map和x进行级联，然后通过一个3x3卷积（self.last_3）和一个1x1卷积（self.last_1）得到输出。这与报告中描述的“conv3 + concat + conv1”顺序不同。

可能的原因：

代码优化或简化：在实际实现中，可能出于性能或代码简洁性的考虑，开发者对结构进行了调整。例如，将转置卷积的分支简化为直接使用concat操作。
版本差异：技术报告和代码实现可能属于不同的版本，报告中的描述可能是早期的设计思路，而代码实现是经过调整后的最终版本。
文档与代码不同步：技术报告和代码实现可能没有完全同步，导致描述和实现之间存在差异。

总结：

官方代码中的LocalModule实现与技术报告中的描述存在差异，主要体现在卷积和级联的顺序上。代码中的实现是先进行concat操作，然后通过3x3卷积和1x1卷积得到输出，而报告中描述的是先进行3x3卷积，再进行级联和1x1卷积。这种差异可能是由于代码优化、版本差异或文档与代码不同步导致的。

Response generated by 🤖 feifei-bot | deepseek-chat

⚠️ This is an AI-generated response. Please verify any critical information.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

OCRv4的技术报告说的PFhead在官方代码里的实现为什么不一样？ #14733

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

OCRv4的技术报告说的PFhead在官方代码里的实现为什么不一样？ #14733

Uh oh!

huangqiu15444 Feb 20, 2025

Replies: 1 comment

Uh oh!

GreatV Feb 20, 2025 Maintainer

可能的原因：

总结：

huangqiu15444
Feb 20, 2025

GreatV
Feb 20, 2025
Maintainer