Skip to content

希望大佬可以针对LEVIRCD测试集构建一个统一benchmark。 #148

@pandarusly

Description

@pandarusly

我发现引用LEVIRCD这个数据集的大部分文章在制作数据时都会强制把训练/验证/测试集,按照无重叠度做成 256x256块。这样测试集上的128张1024图像会变成 2048个256x256小图像,然后在这个大小的测试集上进行模型测试。

通过我个人实验发现,相比直接使用1024大小的128张测试,上述的F1是会在不同算法下相对低0.4-1%不等的,并且f1很难达到0.92以上。个人认为这个差异在这个小数据集上已经能超过很多算法改进带来的提升。希望作者有时间能帮忙,看看f1能达到0.92-0.93以上的那些论文究竟是算法改进了,还是都采用了1024大小的测试推理这个“trick”。

下面我贴出,大佬的changer-segb0这个模型在model.test_cfg在 whole 与 slide(256,等价上述论文数据处理方式)下的测试结果。

whole 1024【与此仓库一致】 slide 256 slide 256 (1/4重叠度)
指标 Image Image Image

模型文件调整如下:

model.update(
    data_preprocessor=dict(
        test_cfg=dict(size_divisor=256),
    ),
    test_cfg=dict(
        mode="slide",  # 'slide' or 'whole'
        crop_size=(256, 256),
        stride=(256, 256), # 256*3//4
    )
)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions