希望大佬可以针对LEVIRCD测试集构建一个统一benchmark。

我发现引用LEVIRCD这个数据集的大部分文章在制作数据时都会强制把训练/验证/测试集，按照无重叠度做成 256x256块。这样测试集上的128张1024图像会变成 2048个256x256小图像，然后在这个大小的测试集上进行模型测试。

通过我个人实验发现，相比直接使用1024大小的128张测试，上述的F1是会在不同算法下相对低0.4-1%不等的，并且f1很难达到0.92以上。个人认为这个差异在这个小数据集上已经能超过很多算法改进带来的提升。希望作者有时间能帮忙，看看f1能达到0.92-0.93以上的那些论文究竟是算法改进了，还是都采用了1024大小的测试推理这个“trick”。

下面我贴出，大佬的changer-segb0这个模型在model.test_cfg在 whole 与 slide（256,等价上述论文数据处理方式）下的测试结果。

|     | whole 1024【与此仓库一致】 | slide 256 | slide 256 (1/4重叠度) |
| --- | ---------- | --------- | --------- |
| 指标  |      <img width="1655" height="571" alt="Image" src="https://github.com/user-attachments/assets/e2363ddb-bff6-4e99-9fce-803b0f525268" /> | <img width="1667" height="542" alt="Image" src="https://github.com/user-attachments/assets/32f1b146-90a0-4737-aba2-8d99774ed6b1" />   |  <img width="1667" height="565" alt="Image" src="https://github.com/user-attachments/assets/344747db-00f5-47fa-94e8-f84717312033" /> |

---
模型文件调整如下：
```python
model.update(
    data_preprocessor=dict(
        test_cfg=dict(size_divisor=256),
    ),
    test_cfg=dict(
        mode="slide",  # 'slide' or 'whole'
        crop_size=(256, 256),
        stride=(256, 256), # 256*3//4
    )
)
```


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

希望大佬可以针对LEVIRCD测试集构建一个统一benchmark。 #148

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

希望大佬可以针对LEVIRCD测试集构建一个统一benchmark。 #148

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions