Skip to content

是否存在 Data leakage的問題? #17

@TonyLinX

Description

@TonyLinX

您好,

我最近正在閱讀並嘗試執行您所提供的程式碼,並針對 train_few.py 和 test_few.py 的流程進行了一些分析與測試。

在分析的過程中,我注意到這兩個檔案中所使用的 test_dataset 都是透過 MedDataset 載入的,且其路徑似乎都是指向 ./data/{class_name}_AD/test。從目前的實作來看,似乎沒有明確區分哪些資料是用來選擇最佳模型(best model),哪些資料則是保留給最終測試(final testing)使用。

因此我有個疑問:
在 train_few.py 中若使用 test_dataset 作為每個 epoch 的驗證集來挑選 best model,而 test_few.py 又再次使用相同的資料來進行最終模型評估的話,這是否可能導致 data leakage 的問題?也就是說,模型在挑選過程中已經「見過」這些測試資料,導致最終測試結果可能高估模型的泛化能力。

目前我執行的流程是:

執行 train_few.py 進行訓練並儲存最佳模型

接著執行 test_few.py 進行最終測試

非常感謝您提供這麼精彩的研究與完整的程式碼,也謝謝您撥空閱讀這封信!

祝好,
SAG

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions