是否存在 Data leakage的問題？

您好，

我最近正在閱讀並嘗試執行您所提供的程式碼，並針對 train_few.py 和 test_few.py 的流程進行了一些分析與測試。

在分析的過程中，我注意到這兩個檔案中所使用的 test_dataset 都是透過 MedDataset 載入的，且其路徑似乎都是指向 ./data/{class_name}_AD/test。從目前的實作來看，似乎沒有明確區分哪些資料是用來選擇最佳模型（best model），哪些資料則是保留給最終測試（final testing）使用。

因此我有個疑問：
在 train_few.py 中若使用 test_dataset 作為每個 epoch 的驗證集來挑選 best model，而 test_few.py 又再次使用相同的資料來進行最終模型評估的話，這是否可能導致 data leakage 的問題？也就是說，模型在挑選過程中已經「見過」這些測試資料，導致最終測試結果可能高估模型的泛化能力。

目前我執行的流程是：

執行 train_few.py 進行訓練並儲存最佳模型

接著執行 test_few.py 進行最終測試

非常感謝您提供這麼精彩的研究與完整的程式碼，也謝謝您撥空閱讀這封信！

祝好，
SAG

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

是否存在 Data leakage的問題？ #17

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

是否存在 Data leakage的問題？ #17

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions