fix col name error when fetch data

SunsetWolf · SunsetWolf · commit 27578ba9baff · 2025-04-02T17:54:54.000+08:00
diff --git a/qlib/contrib/model/gbdt.py b/qlib/contrib/model/gbdt.py
@@ -34,10 +34,10 @@ def _prepare_data(self, dataset: DatasetH, reweighter=None) -> List[Tuple[lgb.Da
         assert "train" in dataset.segments
         for key in ["train", "valid"]:
             if key in dataset.segments:
-                df = dataset.prepare(key, col_set=["feature_x", "label"], data_key=DataHandlerLP.DK_L)
+                df = dataset.prepare(key, col_set=["feature", "label"], data_key=DataHandlerLP.DK_L)
                 if df.empty:
                     raise ValueError("Empty data from dataset, please check your dataset config.")
-                x, y = df["feature_x"], df["label"]
+                x, y = df["feature"], df["label"]
 
                 # Lightgbm need 1D array as its label
                 if y.values.ndim == 2 and y.values.shape[1] == 1:
@@ -92,7 +92,7 @@ def fit(
     def predict(self, dataset: DatasetH, segment: Union[Text, slice] = "test"):
         if self.model is None:
             raise ValueError("model is not fitted yet!")
-        x_test = dataset.prepare(segment, col_set="feature_x", data_key=DataHandlerLP.DK_I)
+        x_test = dataset.prepare(segment, col_set="feature", data_key=DataHandlerLP.DK_I)
         return pd.Series(self.model.predict(x_test.values), index=x_test.index)
 
     def finetune(self, dataset: DatasetH, num_boost_round=10, verbose_eval=20, reweighter=None):
diff --git a/qlib/data/dataset/loader.py b/qlib/data/dataset/loader.py
@@ -339,6 +339,10 @@ def load(self, instruments=None, start_time=None, end_time=None) -> pd.DataFrame
             if df_full is None:
                 df_full = df_current
             else:
+                current_columns = df_current.columns.tolist()
+                full_columns = df_full.columns.tolist()
+                columns_to_drop = [col for col in current_columns if col in full_columns]
+                df_full.drop(columns=columns_to_drop, inplace=True)
                 df_full = pd.merge(df_full, df_current, left_index=True, right_index=True, how=self.join)
         return df_full.sort_index(axis=1)