Wgms preprocess (#172)

JoachimPiret · albangossard · albangossard · commit 7528fb93dcc0 · 2026-03-24T17:24:16.000+01:00
* improve code efficiency of two functions of class AggregatedDataset() : init() and mapSplitsToDataset() * allows to record dataframe in parquet format in addition to csv format * add possibility to divide between test and train absed on subregion (c-region) as well as the possibility to have randomness and different sampling from sampling to sampling in set_train_test_split(). assign_train_test_indices(self,train_indices, test_indices, test_size) is defined to update dataloader with the values of the selected test/train divisions after 10 sampling based on subregion. * adapation of dataset.py to choose output format of _get_output_filename() between csv and parquet * Alban's feedback on PR : mapSplitsToDataset() and init() more efficient for large dataset, output format to csv and parquet * Alban's feedback on PR : split on subregion added, modification of _create_group_kfold_splits() to cross-validate on subregion * Add function to plot test and train dataset (SMB versus elevation * Adapation of dataloader to asnwer review of #158 and new plot functions * to asnwer review of #158 * correct __init__ for mbm plot * preprocess WGMS data to be used by MBM #169 --------- Co-authored-by: Alban Gossard <alban.paul.gossard@gmail.com>
diff --git a/massbalancemachine/data_processing/__init__.py b/massbalancemachine/data_processing/__init__.py
@@ -6,4 +6,8 @@
     MBSequenceDataset,
 )
 import data_processing.utils
-from data_processing.wgms import load_wgms_data
+from data_processing.wgms import (
+    check_and_download_wgms,
+    load_wgms_data,
+    parse_wgms_format,
+)
diff --git a/massbalancemachine/data_processing/wgms.py b/massbalancemachine/data_processing/wgms.py
@@ -3,7 +3,7 @@
 import zipfile
 import pandas as pd
 
-wgms_zip_file = "DOI-WGMS-FoG-2025-02b.zip"
+wgms_zip_file = "DOI-WGMS-FoG-2026-02-10.zip"
 data_path = ".data"
 
 wgms_source_data_link = f"https://wgms.ch/downloads/{wgms_zip_file}"
@@ -24,7 +24,71 @@ def check_and_download_wgms():
 
 
 def load_wgms_data():
+    """
+    Load WGMS data and enrich mass balance data with rgi_region.
+
+    Returns:
+        pd.DataFrame: mass balance data with added 'rgi_region' column
+    """
     check_and_download_wgms()
+
     point_mb_file = f"{wgms_folder}/data/mass_balance_point.csv"
-    data = pd.read_csv(point_mb_file)
-    return data
+    glacier_file = f"{wgms_folder}/data/glacier.csv"
+
+    data_mb = pd.read_csv(point_mb_file)
+    data_glacier = pd.read_csv(glacier_file)
+
+    # Build mapping: id -> rgi_region (extract number before "_")
+    mapping = data_glacier.assign(
+        rgi_region=data_glacier["gtng_region"].str.split("_").str[0].astype(int)
+    ).set_index("id")["rgi_region"]
+
+    # Apply mapping to data_mb
+    data_mb["rgi_region"] = data_mb["glacier_id"].map(mapping)
+
+    return data_mb
+
+
+def parse_wgms_format(data_mb):
+    """
+    Converts the WGMS point balance DataFrame to a dataframe ready to be used by MBM Data preparation notebook.
+
+    Args:
+        df_pb (pd.DataFrame): dataframe loaded by load_wgms_data "mass_balance_point.csv" from WGMS.
+    Returns:
+        pd.DataFrame
+    """
+
+    new_df = data_mb.drop(
+        columns=[
+            "country",
+            "glacier_name",
+            "original_id",
+            "glacier_id",
+            "time_system",
+            "begin_date_unc",
+            "end_date_unc",
+            "balance_unc",
+            "density",
+            "density_unc",
+            "method",
+            "balance_code",
+            "remarks",
+        ]
+    )
+    new_df = new_df.rename(
+        columns={
+            "id": "ID",
+            "year": "YEAR",
+            "balance": "POINT_BALANCE",
+            "latitude": "POINT_LAT",
+            "longitude": "POINT_LON",
+            "elevation": "POINT_ELEVATION",
+            "begin_date": "FROM_DATE",
+            "end_date": "TO_DATE",
+        },
+    )
+    new_df["FROM_DATE"] = pd.to_datetime(new_df["FROM_DATE"]).dt.strftime("%Y%m%d")
+    new_df["TO_DATE"] = pd.to_datetime(new_df["FROM_DATE"]).dt.strftime("%Y%m%d")
+
+    return new_df