add backtest_splits (#36)

jmoralez · web-flow · commit 1e11c378ad9c · 2023-11-08T17:40:43.000-06:00
diff --git a/nbs/processing.ipynb b/nbs/processing.ipynb
@@ -31,7 +31,9 @@
    "source": [
     "#| export\n",
     "import re\n",
-    "from typing import Any, Dict, List, Optional, Tuple, Union\n",
+    "import reprlib\n",
+    "import warnings\n",
+    "from typing import Any, Dict, Generator, List, Optional, Tuple, Union\n",
     "\n",
     "import numpy as np\n",
     "import pandas as pd\n",
@@ -48,7 +50,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from fastcore.test import test_eq\n",
+    "from fastcore.test import test_eq, test_fail\n",
     "from nbdev import show_doc\n",
     "\n",
     "from utilsforecast.compat import POLARS_INSTALLED\n",
@@ -1074,6 +1076,238 @@
     "    test_eq(data, series_pl.select(pl.col(c).map_batches(lambda s: s.to_physical()) for c in ['y'] + static_features[:n_static_features]).to_numpy())\n",
     "    test_eq(np.diff(indptr), grouped.count().sort('unique_id')['count'].to_numpy())"
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "37bc6aa4-ce39-4559-9964-01c06b7d7dbd",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#| exporti\n",
+    "def _single_split(\n",
+    "    df: DataFrame,\n",
+    "    i_window: int,    \n",
+    "    n_windows: int,\n",
+    "    h: int,\n",
+    "    id_col: str,\n",
+    "    time_col: str,\n",
+    "    freq: Union[int, str, pd.offsets.BaseOffset],\n",
+    "    max_dates: Series,  \n",
+    "    step_size: Optional[int] = None,\n",
+    "    input_size: Optional[int] = None,\n",
+    ") -> Tuple[DataFrame, Series, Series]:\n",
+    "    if step_size is None:\n",
+    "        step_size = h\n",
+    "    test_size = h + step_size * (n_windows - 1)\n",
+    "    offset = test_size - i_window * step_size\n",
+    "    train_ends = offset_dates(max_dates, freq, -offset)\n",
+    "    valid_ends = offset_dates(train_ends, freq, h)\n",
+    "    train_mask = df[time_col].le(train_ends)\n",
+    "    valid_mask = df[time_col].gt(train_ends) & df[time_col].le(valid_ends)    \n",
+    "    if input_size is not None:\n",
+    "        train_starts = offset_dates(train_ends, freq, -input_size)\n",
+    "        train_mask &= df[time_col].gt(train_starts)\n",
+    "    train_sizes = group_by(train_mask, df[id_col], maintain_order=True).sum()\n",
+    "    if isinstance(train_sizes, pd.Series):\n",
+    "        train_sizes = train_sizes.reset_index()\n",
+    "    zeros_mask = train_sizes[time_col].eq(0)   \n",
+    "    if zeros_mask.all():\n",
+    "        raise ValueError(\n",
+    "            'All series are too short for the cross validation settings, '\n",
+    "            f'at least {offset + 1} samples are required.\\n'\n",
+    "            'Please reduce `n_windows` or `h`.'\n",
+    "        )\n",
+    "    elif zeros_mask.any():\n",
+    "        ids = filter_with_mask(train_sizes[id_col], zeros_mask)\n",
+    "        warnings.warn(\n",
+    "            'The following series are too short for the window '\n",
+    "            f'and will be dropped: {reprlib.repr(list(ids))}'\n",
+    "        )\n",
+    "        dropped_ids = is_in(df[id_col], ids)\n",
+    "        valid_mask &= ~dropped_ids\n",
+    "    if isinstance(train_ends, pd.Series):\n",
+    "        cutoffs: DataFrame = (\n",
+    "            train_ends\n",
+    "            .set_axis(df[id_col])\n",
+    "            .groupby(id_col, observed=True)\n",
+    "            .head(1)\n",
+    "            .rename(\"cutoff\")\n",
+    "            .reset_index()\n",
+    "        )\n",
+    "    else:\n",
+    "        cutoffs = train_ends.to_frame().with_columns(df[id_col])\n",
+    "        cutoffs = (\n",
+    "            group_by(cutoffs, id_col)\n",
+    "            .agg(pl.col(time_col).head(1))\n",
+    "            .explode(pl.col(time_col))\n",
+    "            .rename({time_col: 'cutoff'})\n",
+    "        )\n",
+    "    return cutoffs, train_mask, valid_mask"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "c5c3370a-9a55-4436-9326-b459d03525dc",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#|export\n",
+    "def backtest_splits(\n",
+    "    df: DataFrame,\n",
+    "    n_windows: int,\n",
+    "    h: int,\n",
+    "    id_col: str,\n",
+    "    time_col: str,\n",
+    "    freq: Union[int, str, pd.offsets.BaseOffset],\n",
+    "    step_size: Optional[int] = None,\n",
+    "    input_size: Optional[int] = None,\n",
+    ") -> Generator[Tuple[DataFrame, DataFrame, DataFrame], None, None]:\n",
+    "    if isinstance(df, pd.DataFrame):\n",
+    "        max_dates = df.groupby(id_col, observed=True)[time_col].transform('max')\n",
+    "    else:\n",
+    "        max_dates = df.select(pl.col(time_col).max().over(id_col))[time_col]\n",
+    "    for i in range(n_windows):\n",
+    "        cutoffs, train_mask, valid_mask = _single_split(\n",
+    "            df,\n",
+    "            i_window=i,\n",
+    "            n_windows=n_windows,\n",
+    "            h=h,\n",
+    "            id_col=id_col,\n",
+    "            time_col=time_col,\n",
+    "            freq=freq,\n",
+    "            max_dates=max_dates,\n",
+    "            step_size=step_size,\n",
+    "            input_size=input_size,\n",
+    "        )\n",
+    "        train = filter_with_mask(df, train_mask)\n",
+    "        valid = filter_with_mask(df, valid_mask)\n",
+    "        yield cutoffs, train, valid"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "ae3ef1ca-418c-4506-990f-0502481c6fef",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#| hide\n",
+    "short_series = generate_series(100, max_length=50)\n",
+    "backtest_results = list(\n",
+    "    backtest_splits(\n",
+    "        short_series,\n",
+    "        n_windows=1,\n",
+    "        h=49,\n",
+    "        id_col='unique_id',\n",
+    "        time_col='ds',\n",
+    "        freq=pd.offsets.Day(),\n",
+    "    )\n",
+    ")[0]\n",
+    "test_fail(\n",
+    "    lambda: list(\n",
+    "        backtest_splits(\n",
+    "            short_series,\n",
+    "            n_windows=1,\n",
+    "            h=50,\n",
+    "            id_col='unique_id',\n",
+    "            time_col='ds',\n",
+    "            freq=pd.offsets.Day(),\n",
+    "        )\n",
+    "    ),\n",
+    "    contains='at least 51 samples are required'\n",
+    ")\n",
+    "some_short_series = generate_series(100, min_length=20, max_length=100)\n",
+    "with warnings.catch_warnings(record=True) as issued_warnings:\n",
+    "    warnings.simplefilter('always', UserWarning)\n",
+    "    splits = list(\n",
+    "        backtest_splits(\n",
+    "            some_short_series,\n",
+    "            n_windows=1,\n",
+    "            h=50,\n",
+    "            id_col='unique_id',\n",
+    "            time_col='ds',\n",
+    "            freq=pd.offsets.Day(),\n",
+    "        )\n",
+    "    )\n",
+    "    assert any('will be dropped' in str(w.message) for w in issued_warnings)\n",
+    "short_series_int = short_series.copy()\n",
+    "short_series_int['ds'] = short_series.groupby('unique_id', observed=True).transform('cumcount')\n",
+    "backtest_int_results = list(\n",
+    "    backtest_splits(\n",
+    "        short_series_int,\n",
+    "        n_windows=1,\n",
+    "        h=40,\n",
+    "        id_col='unique_id',\n",
+    "        time_col='ds',\n",
+    "        freq=1\n",
+    "    )\n",
+    ")[0]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cbecf3fc-0354-4d3c-82ac-39929e50a01d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#| hide\n",
+    "def test_backtest_splits(df, n_windows, h, step_size, input_size):\n",
+    "    max_dates = df.groupby('unique_id', observed=True)['ds'].max()\n",
+    "    day_offset = pd.offsets.Day()    \n",
+    "    common_kwargs = dict(\n",
+    "        n_windows=n_windows,\n",
+    "        h=h,\n",
+    "        id_col='unique_id',\n",
+    "        time_col='ds',\n",
+    "        freq=pd.offsets.Day(), \n",
+    "        step_size=step_size,\n",
+    "        input_size=input_size,        \n",
+    "    )\n",
+    "    permuted_df = df.sample(frac=1.0)\n",
+    "    splits = backtest_splits(df, **common_kwargs)\n",
+    "    splits_on_permuted = list(backtest_splits(permuted_df, **common_kwargs))\n",
+    "    if step_size is None:\n",
+    "        step_size = h\n",
+    "    test_size = h + step_size * (n_windows - 1)\n",
+    "    for window, (cutoffs, train, valid) in enumerate(splits):\n",
+    "        offset = test_size - window * step_size\n",
+    "        expected_max_train_dates = max_dates - day_offset * offset\n",
+    "        max_train_dates = train.groupby('unique_id', observed=True)['ds'].max()\n",
+    "        pd.testing.assert_series_equal(max_train_dates, expected_max_train_dates)\n",
+    "        pd.testing.assert_frame_equal(cutoffs, max_train_dates.rename('cutoff').reset_index())\n",
+    "        \n",
+    "        if input_size is not None:\n",
+    "            expected_min_train_dates = expected_max_train_dates - day_offset * (input_size - 1)\n",
+    "            min_train_dates = train.groupby('unique_id', observed=True)['ds'].min()\n",
+    "            pd.testing.assert_series_equal(min_train_dates, expected_min_train_dates)\n",
+    "\n",
+    "        expected_min_valid_dates = expected_max_train_dates + day_offset\n",
+    "        min_valid_dates = valid.groupby('unique_id', observed=True)['ds'].min()\n",
+    "        pd.testing.assert_series_equal(min_valid_dates, expected_min_valid_dates)\n",
+    "\n",
+    "        expected_max_valid_dates = expected_max_train_dates + day_offset * h\n",
+    "        max_valid_dates = valid.groupby('unique_id', observed=True)['ds'].max()\n",
+    "        pd.testing.assert_series_equal(max_valid_dates, expected_max_valid_dates)\n",
+    "\n",
+    "        if window == n_windows - 1:\n",
+    "            pd.testing.assert_series_equal(max_valid_dates, max_dates)\n",
+    "\n",
+    "        _, permuted_train, permuted_valid = splits_on_permuted[window]            \n",
+    "        pd.testing.assert_frame_equal(train, permuted_train.sort_values(['unique_id', 'ds']))\n",
+    "    pd.testing.assert_frame_equal(valid, permuted_valid.sort_values(['unique_id', 'ds']))\n",
+    "\n",
+    "n_series = 20\n",
+    "min_length = 100\n",
+    "max_length = 1000\n",
+    "series = generate_series(n_series, freq='D', min_length=min_length, max_length=max_length)\n",
+    "\n",
+    "for step_size in (None, 1, 2):\n",
+    "    for input_size in (None, 4):\n",
+    "        test_backtest_splits(series, n_windows=3, h=14, step_size=step_size, input_size=input_size)"
+   ]
   }
  ],
  "metadata": {
diff --git a/utilsforecast/_modidx.py b/utilsforecast/_modidx.py
@@ -66,8 +66,12 @@
                                                                                                    'utilsforecast/processing.py'),
                                           'utilsforecast.processing._polars_categorical_to_numerical': ( 'processing.html#_polars_categorical_to_numerical',
                                                                                                          'utilsforecast/processing.py'),
+                                          'utilsforecast.processing._single_split': ( 'processing.html#_single_split',
+                                                                                      'utilsforecast/processing.py'),
                                           'utilsforecast.processing.assign_columns': ( 'processing.html#assign_columns',
                                                                                        'utilsforecast/processing.py'),
+                                          'utilsforecast.processing.backtest_splits': ( 'processing.html#backtest_splits',
+                                                                                        'utilsforecast/processing.py'),
                                           'utilsforecast.processing.between': ('processing.html#between', 'utilsforecast/processing.py'),
                                           'utilsforecast.processing.cast': ('processing.html#cast', 'utilsforecast/processing.py'),
                                           'utilsforecast.processing.copy_if_pandas': ( 'processing.html#copy_if_pandas',
diff --git a/utilsforecast/processing.py b/utilsforecast/processing.py
@@ -5,11 +5,13 @@
            'is_none', 'is_nan_or_none', 'match_if_categorical', 'vertical_concat', 'horizontal_concat',
            'copy_if_pandas', 'join', 'drop_index_if_pandas', 'rename', 'sort', 'offset_dates', 'group_by',
            'group_by_agg', 'is_in', 'between', 'fill_null', 'cast', 'value_cols_to_numpy', 'process_df',
-           'DataFrameProcessor']
+           'DataFrameProcessor', 'backtest_splits']
 
 # %% ../nbs/processing.ipynb 2
 import re
-from typing import Any, Dict, List, Optional, Tuple, Union
+import reprlib
+import warnings
+from typing import Any, Dict, Generator, List, Optional, Tuple, Union
 
 import numpy as np
 import pandas as pd
@@ -441,3 +443,95 @@ def process(
         self, df: DataFrame
     ) -> Tuple[Series, np.ndarray, np.ndarray, np.ndarray, Optional[np.ndarray]]:
         return process_df(df, self.id_col, self.time_col, self.target_col)
+
+# %% ../nbs/processing.ipynb 57
+def _single_split(
+    df: DataFrame,
+    i_window: int,
+    n_windows: int,
+    h: int,
+    id_col: str,
+    time_col: str,
+    freq: Union[int, str, pd.offsets.BaseOffset],
+    max_dates: Series,
+    step_size: Optional[int] = None,
+    input_size: Optional[int] = None,
+) -> Tuple[DataFrame, Series, Series]:
+    if step_size is None:
+        step_size = h
+    test_size = h + step_size * (n_windows - 1)
+    offset = test_size - i_window * step_size
+    train_ends = offset_dates(max_dates, freq, -offset)
+    valid_ends = offset_dates(train_ends, freq, h)
+    train_mask = df[time_col].le(train_ends)
+    valid_mask = df[time_col].gt(train_ends) & df[time_col].le(valid_ends)
+    if input_size is not None:
+        train_starts = offset_dates(train_ends, freq, -input_size)
+        train_mask &= df[time_col].gt(train_starts)
+    train_sizes = group_by(train_mask, df[id_col], maintain_order=True).sum()
+    if isinstance(train_sizes, pd.Series):
+        train_sizes = train_sizes.reset_index()
+    zeros_mask = train_sizes[time_col].eq(0)
+    if zeros_mask.all():
+        raise ValueError(
+            "All series are too short for the cross validation settings, "
+            f"at least {offset + 1} samples are required.\n"
+            "Please reduce `n_windows` or `h`."
+        )
+    elif zeros_mask.any():
+        ids = filter_with_mask(train_sizes[id_col], zeros_mask)
+        warnings.warn(
+            "The following series are too short for the window "
+            f"and will be dropped: {reprlib.repr(list(ids))}"
+        )
+        dropped_ids = is_in(df[id_col], ids)
+        valid_mask &= ~dropped_ids
+    if isinstance(train_ends, pd.Series):
+        cutoffs: DataFrame = (
+            train_ends.set_axis(df[id_col])
+            .groupby(id_col, observed=True)
+            .head(1)
+            .rename("cutoff")
+            .reset_index()
+        )
+    else:
+        cutoffs = train_ends.to_frame().with_columns(df[id_col])
+        cutoffs = (
+            group_by(cutoffs, id_col)
+            .agg(pl.col(time_col).head(1))
+            .explode(pl.col(time_col))
+            .rename({time_col: "cutoff"})
+        )
+    return cutoffs, train_mask, valid_mask
+
+# %% ../nbs/processing.ipynb 58
+def backtest_splits(
+    df: DataFrame,
+    n_windows: int,
+    h: int,
+    id_col: str,
+    time_col: str,
+    freq: Union[int, str, pd.offsets.BaseOffset],
+    step_size: Optional[int] = None,
+    input_size: Optional[int] = None,
+) -> Generator[Tuple[DataFrame, DataFrame, DataFrame], None, None]:
+    if isinstance(df, pd.DataFrame):
+        max_dates = df.groupby(id_col, observed=True)[time_col].transform("max")
+    else:
+        max_dates = df.select(pl.col(time_col).max().over(id_col))[time_col]
+    for i in range(n_windows):
+        cutoffs, train_mask, valid_mask = _single_split(
+            df,
+            i_window=i,
+            n_windows=n_windows,
+            h=h,
+            id_col=id_col,
+            time_col=time_col,
+            freq=freq,
+            max_dates=max_dates,
+            step_size=step_size,
+            input_size=input_size,
+        )
+        train = filter_with_mask(df, train_mask)
+        valid = filter_with_mask(df, valid_mask)
+        yield cutoffs, train, valid