LeonEthan
diff --git a/‎nbs/models.itransformer.ipynb‎
Lines changed: 95 additions & 14 deletions b/‎nbs/models.itransformer.ipynb‎
Lines changed: 95 additions & 14 deletions
diff --git a/‎nbs/models.softs.ipynb‎
Lines changed: 98 additions & 10 deletions b/‎nbs/models.softs.ipynb‎
Lines changed: 98 additions & 10 deletions
diff --git a/‎nbs/models.timexer.ipynb‎
Lines changed: 34 additions & 16 deletions b/‎nbs/models.timexer.ipynb‎
Lines changed: 34 additions & 16 deletions
@@ -89,6 +89,66 @@
     "# 1. Model"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#| exporti\n",
+    "class FeatureEmbedding(nn.Module):\n",
+    "    \"\"\"\n",
+    "    特征融合模块，通过分通道嵌入实现参数控制：\n",
+    "    1. 将原始hidden_size均分给各特征通道\n",
+    "    2. 各特征独立进行嵌入编码\n",
+    "    3. 沿特征维度拼接最终结果\n",
+    "    \"\"\"\n",
+    "    def __init__(self, input_size, h, hidden_size, hist_exog_size, futr_exog_size, stat_exog_size, dropout):\n",
+    "        super().__init__()\n",
+    "        self.futr_input_size = input_size + h\n",
+    "        self.futr_exog_size = futr_exog_size\n",
+    "        self.hist_exog_size = hist_exog_size\n",
+    "        self.stat_exog_size = stat_exog_size\n",
+    "        self.base_embed = DataEmbedding_inverted(input_size, hidden_size, dropout)\n",
+    "        \n",
+    "        # 历史特征编码器\n",
+    "        self.hist_embed = nn.ModuleList([\n",
+    "            DataEmbedding_inverted(input_size, hidden_size, dropout)\n",
+    "            for _ in range(hist_exog_size)\n",
+    "        ])\n",
+    "        \n",
+    "        # 未来特征编码器（使用历史部分）\n",
+    "        self.futr_embed = nn.ModuleList([\n",
+    "            DataEmbedding_inverted(self.futr_input_size, hidden_size, dropout)\n",
+    "            for _ in range(futr_exog_size)\n",
+    "        ])\n",
+    "        # 静态特征编码（通过线性映射）\n",
+    "        self.stat_embed = nn.Linear(stat_exog_size, hidden_size) if stat_exog_size > 0 else None\n",
+    "\n",
+    "    def forward(self, y, hist, futr, stat):\n",
+    "        # 基础序列嵌入 [B, N, E]\n",
+    "        embeddings = [self.base_embed(y, None)]\n",
+    "        \n",
+    "        # 历史特征嵌入 [B, N, E] * H\n",
+    "        if self.hist_exog_size > 0:\n",
+    "            for i, embed in enumerate(self.hist_embed):\n",
+    "                embeddings.append(embed(hist[:, i, :, :], None))\n",
+    "            \n",
+    "        # 未来特征嵌入 [B, N, E] * F\n",
+    "        if self.futr_exog_size > 0:\n",
+    "            for i, embed in enumerate(self.futr_embed):\n",
+    "                embeddings.append(embed(futr[:, i, :, :], None))\n",
+    "            \n",
+    "        # 静态特征嵌入 [B, N, E]\n",
+    "        if self.stat_embed is not None:\n",
+    "            stat_feat = self.stat_embed(stat)  # [N, S] -> [N, E]\n",
+    "            stat_feat = stat_feat.unsqueeze(0).expand(y.size(0), -1, -1)  # [N, E] -> [B, N, E]\n",
+    "            embeddings.append(stat_feat)\n",
+    "        \n",
+    "        # 沿特征维度拼接 [B, N, E*(1+H+F+S)]\n",
+    "        return torch.cat(embeddings, dim=-1)"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -147,9 +207,9 @@
     "    \"\"\"\n",
     "\n",
     "    # Class attributes\n",
-    "    EXOGENOUS_FUTR = False\n",
-    "    EXOGENOUS_HIST = False\n",
-    "    EXOGENOUS_STAT = False\n",
+    "    EXOGENOUS_FUTR = True\n",
+    "    EXOGENOUS_HIST = True\n",
+    "    EXOGENOUS_STAT = True\n",
     "    MULTIVARIATE = True\n",
     "    RECURRENT = False\n",
     "\n",
@@ -238,7 +298,22 @@
     "        self.use_norm = use_norm\n",
     "\n",
     "        # Architecture\n",
-    "        self.enc_embedding = DataEmbedding_inverted(input_size, self.hidden_size, self.dropout)\n",
+    "        # Mix all features into one\n",
+    "        self.num_features = 1 + \\\n",
+    "                          (len(hist_exog_list) if hist_exog_list else 0) + \\\n",
+    "                          (len(futr_exog_list) if futr_exog_list else 0) + \\\n",
+    "                          (len(stat_exog_list) if stat_exog_list else 0)\n",
+    "        adjusted_hidden = hidden_size // self.num_features\n",
+    "        self.hidden_size = adjusted_hidden * self.num_features\n",
+    "        self.feature_embedding = FeatureEmbedding(\n",
+    "            input_size=input_size,\n",
+    "            h=h,\n",
+    "            hidden_size=adjusted_hidden,\n",
+    "            hist_exog_size=len(hist_exog_list) if hist_exog_list else 0,\n",
+    "            futr_exog_size=len(futr_exog_list) if futr_exog_list else 0,\n",
+    "            stat_exog_size=len(stat_exog_list) if stat_exog_list else 0,\n",
+    "            dropout=dropout\n",
+    "        )\n",
     "\n",
     "        self.encoder = TransEncoder(\n",
     "            [\n",
@@ -256,7 +331,7 @@
     "\n",
     "        self.projector = nn.Linear(self.hidden_size, h * self.loss.outputsize_multiplier, bias=True)\n",
     "\n",
-    "    def forecast(self, x_enc):\n",
+    "    def forecast(self, x_enc, hist_exog, futr_exog, stat_exog):\n",
     "        if self.use_norm:\n",
     "            # Normalization from Non-stationary Transformer\n",
     "            means = x_enc.mean(1, keepdim=True).detach()\n",
@@ -271,14 +346,17 @@
     "\n",
     "        # Embedding\n",
     "        # B L N -> B N E                (B L N -> B L E in the vanilla Transformer)\n",
-    "        enc_out = self.enc_embedding(x_enc, None) # covariates (e.g timestamp) can be also embedded as tokens\n",
+    "        # 特征融合\n",
+    "        enc_embed = self.feature_embedding(\n",
+    "            x_enc, \n",
+    "            hist_exog,\n",
+    "            futr_exog,\n",
+    "            stat_exog\n",
+    "        )\n",
     "        \n",
-    "        # B N E -> B N E                (B L E -> B L E in the vanilla Transformer)\n",
-    "        # the dimensions of embedded time series has been inverted, and then processed by native attn, layernorm and ffn modules\n",
-    "        enc_out, attns = self.encoder(enc_out, attn_mask=None)\n",
-    "\n",
-    "        # B N E -> B N S -> B S N \n",
-    "        dec_out = self.projector(enc_out).permute(0, 2, 1)[:, :, :N] # filter the covariates\n",
+    "        # 后续处理保持原有流程不变\n",
+    "        enc_out, attns = self.encoder(enc_embed, attn_mask=None)\n",
+    "        dec_out = self.projector(enc_out).permute(0, 2, 1)[:, :, :self.n_series]\n",
     "\n",
     "        if self.use_norm:\n",
     "            # De-Normalization from Non-stationary Transformer\n",
@@ -288,9 +366,12 @@
     "        return dec_out\n",
     "    \n",
     "    def forward(self, windows_batch):\n",
-    "        insample_y = windows_batch['insample_y']\n",
+    "        insample_y = windows_batch['insample_y']                  #   [batch_size (B), input_size (L), n_series (N)]\n",
+    "        hist_exog   = windows_batch['hist_exog']                  #   [B, hist_exog_size (X), L, N]\n",
+    "        futr_exog   = windows_batch['futr_exog']                  #   [B, futr_exog_size (F), L + h, N]\n",
+    "        stat_exog   = windows_batch['stat_exog']                  #   [N, stat_exog_size (S)]\n",
     "\n",
-    "        y_pred = self.forecast(insample_y)\n",
+    "        y_pred = self.forecast(insample_y, hist_exog, futr_exog, stat_exog)\n",
     "        y_pred = y_pred.reshape(insample_y.shape[0],\n",
     "                                self.h,\n",
     "                                -1)\n",
 
@@ -158,6 +158,73 @@
     "        return output, None"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 1.3 FeatureEmbedding (mix of [y, futr, hist, stat])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#| exporti\n",
+    "class FeatureEmbedding(nn.Module):\n",
+    "    \"\"\"\n",
+    "    特征融合模块，通过分通道嵌入实现参数控制：\n",
+    "    1. 将原始hidden_size均分给各特征通道\n",
+    "    2. 各特征独立进行嵌入编码\n",
+    "    3. 沿特征维度拼接最终结果\n",
+    "    \"\"\"\n",
+    "    def __init__(self, input_size, h, hidden_size, hist_exog_size, futr_exog_size, stat_exog_size, dropout):\n",
+    "        super().__init__()\n",
+    "        self.futr_input_size = input_size + h\n",
+    "        self.futr_exog_size = futr_exog_size\n",
+    "        self.hist_exog_size = hist_exog_size\n",
+    "        self.stat_exog_size = stat_exog_size\n",
+    "        self.base_embed = DataEmbedding_inverted(input_size, hidden_size, dropout)\n",
+    "        \n",
+    "        # 历史特征编码器\n",
+    "        self.hist_embed = nn.ModuleList([\n",
+    "            DataEmbedding_inverted(input_size, hidden_size, dropout)\n",
+    "            for _ in range(hist_exog_size)\n",
+    "        ])\n",
+    "        \n",
+    "        # 未来特征编码器（使用历史部分）\n",
+    "        self.futr_embed = nn.ModuleList([\n",
+    "            DataEmbedding_inverted(self.futr_input_size, hidden_size, dropout)\n",
+    "            for _ in range(futr_exog_size)\n",
+    "        ])\n",
+    "        # 静态特征编码（通过线性映射）\n",
+    "        self.stat_embed = nn.Linear(stat_exog_size, hidden_size) if stat_exog_size > 0 else None\n",
+    "\n",
+    "    def forward(self, y, hist, futr, stat):\n",
+    "        # 基础序列嵌入 [B, N, E]\n",
+    "        embeddings = [self.base_embed(y, None)]\n",
+    "        \n",
+    "        # 历史特征嵌入 [B, N, E] * H\n",
+    "        if self.hist_exog_size > 0:\n",
+    "            for i, embed in enumerate(self.hist_embed):\n",
+    "                embeddings.append(embed(hist[:, i, :, :], None))\n",
+    "            \n",
+    "        # 未来特征嵌入 [B, N, E] * F\n",
+    "        if self.futr_exog_size > 0:\n",
+    "            for i, embed in enumerate(self.futr_embed):\n",
+    "                embeddings.append(embed(futr[:, i, :, :], None))\n",
+    "            \n",
+    "        # 静态特征嵌入 [B, N, E]\n",
+    "        if self.stat_embed is not None:\n",
+    "            stat_feat = self.stat_embed(stat)  # [N, S] -> [N, E]\n",
+    "            stat_feat = stat_feat.unsqueeze(0).expand(y.size(0), -1, -1)  # [N, E] -> [B, N, E]\n",
+    "            embeddings.append(stat_feat)\n",
+    "        \n",
+    "        # 沿特征维度拼接 [B, N, E*(1+H+F+S)]\n",
+    "        return torch.cat(embeddings, dim=-1)"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -220,9 +287,9 @@
     "    \"\"\"\n",
     "\n",
     "    # Class attributes\n",
-    "    EXOGENOUS_FUTR = False\n",
-    "    EXOGENOUS_HIST = False\n",
-    "    EXOGENOUS_STAT = False\n",
+    "    EXOGENOUS_FUTR = True\n",
+    "    EXOGENOUS_HIST = True\n",
+    "    EXOGENOUS_STAT = True\n",
     "    MULTIVARIATE = True\n",
     "    RECURRENT = False\n",
     "\n",
@@ -302,9 +369,22 @@
     "        self.use_norm = use_norm\n",
     "\n",
     "        # Architecture\n",
-    "        self.enc_embedding = DataEmbedding_inverted(input_size, \n",
-    "                                                    hidden_size, \n",
-    "                                                    dropout)\n",
+    "        # Mix all features into one\n",
+    "        self.num_features = 1 + \\\n",
+    "                          (len(hist_exog_list) if hist_exog_list else 0) + \\\n",
+    "                          (len(futr_exog_list) if futr_exog_list else 0) + \\\n",
+    "                          (len(stat_exog_list) if stat_exog_list else 0)\n",
+    "        adjusted_hidden = hidden_size // self.num_features\n",
+    "        self.hidden_size = adjusted_hidden * self.num_features\n",
+    "        self.feature_embedding = FeatureEmbedding(\n",
+    "            input_size=input_size,\n",
+    "            h=h,\n",
+    "            hidden_size=adjusted_hidden,\n",
+    "            hist_exog_size=len(hist_exog_list) if hist_exog_list else 0,\n",
+    "            futr_exog_size=len(futr_exog_list) if futr_exog_list else 0,\n",
+    "            stat_exog_size=len(stat_exog_list) if stat_exog_list else 0,\n",
+    "            dropout=dropout\n",
+    "        )\n",
     "        \n",
     "        self.encoder = TransEncoder(\n",
     "            [\n",
@@ -320,7 +400,7 @@
     "\n",
     "        self.projection = nn.Linear(hidden_size, self.h * self.loss.outputsize_multiplier, bias=True)\n",
     "\n",
-    "    def forecast(self, x_enc):\n",
+    "    def forecast(self, x_enc, hist_exog, futr_exog, stat_exog):\n",
     "        # Normalization from Non-stationary Transformer\n",
     "        if self.use_norm:\n",
     "            means = x_enc.mean(1, keepdim=True).detach()\n",
@@ -329,7 +409,12 @@
     "            x_enc /= stdev\n",
     "\n",
     "        _, _, N = x_enc.shape\n",
-    "        enc_out = self.enc_embedding(x_enc, None)\n",
+    "        enc_out = self.feature_embedding(\n",
+    "            x_enc, \n",
+    "            hist_exog,\n",
+    "            futr_exog,\n",
+    "            stat_exog\n",
+    "        )\n",
     "        enc_out, attns = self.encoder(enc_out, attn_mask=None)\n",
     "        dec_out = self.projection(enc_out).permute(0, 2, 1)[:, :, :N]\n",
     "\n",
@@ -340,9 +425,12 @@
     "        return dec_out\n",
     "    \n",
     "    def forward(self, windows_batch):\n",
-    "        insample_y = windows_batch['insample_y']\n",
+    "        insample_y = windows_batch['insample_y']                  #   [batch_size (B), input_size (L), n_series (N)]\n",
+    "        hist_exog   = windows_batch['hist_exog']                  #   [B, hist_exog_size (X), L, N]\n",
+    "        futr_exog   = windows_batch['futr_exog']                  #   [B, futr_exog_size (F), L + h, N]\n",
+    "        stat_exog   = windows_batch['stat_exog']                  #   [N, stat_exog_size (S)]\n",
     "\n",
-    "        y_pred = self.forecast(insample_y)\n",
+    "        y_pred = self.forecast(insample_y, hist_exog, futr_exog, stat_exog)\n",
     "        y_pred = y_pred.reshape(insample_y.shape[0],\n",
     "                                self.h,\n",
     "                                -1)\n",
 
@@ -281,8 +281,8 @@
     "\n",
     "    # Class attributes\n",
     "    EXOGENOUS_FUTR = True\n",
-    "    EXOGENOUS_HIST = False\n",
-    "    EXOGENOUS_STAT = False\n",
+    "    EXOGENOUS_HIST = True\n",
+    "    EXOGENOUS_STAT = True\n",
     "    MULTIVARIATE = True    # If the model produces multivariate forecasts (True) or univariate (False)\n",
     "    RECURRENT = False       # If the model produces forecasts recursively (True) or direct (False)\n",
     "\n",
@@ -367,10 +367,18 @@
     "        self.patch_len = patch_len\n",
     "        self.use_norm = use_norm\n",
     "        self.patch_num = int(input_size // self.patch_len)\n",
+    "        \n",
+    "        self.futr_exog_size = len(futr_exog_list) if futr_exog_list is not None else 0\n",
+    "        self.hist_exog_size = len(hist_exog_list) if hist_exog_list is not None else 0\n",
+    "        self.stat_exog_size = len(stat_exog_list) if stat_exog_list is not None else 0\n",
     "\n",
     "        # Architecture\n",
     "        self.en_embedding = EnEmbedding(n_series, self.hidden_size, self.patch_len, self.dropout)\n",
-    "        self.ex_embedding = DataEmbedding_inverted(input_size, self.hidden_size, self.dropout)\n",
+    "        self.hist_ex_embedding = DataEmbedding_inverted(input_size, self.hidden_size, self.dropout)\n",
+    "        if futr_exog_list is not None:\n",
+    "            self.futr_ex_embedding = DataEmbedding_inverted(input_size+h, self.hidden_size, self.dropout)\n",
+    "        if stat_exog_list is not None:\n",
+    "            self.stat_ex_embedding = nn.Linear(len(stat_exog_list), hidden_size)\n",
     "\n",
     "        self.encoder = Encoder(\n",
     "            [\n",
@@ -396,18 +404,33 @@
     "        self.head = FlattenHead(self.enc_in, self.head_nf, h * self.loss.outputsize_multiplier,\n",
     "                                head_dropout=self.dropout)\n",
     "        \n",
-    "    def forecast(self, x_enc, x_mark_enc):\n",
+    "    def forecast(self, x_enc, futr_exog, hist_exog, stat_exog):\n",
     "        if self.use_norm:\n",
     "            # Normalization from Non-stationary Transformer\n",
     "            means = x_enc.mean(1, keepdim=True).detach()\n",
     "            x_enc = x_enc - means\n",
     "            stdev = torch.sqrt(torch.var(x_enc, dim=1, keepdim=True, unbiased=False) + 1e-5)\n",
     "            x_enc /= stdev\n",
     "\n",
-    "        _, _, N = x_enc.shape\n",
+    "        B, _, N = x_enc.shape\n",
     "\n",
+    "        \n",
     "        en_embed, n_vars = self.en_embedding(x_enc.permute(0, 2, 1))\n",
-    "        ex_embed = self.ex_embedding(x_enc, x_mark_enc)\n",
+    "        # concat exogenous embedding if exist\n",
+    "        if self.hist_exog_size > 0:\n",
+    "            B, V, T, D = hist_exog.shape\n",
+    "            ex_embed = self.hist_ex_embedding(x_enc, hist_exog.reshape(B, T, V*D))\n",
+    "        else:\n",
+    "            ex_embed = self.hist_ex_embedding(x_enc, None)\n",
+    "        if self.futr_exog_size > 0:\n",
+    "            B, V, T, D = futr_exog.shape\n",
+    "            futr_ex_embed = self.futr_ex_embedding(futr_exog.reshape(B, T, V*D), None)\n",
+    "            ex_embed = torch.cat([ex_embed, futr_ex_embed], dim=1)\n",
+    "        if self.stat_exog_size > 0:\n",
+    "            # stat_exog: [N, S] -> [N, E] -> [B, N, E]\n",
+    "            stat_embed = self.stat_ex_embedding(stat_exog)  # [N, E]\n",
+    "            stat_embed = stat_embed.unsqueeze(0).expand(B, -1, -1)  # [B, N, E]\n",
+    "            ex_embed = torch.cat([ex_embed, stat_embed], dim=1)\n",
     "\n",
     "        enc_out = self.encoder(en_embed, ex_embed)\n",
     "        enc_out = torch.reshape(\n",
@@ -426,17 +449,12 @@
     "        return dec_out\n",
     "    \n",
     "    def forward(self, windows_batch):\n",
-    "        insample_y = windows_batch['insample_y']\n",
-    "        futr_exog = windows_batch['futr_exog']\n",
-    "        \n",
-    "        if self.futr_exog_size > 0:\n",
-    "            x_mark_enc = futr_exog[:, :, :self.input_size, :]\n",
-    "            B, V, T, D = x_mark_enc.shape\n",
-    "            x_mark_enc = x_mark_enc.reshape(B, T, V*D)\n",
-    "        else:\n",
-    "            x_mark_enc = None\n",
+    "        insample_y = windows_batch['insample_y']                  #   [batch_size (B), input_size (L), n_series (N)]\n",
+    "        hist_exog   = windows_batch['hist_exog']                  #   [B, hist_exog_size (X), L, N]\n",
+    "        futr_exog   = windows_batch['futr_exog']                  #   [B, futr_exog_size (F), L + h, N]\n",
+    "        stat_exog   = windows_batch['stat_exog']                  #   [N, stat_exog_size (S)]\n",
     "\n",
-    "        y_pred = self.forecast(insample_y, x_mark_enc)\n",
+    "        y_pred = self.forecast(insample_y, futr_exog, hist_exog, stat_exog)\n",
     "        y_pred = y_pred.reshape(insample_y.shape[0],\n",
     "                                self.h,\n",
     "                                -1)\n",