Fixed idx bug for val and test dataloader, changed clairvoyant agent to work with a task

miTTimmiTTim · miTTimmiTTim · commit 9fcae36865c2 · 2025-05-14T10:55:03.000+02:00
diff --git a/ddopai/_modidx.py b/ddopai/_modidx.py
@@ -1170,6 +1170,8 @@
                                                                                                 'ddopai/envs/pricing/base.py'),
                                           'ddopai.envs.pricing.base.BasePricingEnv.get_observation': ( '20_environments/22_envs_pricing/base_pricing_env.html#basepricingenv.get_observation',
                                                                                                        'ddopai/envs/pricing/base.py'),
+                                          'ddopai.envs.pricing.base.BasePricingEnv.get_task': ( '20_environments/22_envs_pricing/base_pricing_env.html#basepricingenv.get_task',
+                                                                                                'ddopai/envs/pricing/base.py'),
                                           'ddopai.envs.pricing.base.BasePricingEnv.reset': ( '20_environments/22_envs_pricing/base_pricing_env.html#basepricingenv.reset',
                                                                                              'ddopai/envs/pricing/base.py'),
                                           'ddopai.envs.pricing.base.BasePricingEnv.reset_index': ( '20_environments/22_envs_pricing/base_pricing_env.html#basepricingenv.reset_index',
diff --git a/ddopai/agents/dynamic_pricing/clairvoyant.py b/ddopai/agents/dynamic_pricing/clairvoyant.py
@@ -29,16 +29,19 @@ def __init__(self,
                  obsprocessors: Optional[List[object]] = None,
                  actionprocessors: Optional[List[object]] = None,
                  agent_name: str | None = None,
-                 alpha: np.ndarray | None = None,
-                 beta: np.ndarray | None = None,
+                 task: dict = None,
                  price_function = None,
                  g = None,
                  ):
+        
+        alpha = np.array(task["alpha"])
+        beta = np.array(task["beta"])
         assert type(alpha) == type(beta), "alpha and beta must be of the same type"
         if type(alpha) == None:
             alpha = np.zeros(environment_info.observation_space['features'].shape[0])   
             beta = np.zeros(environment_info.observation_space['features'].shape[0])
         self.environment_info = environment_info
+        self.task = task
         self.alpha = alpha
         self.beta = beta
         self.actionprocessors = actionprocessors
@@ -60,6 +63,8 @@ def draw_action(self, observation: np.ndarray):
     
     def update_env(self, env):
         self.environment_info = env.mdp_info
+        self.task = env.get_task()
+        
         self.alpha = env.alpha
         self.beta = env.beta
         """TODO add change in price function"""
@@ -83,13 +88,12 @@ def __init__(self,
                  obsprocessors: Optional[List[object]] = [],
                  actionprocessors: Optional[List[object]] = [],
                  agent_name: str | None = None,
-                 alpha: np.ndarray | None = None,
-                 beta: np.ndarray | None = None,
+                 task: dict = None,
                  price_function = None,
                  g = None,
                  ):
         
-        policy = ClairvoyantPolicy(environment_info=environment_info, obsprocessors=obsprocessors, actionprocessors=actionprocessors, alpha=alpha, beta=beta, price_function=price_function, g=g)
+        policy = ClairvoyantPolicy(environment_info=environment_info, obsprocessors=obsprocessors, actionprocessors=actionprocessors, task=task, price_function=price_function, g=g)
         self.agent_name = agent_name
         super().__init__(environment_info, policy)
         
@@ -115,17 +119,15 @@ def __init__(self,
                  obsprocessors: Optional[List[object]] =[],
                  actionprocessors: Optional[List[object]] = [],
                  agent_name: str | None = None,
-                 alpha: np.ndarray | None = None,
-                 beta: np.ndarray | None = None,
+                 task: dict = None,
                  price_function = None,
                  g = None,
                  ):
         self.agent = ClairvoyantCoreAgent(environment_info = environment_info,
                                      obsprocessors = obsprocessors, 
                                      actionprocessors = actionprocessors, 
                                      agent_name = agent_name, 
-                                     alpha = alpha, 
-                                     beta = beta, 
+                                     task=task,
                                      price_function = price_function, 
                                      g = g)
         super().__init__(environment_info = environment_info, obsprocessors = obsprocessors, agent_name = agent_name)
diff --git a/ddopai/dataloaders/online.py b/ddopai/dataloaders/online.py
@@ -40,6 +40,7 @@ def __init__(self,
         normalize_features: dict = None,
     ):
         self.X = X
+        self.Y = epsilon
         self.alpha = alpha
         self.beta = beta
         self.epsilon = epsilon
@@ -196,14 +197,14 @@ def probit(X, action):
                 return np.maximum(demand, 0)
             return probit
 
-    def __getitem__(self, index: int):
+    def __getitem__(self, idx: int):
         
         """
             get item by index, depending on the dataset type (train, val, test)
         """
         
         if self.dataset_type == "train":
-            if index > self.train_index_end:
+            if idx > self.train_index_end:
                 raise IndexError('Index out of bounds')
             
         elif self.dataset_type == "val":
@@ -225,7 +226,7 @@ def __getitem__(self, index: int):
         else:
             raise ValueError('dataset_type not set')
 
-        return self.X[index], self._get_Y(index)
+        return self.X[idx], self._get_Y(idx)
         
     def __len__(self):
         return len(self.X)
diff --git a/ddopai/envs/pricing/base.py b/ddopai/envs/pricing/base.py
@@ -245,3 +245,12 @@ def test(self, update_mdp_info=True):
             self.update_mdp_info(gamma=self.mdp_info.gamma, horizon=self.mdp_info.horizon)
 
         self.reset()
+    
+    def get_task(self):
+        """
+        Return the current task. This function is for the online learning case it will return only the state,
+        this function should be overwritten.
+
+        """
+
+        return self.task.copy()
diff --git a/nbs/10_dataloaders/13_online_dataloaders.ipynb b/nbs/10_dataloaders/13_online_dataloaders.ipynb
@@ -76,6 +76,7 @@
     "        normalize_features: dict = None,\n",
     "    ):\n",
     "        self.X = X\n",
+    "        self.Y = epsilon\n",
     "        self.alpha = alpha\n",
     "        self.beta = beta\n",
     "        self.epsilon = epsilon\n",
@@ -232,14 +233,14 @@
     "                return np.maximum(demand, 0)\n",
     "            return probit\n",
     "\n",
-    "    def __getitem__(self, index: int):\n",
+    "    def __getitem__(self, idx: int):\n",
     "        \n",
     "        \"\"\"\n",
     "            get item by index, depending on the dataset type (train, val, test)\n",
     "        \"\"\"\n",
     "        \n",
     "        if self.dataset_type == \"train\":\n",
-    "            if index > self.train_index_end:\n",
+    "            if idx > self.train_index_end:\n",
     "                raise IndexError('Index out of bounds')\n",
     "            \n",
     "        elif self.dataset_type == \"val\":\n",
@@ -261,7 +262,7 @@
     "        else:\n",
     "            raise ValueError('dataset_type not set')\n",
     "\n",
-    "        return self.X[index], self._get_Y(index)\n",
+    "        return self.X[idx], self._get_Y(idx)\n",
     "        \n",
     "    def __len__(self):\n",
     "        return len(self.X)\n",
diff --git a/nbs/20_environments/22_envs_pricing/10_base_pricing_env.ipynb b/nbs/20_environments/22_envs_pricing/10_base_pricing_env.ipynb
@@ -280,7 +280,16 @@
     "        if update_mdp_info:\n",
     "            self.update_mdp_info(gamma=self.mdp_info.gamma, horizon=self.mdp_info.horizon)\n",
     "\n",
-    "        self.reset()"
+    "        self.reset()\n",
+    "    \n",
+    "    def get_task(self):\n",
+    "        \"\"\"\n",
+    "        Return the current task. This function is for the online learning case it will return only the state,\n",
+    "        this function should be overwritten.\n",
+    "\n",
+    "        \"\"\"\n",
+    "\n",
+    "        return self.task.copy()"
    ]
   }
  ],
diff --git a/nbs/30_agents/42_DP_agents/10_clairvoyant_agent.ipynb b/nbs/30_agents/42_DP_agents/10_clairvoyant_agent.ipynb
@@ -66,16 +66,19 @@
     "                 obsprocessors: Optional[List[object]] = None,\n",
     "                 actionprocessors: Optional[List[object]] = None,\n",
     "                 agent_name: str | None = None,\n",
-    "                 alpha: np.ndarray | None = None,\n",
-    "                 beta: np.ndarray | None = None,\n",
+    "                 task: dict = None,\n",
     "                 price_function = None,\n",
     "                 g = None,\n",
     "                 ):\n",
+    "        \n",
+    "        alpha = np.array(task[\"alpha\"])\n",
+    "        beta = np.array(task[\"beta\"])\n",
     "        assert type(alpha) == type(beta), \"alpha and beta must be of the same type\"\n",
     "        if type(alpha) == None:\n",
     "            alpha = np.zeros(environment_info.observation_space['features'].shape[0])   \n",
     "            beta = np.zeros(environment_info.observation_space['features'].shape[0])\n",
     "        self.environment_info = environment_info\n",
+    "        self.task = task\n",
     "        self.alpha = alpha\n",
     "        self.beta = beta\n",
     "        self.actionprocessors = actionprocessors\n",
@@ -97,6 +100,8 @@
     "    \n",
     "    def update_env(self, env):\n",
     "        self.environment_info = env.mdp_info\n",
+    "        self.task = env.get_task()\n",
+    "        \n",
     "        self.alpha = env.alpha\n",
     "        self.beta = env.beta\n",
     "        \"\"\"TODO add change in price function\"\"\"\n",
@@ -127,13 +132,12 @@
     "                 obsprocessors: Optional[List[object]] = [],\n",
     "                 actionprocessors: Optional[List[object]] = [],\n",
     "                 agent_name: str | None = None,\n",
-    "                 alpha: np.ndarray | None = None,\n",
-    "                 beta: np.ndarray | None = None,\n",
+    "                 task: dict = None,\n",
     "                 price_function = None,\n",
     "                 g = None,\n",
     "                 ):\n",
     "        \n",
-    "        policy = ClairvoyantPolicy(environment_info=environment_info, obsprocessors=obsprocessors, actionprocessors=actionprocessors, alpha=alpha, beta=beta, price_function=price_function, g=g)\n",
+    "        policy = ClairvoyantPolicy(environment_info=environment_info, obsprocessors=obsprocessors, actionprocessors=actionprocessors, task=task, price_function=price_function, g=g)\n",
     "        self.agent_name = agent_name\n",
     "        super().__init__(environment_info, policy)\n",
     "        \n",
@@ -166,17 +170,15 @@
     "                 obsprocessors: Optional[List[object]] =[],\n",
     "                 actionprocessors: Optional[List[object]] = [],\n",
     "                 agent_name: str | None = None,\n",
-    "                 alpha: np.ndarray | None = None,\n",
-    "                 beta: np.ndarray | None = None,\n",
+    "                 task: dict = None,\n",
     "                 price_function = None,\n",
     "                 g = None,\n",
     "                 ):\n",
     "        self.agent = ClairvoyantCoreAgent(environment_info = environment_info,\n",
     "                                     obsprocessors = obsprocessors, \n",
     "                                     actionprocessors = actionprocessors, \n",
     "                                     agent_name = agent_name, \n",
-    "                                     alpha = alpha, \n",
-    "                                     beta = beta, \n",
+    "                                     task=task,\n",
     "                                     price_function = price_function, \n",
     "                                     g = g)\n",
     "        super().__init__(environment_info = environment_info, obsprocessors = obsprocessors, agent_name = agent_name)\n",