Added IDP agent

miTTimmiTTim · miTTimmiTTim · commit 90f0015e2999 · 2025-05-22T09:32:46.000+02:00
diff --git a/ddopai/_modidx.py b/ddopai/_modidx.py
@@ -366,6 +366,34 @@
                                                                                                                    'ddopai/agents/dynamic_pricing/greedy.py'),
                                                       'ddopai.agents.dynamic_pricing.greedy.GreedyPolicy.update_task': ( '30_agents/42_DP_agents/greedy_agent.html#greedypolicy.update_task',
                                                                                                                          'ddopai/agents/dynamic_pricing/greedy.py')},
+            'ddopai.agents.dynamic_pricing.inventory_constrained.IDP': { 'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPAgent': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idpagent',
+                                                                                                                                               'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPAgent.__init__': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idpagent.__init__',
+                                                                                                                                                        'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPAgent.update_task': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idpagent.update_task',
+                                                                                                                                                           'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPCoreAgent': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idpcoreagent',
+                                                                                                                                                   'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPCoreAgent.__init__': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idpcoreagent.__init__',
+                                                                                                                                                            'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPCoreAgent.fit': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idpcoreagent.fit',
+                                                                                                                                                       'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPCoreAgent.update_task': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idpcoreagent.update_task',
+                                                                                                                                                               'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPPolicy': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idppolicy',
+                                                                                                                                                'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPPolicy.__init__': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idppolicy.__init__',
+                                                                                                                                                         'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPPolicy.draw_action': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idppolicy.draw_action',
+                                                                                                                                                            'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPPolicy.fit': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idppolicy.fit',
+                                                                                                                                                    'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPPolicy.lagrangian': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idppolicy.lagrangian',
+                                                                                                                                                           'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPPolicy.reset': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idppolicy.reset',
+                                                                                                                                                      'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py'),
+                                                                         'ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPPolicy.update_task': ( '30_agents/42_DP_agents/421_DP_inventory_agents/idp_agent.html#idppolicy.update_task',
+                                                                                                                                                            'ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py')},
             'ddopai.agents.dynamic_pricing.mushroom_rl': { 'ddopai.agents.dynamic_pricing.mushroom_rl.PricingMushroomBaseAgent': ( '30_agents/42_DP_agents/mushroom_base_agent.html#pricingmushroombaseagent',
                                                                                                                                    'ddopai/agents/dynamic_pricing/mushroom_rl.py'),
                                                            'ddopai.agents.dynamic_pricing.mushroom_rl.PricingMushroomBaseAgent.__init__': ( '30_agents/42_DP_agents/mushroom_base_agent.html#pricingmushroombaseagent.__init__',
diff --git a/ddopai/agents/class_names.py b/ddopai/agents/class_names.py
@@ -38,5 +38,7 @@
     "TS": "ddopai.agents.dynamic_pricing.TS.TSAgent",
     "UCB": "ddopai.agents.dynamic_pricing.UCB.UCBAgent",
     "Clairvoyant": "ddopai.agents.dynamic_pricing.clairvoyant.ClairvoyantAgent",
-    "MTS": "ddopai.agents.dynamic_pricing.MTS.MTSAgent"
+    "MTS": "ddopai.agents.dynamic_pricing.MTS.MTSAgent",
+    
+    "IDP": "ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPAgent"
 }
diff --git a/ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py b/ddopai/agents/dynamic_pricing/inventory_constrained/IDP.py
@@ -0,0 +1,156 @@
+"""Agents that knows the underlying task and the optimal action"""
+
+# AUTOGENERATED! DO NOT EDIT! File to edit: ../../../../nbs/30_agents/42_DP_agents/421_DP_inventory_agents/10_IDP_agent.ipynb.
+
+# %% auto 0
+__all__ = ['IDPPolicy', 'IDPCoreAgent', 'IDPAgent']
+
+# %% ../../../../nbs/30_agents/42_DP_agents/421_DP_inventory_agents/10_IDP_agent.ipynb 3
+import logging
+
+from abc import ABC, abstractmethod
+from typing import Union, Optional, List
+import numpy as np
+import joblib
+import os
+import statsmodels.api as sm
+from ..utils import GLMLink
+from ....envs.base import BaseEnvironment
+from ..mushroom_rl import PricingMushroomBaseAgent
+from mushroom_rl.core import Agent
+from ....utils import MDPInfo
+from ...obsprocessors import FlattenTimeDimNumpy
+from ....envs.actionprocessors import ClipAction
+
+# %% ../../../../nbs/30_agents/42_DP_agents/421_DP_inventory_agents/10_IDP_agent.ipynb 4
+class IDPPolicy():
+    def __init__(self,
+                 environment_info: MDPInfo,
+                 obsprocessors: Optional[List[object]] = None,
+                 actionprocessors: Optional[List[object]] = None,
+                 agent_name: str | None = None,
+                 task: dict = None,
+                 price_function = None,
+                 g = None,
+                 ):
+        
+        alpha = np.array(task["alpha"])
+        beta = np.array(task["beta"])
+        assert type(alpha) == type(beta), "alpha and beta must be of the same type"
+        if type(alpha) == None:
+            alpha = np.zeros(environment_info.observation_space['features'].shape[0])   
+            beta = np.zeros(environment_info.observation_space['features'].shape[0])
+        self.environment_info = environment_info
+        self.task = task
+        self.T = task["horizon"]
+        self.alpha = alpha
+        self.beta = beta
+        if environment_info.observation_space['features'].shape[0] == 1:
+            self.E_X = np.array([1])
+        else:
+            self.E_X = np.full(environment_info.observation_space['features'].shape[0], 1 / (2 * np.sqrt(environment_info.observation_space['features'].shape[0])))
+        self.actionprocessors = actionprocessors
+        self.price_function = price_function # Needs to return an np array
+        self.g = g
+        self.t = 0
+        self.mode = "train"
+        self.actionprocessors.append(ClipAction(environment_info.action_space.low, environment_info.action_space.high))
+
+    def draw_action(self, observation: np.ndarray):
+        X = observation['features']
+        B_t = observation['Inventory']
+        price = self.price_function(X, self.alpha, self.beta)
+        lagrangian = self.lagrangian(B_t)
+        price = price + lagrangian
+        for processor in self.actionprocessors:
+            price = processor(price)
+        
+        return np.array(price)
+    
+    def lagrangian(self, B_t):
+        """
+        Lagrangian function for the pricing problem
+        """
+        avg_remaining_B = (2 * B_t) / (self.T - self.t +1) 
+        lagrangian = (avg_remaining_B - np.dot(self.alpha, self.E_X)) / np.dot(self.beta, self.E_X)
+        return lagrangian
+    def update_task(self, env):
+        self.environment_info = env.mdp_info
+        self.task = env.get_task()
+        
+        self.alpha = np.array(self.task["alpha"])
+        self.beta = np.array(self.task["beta"])
+        if self.environment_info.observation_space['features'].shape[0] == 1:
+            self.E_X = np.array([1])
+        else:
+            self.E_X = np.full(self.environment_info.observation_space['features'].shape[0], 1 / (2 * np.sqrt(self.environment_info.observation_space['features'].shape[0])))
+        self.T = self.task["horizon"]
+        
+        """TODO add change in price function"""
+    def fit(self, X, Y, action):
+        self.t += 1
+    
+        
+    def reset(self):
+        pass
+        
+
+# %% ../../../../nbs/30_agents/42_DP_agents/421_DP_inventory_agents/10_IDP_agent.ipynb 5
+class IDPCoreAgent(Agent):
+
+    """
+    Base class for clairvoyant agents.
+    """
+
+    def __init__(self,
+                 environment_info: MDPInfo,
+                 obsprocessors: Optional[List[object]] = [],
+                 actionprocessors: Optional[List[object]] = [],
+                 agent_name: str | None = None,
+                 task: dict = None,
+                 price_function = None,
+                 g = None,
+                 ):
+        
+        policy = IDPPolicy(environment_info=environment_info, obsprocessors=obsprocessors, actionprocessors=actionprocessors, task=task, price_function=price_function, g=g)
+        self.agent_name = agent_name
+        super().__init__(environment_info, policy)
+        
+    def fit(self, dataset, **kwargs):
+        X = dataset[0][0]["features"]
+        Y = kwargs["demand"][0]
+        action = dataset[0][1]
+        self.policy.fit(X, Y, action)
+        
+    def update_task(self, env):
+        self.policy.update_task(env)
+        
+    
+        
+
+# %% ../../../../nbs/30_agents/42_DP_agents/421_DP_inventory_agents/10_IDP_agent.ipynb 6
+class IDPAgent(PricingMushroomBaseAgent):
+    """
+    Wrapper class for IDPCoreAgent to interact with MushroomRL.
+    """
+    def __init__(self,
+                 environment_info: MDPInfo,
+                 obsprocessors: Optional[List[object]] =[],
+                 actionprocessors: Optional[List[object]] = [],
+                 agent_name: str | None = None,
+                 task: dict = None,
+                 price_function = None,
+                 g = None,
+                 ):
+        self.agent = IDPCoreAgent(environment_info = environment_info,
+                                     obsprocessors = obsprocessors, 
+                                     actionprocessors = actionprocessors, 
+                                     agent_name = agent_name, 
+                                     task=task,
+                                     price_function = price_function, 
+                                     g = g)
+        super().__init__(environment_info = environment_info, obsprocessors = obsprocessors, agent_name = agent_name)
+    def update_task(self, env: object):
+        """ Update the environment specific parameters of the agent """
+        self.agent.update_task(env)
+        
diff --git a/ddopai/agents/dynamic_pricing/inventory_constrained/__init__.py b/ddopai/agents/dynamic_pricing/inventory_constrained/__init__.py
diff --git a/nbs/30_agents/40_base_agents/10_AGENT_CLASSES.ipynb b/nbs/30_agents/40_base_agents/10_AGENT_CLASSES.ipynb
@@ -67,7 +67,9 @@
     "    \"TS\": \"ddopai.agents.dynamic_pricing.TS.TSAgent\",\n",
     "    \"UCB\": \"ddopai.agents.dynamic_pricing.UCB.UCBAgent\",\n",
     "    \"Clairvoyant\": \"ddopai.agents.dynamic_pricing.clairvoyant.ClairvoyantAgent\",\n",
-    "    \"MTS\": \"ddopai.agents.dynamic_pricing.MTS.MTSAgent\"\n",
+    "    \"MTS\": \"ddopai.agents.dynamic_pricing.MTS.MTSAgent\",\n",
+    "    \n",
+    "    \"IDP\": \"ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPAgent\"\n",
     "}"
    ]
   },
diff --git a/nbs/30_agents/42_DP_agents/421_DP_inventory_agents/10_IDP_agent.ipynb b/nbs/30_agents/42_DP_agents/421_DP_inventory_agents/10_IDP_agent.ipynb

Original file line number	Diff line number	Diff line change
`@@ -38,5 +38,7 @@`
`38`	`38`	`"TS": "ddopai.agents.dynamic_pricing.TS.TSAgent",`
`39`	`39`	`"UCB": "ddopai.agents.dynamic_pricing.UCB.UCBAgent",`
`40`	`40`	`"Clairvoyant": "ddopai.agents.dynamic_pricing.clairvoyant.ClairvoyantAgent",`
`41`		`- "MTS": "ddopai.agents.dynamic_pricing.MTS.MTSAgent"`
	`41`	`+ "MTS": "ddopai.agents.dynamic_pricing.MTS.MTSAgent",`
	`42`	`+`
	`43`	`+ "IDP": "ddopai.agents.dynamic_pricing.inventory_constrained.IDP.IDPAgent"`
`42`	`44`	`}`