yanxi-chen
diff --git a/‎tests/template/config.yaml‎
Lines changed: 5 additions & 0 deletions b/‎tests/template/config.yaml‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎trinity/algorithm/__init__.py‎
Lines changed: 1 addition & 1 deletion b/‎trinity/algorithm/__init__.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎trinity/algorithm/advantage_fn/__init__.py‎
Lines changed: 20 additions & 0 deletions b/‎trinity/algorithm/advantage_fn/__init__.py‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎trinity/algorithm/advantage_fn/advantage_fn.py‎
Lines changed: 8 additions & 159 deletions b/‎trinity/algorithm/advantage_fn/advantage_fn.py‎
Lines changed: 8 additions & 159 deletions
diff --git a/‎trinity/algorithm/advantage_fn/grpo_advantage.py‎
Lines changed: 42 additions & 0 deletions b/‎trinity/algorithm/advantage_fn/grpo_advantage.py‎
Lines changed: 42 additions & 0 deletions
diff --git a/‎trinity/algorithm/advantage_fn/opmd_advantage.py‎
Lines changed: 45 additions & 0 deletions b/‎trinity/algorithm/advantage_fn/opmd_advantage.py‎
Lines changed: 45 additions & 0 deletions
diff --git a/‎trinity/algorithm/advantage_fn/ppo_advantage.py‎
Lines changed: 50 additions & 0 deletions b/‎trinity/algorithm/advantage_fn/ppo_advantage.py‎
Lines changed: 50 additions & 0 deletions
@@ -8,6 +8,11 @@ algorithm:
   policy_loss_fn: ppo
   policy_loss_fn_args:
     clip_range: 0.2
+  advantage_fn_type: ppo_adv_fn
+  advantage_fn_args:
+    gamma: 1.0
+    lam: 1.0
+
 model:
   model_path: ''
   max_prompt_tokens: 2048
 
@@ -1,4 +1,4 @@
-from trinity.algorithm.advantage_fn.advantage_fn import ADVANTAGE_FN, AdvantageFn
+from trinity.algorithm.advantage_fn import ADVANTAGE_FN, AdvantageFn
 from trinity.algorithm.policy_loss_fn import POLICY_LOSS_FN, PolicyLossFn
 
 __all__ = [
 
@@ -0,0 +1,20 @@
+from trinity.algorithm.advantage_fn.advantage_fn import ADVANTAGE_FN, AdvantageFn
+from trinity.algorithm.advantage_fn.grpo_advantage import GRPOAdvantageFn
+from trinity.algorithm.advantage_fn.opmd_advantage import OPMDAdvantageFn
+from trinity.algorithm.advantage_fn.ppo_advantage import PPOAdvantageFn
+from trinity.algorithm.advantage_fn.reinforce_plus_plus_advantage import (
+    REINFORCEPLUSPLUSAdvantageFn,
+)
+from trinity.algorithm.advantage_fn.remax_advantage import REMAXAdvantageFn
+from trinity.algorithm.advantage_fn.rloo_advantage import RLOOAdvantageFn
+
+__all__ = [
+    "ADVANTAGE_FN",
+    "AdvantageFn",
+    "PPOAdvantageFn",
+    "GRPOAdvantageFn",
+    "REINFORCEPLUSPLUSAdvantageFn",
+    "REMAXAdvantageFn",
+    "RLOOAdvantageFn",
+    "OPMDAdvantageFn",
+]
@@ -1,9 +1,6 @@
 from abc import ABC, abstractmethod
 from typing import Any, Dict, Tuple
 
-from verl import DataProto
-
-from trinity.trainer.verl import core_algos
 from trinity.utils.registry import Registry
 
 ADVANTAGE_FN = Registry("advantage_fn")
@@ -19,162 +16,14 @@ def __call__(self, exps: Any, **kwargs: Dict) -> Tuple[Any, Dict]:
             kwargs (`Dict`): The step-level parameters for calculating advantages.
 
         Returns:
-            `Any`: The experiences with advantages.
+            `DataProto`: The experiences with advantages.
             `Dict`: The metrics for logging.
         """
 
-
-@ADVANTAGE_FN.register("ppo_adv_fn")
-class PPOAdvantageFn(AdvantageFn):
-    """PPO's GAE advantage computation"""
-
-    def __init__(self, **kwargs):
-        self.gamma = kwargs.get("gamma")
-        self.lam = kwargs.get("lam")
-
-    def __call__(self, exps: DataProto, **kwargs) -> Tuple[DataProto, Dict]:
-        """Adapted from compute_advantage_ppo in ray_trainer.py"""
-
-        advantages, returns = core_algos.compute_gae_advantage_return(
-            token_level_rewards=exps.batch["token_level_rewards"],
-            values=exps.batch["values"],
-            eos_mask=exps.batch["response_mask"],
-            gamma=self.gamma,
-            lam=self.lam,
-        )
-        exps.batch["advantages"] = advantages
-        exps.batch["returns"] = returns
-
-        metrics = {
-            "abc": "xyz",  # TODO: add meaningful metrics
-        }
-
-        return exps, metrics
-
-
-@ADVANTAGE_FN.register("grpo_adv_fn")
-class GRPOAdvantageFn(AdvantageFn):
-    """GRPO advantage computation"""
-
-    def __init__(self, **kwargs):
-        pass
-
-    def __call__(self, exps: DataProto, **kwargs) -> Tuple[DataProto, Dict]:
-        """Adapted from compute_advantage_ppo in ray_trainer.py"""
-
-        advantages, returns = core_algos.compute_grpo_outcome_advantage(
-            token_level_rewards=exps.batch["token_level_rewards"],
-            eos_mask=exps.batch["response_mask"],
-            index=exps.non_tensor_batch["uid"],
-        )
-        exps.batch["advantages"] = advantages
-        exps.batch["returns"] = returns
-
-        metrics = {
-            "abc": "xyz",  # TODO: add meaningful metrics
-        }
-
-        return exps, metrics
-
-
-@ADVANTAGE_FN.register("reinforceplusplus_adv_fn")
-class REINFORCEPLUSPLUSAdvantageFn(AdvantageFn):
-    """REINFORCE++ advantage computation"""
-
-    def __init__(self, **kwargs):
-        self.gamma = kwargs.get("gamma")
-
-    def __call__(self, exps: DataProto, **kwargs) -> Tuple[DataProto, Dict]:
-        """Adapted from compute_advantage_ppo in ray_trainer.py"""
-
-        advantages, returns = core_algos.compute_reinforce_plus_plus_outcome_advantage(
-            token_level_rewards=exps.batch["token_level_rewards"],
-            eos_mask=exps.batch["response_mask"],
-            gamma=self.gamma,
-        )
-        exps.batch["advantages"] = advantages
-        exps.batch["returns"] = returns
-
-        metrics = {
-            "abc": "xyz",  # TODO: add meaningful metrics
-        }
-
-        return exps, metrics
-
-
-@ADVANTAGE_FN.register("remax_adv_fn")
-class REMAXAdvantageFn(AdvantageFn):
-    """REMAX advantage computation"""
-
-    def __init__(self, **kwargs):
-        pass
-
-    def __call__(self, exps: DataProto, **kwargs) -> Tuple[DataProto, Dict]:
-        """Adapted from compute_advantage_ppo in ray_trainer.py"""
-
-        advantages, returns = core_algos.compute_remax_outcome_advantage(
-            token_level_rewards=exps.batch["token_level_rewards"],
-            reward_baselines=exps.batch["reward_baselines"],
-            eos_mask=exps.batch["response_mask"],
-        )
-        exps.batch["advantages"] = advantages
-        exps.batch["returns"] = returns
-
-        metrics = {
-            "abc": "xyz",  # TODO: add meaningful metrics
-        }
-
-        return exps, metrics
-
-
-@ADVANTAGE_FN.register("rloo_adv_fn")
-class RLOOAdvantageFn(AdvantageFn):
-    """RLOO advantage computation"""
-
-    def __init__(self, **kwargs):
-        pass
-
-    def __call__(self, exps: DataProto, **kwargs) -> Tuple[DataProto, Dict]:
-        """Adapted from compute_advantage_ppo in ray_trainer.py"""
-
-        advantages, returns = core_algos.compute_rloo_outcome_advantage(
-            token_level_rewards=exps.batch["token_level_rewards"],
-            eos_mask=exps.batch["response_mask"],
-            index=exps.non_tensor_batch["uid"],
-        )
-        exps.batch["advantages"] = advantages
-        exps.batch["returns"] = returns
-
-        metrics = {
-            "abc": "xyz",  # TODO: add meaningful metrics
-        }
-
-        return exps, metrics
-
-
-@ADVANTAGE_FN.register("opmd_adv_fn")
-class OPMDAdvantageFn(AdvantageFn):
-    """OPMD advantage computation"""
-
-    def __init__(self, **kwargs):
-        pass
-
-    def __call__(self, exps: DataProto, **kwargs) -> Tuple[DataProto, Dict]:
-        """Adapted from compute_advantage_opmd in ray_trainer.py"""
-
-        advantages, returns = core_algos.compute_opmd_outcome_advantage(
-            token_level_rewards=exps.batch["token_level_rewards"],
-            eos_mask=exps.batch["response_mask"],
-            # TODO: check consistency with exps.batch["attention_mask"][:, -response_length:] in original implementation
-            index=exps.non_tensor_batch["uid"],
-            opmd_baseline="mean",
-            tau=1.0,
-        )
-        exps.batch["advantages"] = advantages
-        exps.batch["returns"] = returns
-
-        metrics = {
-            "abc": "xyz",  # TODO: add meaningful metrics
-        }
-
-        return exps, metrics
+    @classmethod
+    @abstractmethod
+    def default_args(cls) -> Dict:
+        """
+        Returns:
+            `Dict`: The default init arguments for the advantage function.
+        """
@@ -0,0 +1,42 @@
+"""GRPO advantage computation
+
+Adapted from compute_advantage_ppo in original ray_trainer.py
+"""
+
+from typing import Dict, Tuple
+
+from verl import DataProto
+
+from trinity.algorithm.advantage_fn import ADVANTAGE_FN, AdvantageFn
+from trinity.trainer.verl import core_algos
+
+
+@ADVANTAGE_FN.register_module("grpo_adv_fn")
+class GRPOAdvantageFn(AdvantageFn):
+    """GRPO advantage computation"""
+
+    def __init__(self) -> None:
+        pass
+
+    def __call__(
+        self,
+        exps: DataProto,
+        **kwargs,
+    ) -> Tuple[DataProto, Dict]:
+        advantages, returns = core_algos.compute_grpo_outcome_advantage(
+            token_level_rewards=exps.batch["token_level_rewards"],
+            eos_mask=exps.batch["response_mask"],
+            index=exps.non_tensor_batch["uid"],
+        )
+        exps.batch["advantages"] = advantages
+        exps.batch["returns"] = returns
+
+        metrics = {
+            # TODO: add meaningful metrics
+        }
+
+        return exps, metrics
+
+    @classmethod
+    def default_args(cls) -> Dict:
+        return {}
@@ -0,0 +1,45 @@
+"""OPMD advantage computation
+
+Adapted from compute_advantage_opmd in original ray_trainer.py
+"""
+
+from typing import Dict, Tuple
+
+from verl import DataProto
+
+from trinity.algorithm.advantage_fn import ADVANTAGE_FN, AdvantageFn
+from trinity.trainer.verl import core_algos
+
+
+@ADVANTAGE_FN.register_module("opmd_adv_fn")
+class OPMDAdvantageFn(AdvantageFn):
+    """OPMD advantage computation"""
+
+    def __init__(self) -> None:
+        pass
+
+    def __call__(
+        self,
+        exps: DataProto,
+        **kwargs,
+    ) -> Tuple[DataProto, Dict]:
+        advantages, returns = core_algos.compute_opmd_outcome_advantage(
+            token_level_rewards=exps.batch["token_level_rewards"],
+            eos_mask=exps.batch["response_mask"],
+            # TODO (yanxi): check consistency with exps.batch["attention_mask"][:, -response_length:] in original implementation
+            index=exps.non_tensor_batch["uid"],
+            opmd_baseline="mean",
+            tau=1.0,
+        )
+        exps.batch["advantages"] = advantages
+        exps.batch["returns"] = returns
+
+        metrics = {
+            # TODO: add meaningful metrics
+        }
+
+        return exps, metrics
+
+    @classmethod
+    def default_args(cls) -> Dict:
+        return {}
@@ -0,0 +1,50 @@
+"""PPO's GAE advantage computation
+
+Adapted from compute_advantage_ppo in original ray_trainer.py
+"""
+
+from typing import Dict, Tuple
+
+from verl import DataProto
+
+from trinity.algorithm.advantage_fn import ADVANTAGE_FN, AdvantageFn
+from trinity.trainer.verl import core_algos
+
+
+@ADVANTAGE_FN.register_module("ppo_adv_fn")
+class PPOAdvantageFn(AdvantageFn):
+    def __init__(
+        self,
+        gamma: float = 1.0,
+        lam: float = 1.0,
+    ) -> None:
+        self.gamma = gamma
+        self.lam = lam
+
+    def __call__(
+        self,
+        exps: DataProto,
+        **kwargs,
+    ) -> Tuple[DataProto, Dict]:
+        advantages, returns = core_algos.compute_gae_advantage_return(
+            token_level_rewards=exps.batch["token_level_rewards"],
+            values=exps.batch["values"],
+            eos_mask=exps.batch["response_mask"],
+            gamma=self.gamma,
+            lam=self.lam,
+        )
+        exps.batch["advantages"] = advantages
+        exps.batch["returns"] = returns
+
+        metrics = {
+            # TODO: add meaningful metrics
+        }
+
+        return exps, metrics
+
+    @classmethod
+    def default_args(cls) -> Dict:
+        return {
+            "gamma": 1.0,
+            "lam": 1.0,
+        }
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-from trinity.algorithm.advantage_fn.advantage_fn import ADVANTAGE_FN, AdvantageFn`
	`1`	`+from trinity.algorithm.advantage_fn import ADVANTAGE_FN, AdvantageFn`
`2`	`2`	`from trinity.algorithm.policy_loss_fn import POLICY_LOSS_FN, PolicyLossFn`
`3`	`3`
`4`	`4`	`__all__ = [`