Cherry-pick separate critic only for PPO (#4661) (#4666)

Ervin T · web-flow · commit b0ac32ec398e · 2020-11-18T11:34:21.000-08:00
diff --git a/ml-agents/mlagents/trainers/ppo/trainer.py b/ml-agents/mlagents/trainers/ppo/trainer.py
@@ -254,7 +254,7 @@ def create_torch_policy(
             behavior_spec,
             self.trainer_settings,
             condition_sigma_on_obs=False,  # Faster training for PPO
-            separate_critic=behavior_spec.action_spec.is_continuous(),
+            separate_critic=True,  # Match network architecture with TF
         )
         return policy
 

Original file line number	Diff line number	Diff line change
`@@ -254,7 +254,7 @@ def create_torch_policy(`
`254`	`254`	`behavior_spec,`
`255`	`255`	`self.trainer_settings,`
`256`	`256`	`condition_sigma_on_obs=False, # Faster training for PPO`
`257`		`- separate_critic=behavior_spec.action_spec.is_continuous(),`
	`257`	`+ separate_critic=True, # Match network architecture with TF`
`258`	`258`	`)`
`259`	`259`	`return policy`
`260`	`260`