andylin-hao
diff --git a/‎docs/source-en/rst_source/tutorials/user/yaml.rst‎
Lines changed: 2 additions & 2 deletions b/‎docs/source-en/rst_source/tutorials/user/yaml.rst‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎docs/source-zh/rst_source/tutorials/user/yaml.rst‎
Lines changed: 2 additions & 2 deletions b/‎docs/source-zh/rst_source/tutorials/user/yaml.rst‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/coding_online_rl/config/qwen2.5-1.5b-grpo-llm_judge.yaml‎
Lines changed: 1 addition & 1 deletion b/‎examples/coding_online_rl/config/qwen2.5-1.5b-grpo-llm_judge.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/coding_online_rl/config/qwen2.5-1.5b-ppo.yaml‎
Lines changed: 1 addition & 1 deletion b/‎examples/coding_online_rl/config/qwen2.5-1.5b-ppo.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/embodiment/config/behavior_openvlaoft_eval.yaml‎
Lines changed: 2 additions & 2 deletions b/‎examples/embodiment/config/behavior_openvlaoft_eval.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/embodiment/config/behavior_ppo_openvlaoft.yaml‎
Lines changed: 2 additions & 2 deletions b/‎examples/embodiment/config/behavior_ppo_openvlaoft.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/embodiment/config/calvin_d_d_ppo_openpi.yaml‎
Lines changed: 1 addition & 1 deletion b/‎examples/embodiment/config/calvin_d_d_ppo_openpi.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/embodiment/config/calvin_d_d_ppo_openpi_pi05.yaml‎
Lines changed: 1 addition & 1 deletion b/‎examples/embodiment/config/calvin_d_d_ppo_openpi_pi05.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/embodiment/config/env/libero_10.yaml‎
Lines changed: 3 additions & 0 deletions b/‎examples/embodiment/config/env/libero_10.yaml‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎examples/embodiment/config/env/libero_130.yaml‎
Lines changed: 3 additions & 0 deletions b/‎examples/embodiment/config/env/libero_130.yaml‎
Lines changed: 3 additions & 0 deletions
@@ -137,7 +137,7 @@ algorithm
     use_valid_token_scale: False
 
     sampling_params:
-      use_greedy: False
+      do_sample: True
       temperature: 1.0
       top_k: 1000000
       top_p: 1.0
@@ -174,7 +174,7 @@ algorithm
 
 **sampling_params:**
 
-``algorithm.sampling_params.use_greedy``: Deterministic decoding if True.
+``algorithm.sampling_params.do_sample``: Deterministic decoding if False.
 
 ``algorithm.sampling_params.temperature``: Softmax temperature during sampling.
 
 
@@ -133,7 +133,7 @@ algorithm
     use_valid_token_scale: False
 
     sampling_params:
-      use_greedy: False
+      do_sample: True
       temperature: 1.0
       top_k: 1000000
       top_p: 1.0
@@ -169,7 +169,7 @@ algorithm
 
 **sampling_params：**
 
-``algorithm.sampling_params.use_greedy``：True 时使用贪心解码。
+``algorithm.sampling_params.do_sample``：False 时使用贪心解码。
 
 ``algorithm.sampling_params.temperature``：采样温度。  
 
 
@@ -69,7 +69,7 @@ algorithm:
 
   # params for rollout
   sampling_params:
-    use_greedy: False
+    do_sample: True
     temperature: 1.0
     top_k: 1000000
     top_p: 1.0
 
@@ -86,7 +86,7 @@ algorithm:
 
   # params for rollout
   sampling_params:
-    use_greedy: False
+    do_sample: True
     temperature: 0.1
     top_k: 1000000
     top_p: 1.0
 
@@ -65,7 +65,7 @@ algorithm:
 
   # params for rollout
   sampling_params:
-    use_greedy: False
+    do_sample: True
     temperature_train: 1.0
     temperature_eval: 0.6
     top_k: 50
@@ -87,7 +87,7 @@ env:
     queue_size: 0
   enable_offload: False
 
-  # Override the default values in env/train or env/eval
+  # Override the default values in env/behavior_r1pro
   eval:
     total_num_envs: 2
     max_episode_steps: 2000 # max episode steps for truncation
 
@@ -67,7 +67,7 @@ algorithm:
 
   # params for rollout
   sampling_params:
-    use_greedy: False
+    do_sample: True
     temperature_train: 1.0
     temperature_eval: 0.6
     top_k: 50
@@ -89,7 +89,7 @@ env:
     queue_size: 0
   enable_offload: False
 
-  # Override the default values in env/train or env/eval
+  # Override the default values in env/behavior_r1pro
   train:
     total_num_envs: 2
     max_episode_steps: 2000 # max episode steps for truncation
 
@@ -67,7 +67,7 @@ algorithm:
   rewards_upper_bound: 0.9
   # params for generation
   sampling_params:
-    use_greedy: False
+    do_sample: True
     temperature_train: 1.0
     temperature_eval: 0.6
     top_k: 50
 
@@ -67,7 +67,7 @@ algorithm:
   rewards_upper_bound: 0.9
   # params for generation
   sampling_params:
-    use_greedy: False
+    do_sample: True
     temperature_train: 1.0
     temperature_eval: 0.6
     top_k: 50
 
@@ -12,6 +12,9 @@ use_ordered_reset_state_ids: False
 
 use_rel_reward: True
 reward_coef: 5.0
+
+# RLinf LiberoEnv specific settings
+reset_gripper_open: True
 is_eval: False
 
 seed: 0
 
@@ -10,6 +10,9 @@ max_episode_steps: 512 # max episode steps for truncation
 
 use_rel_reward: True
 reward_coef: 1.0
+
+# RLinf LiberoEnv specific settings
+reset_gripper_open: True
 is_eval: False
 
 seed: 0