agentscope-ai
diff --git a/‎docs/sphinx_doc/assets/email_eval_accuracy.png‎
-15.8 KB b/‎docs/sphinx_doc/assets/email_eval_accuracy.png‎
-15.8 KB
diff --git a/‎docs/sphinx_doc/assets/email_reward_mean.png‎
464 KB b/‎docs/sphinx_doc/assets/email_reward_mean.png‎
464 KB
diff --git a/‎docs/sphinx_doc/assets/email_rollout_accuracy.png‎
-50.4 KB b/‎docs/sphinx_doc/assets/email_rollout_accuracy.png‎
-50.4 KB
diff --git a/‎docs/sphinx_doc/source/tutorial/example_search_email.md‎
Lines changed: 1 addition & 0 deletions b/‎docs/sphinx_doc/source/tutorial/example_search_email.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎docs/sphinx_doc/source_zh/tutorial/example_search_email.md‎
Lines changed: 2 additions & 0 deletions b/‎docs/sphinx_doc/source_zh/tutorial/example_search_email.md‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎examples/grpo_email_search/email_search.yaml‎
Lines changed: 24 additions & 2 deletions b/‎examples/grpo_email_search/email_search.yaml‎
Lines changed: 24 additions & 2 deletions
@@ -48,5 +48,6 @@ The results are shown in the following figure (the accuracy ranges from -0.1 to
 
 ![](../../assets/email_rollout_accuracy.png)
 
+![](../../assets/email_reward_mean.png)
 
 ![](../../assets/email_eval_accuracy.png)
@@ -44,4 +44,6 @@ trinity run --config examples/grpo_email_search/email_search.yaml
 
 ![](../../assets/email_rollout_accuracy.png)
 
+![](../../assets/email_reward_mean.png)
+
 ![](../../assets/email_eval_accuracy.png)
@@ -6,6 +6,20 @@ algorithm:
   repeat_times: 8
   optimizer:
     lr: 1e-6
+  policy_loss_fn: "rec"
+  policy_loss_fn_args:
+    epsilon_low: 0.2
+    epsilon_high: 0.2
+    clip_mode: "one-side"
+    weight: "none"
+    temp: 1.0
+    regularizer: "none"
+    regularizer_coef: 0.0
+  kl_loss_fn: 'k2'
+  kl_loss_fn_args:
+    kl_coef: 0.0
+  advantage_fn_args:
+    std_cal_level: 'batch'
 model:
   model_path: ${oc.env:TRINITY_MODEL_PATH,Qwen/Qwen3-4B-Instruct-2507}
   max_response_tokens: 4096
@@ -15,8 +29,8 @@ cluster:
   gpu_per_node: 8
 buffer:
   total_epochs: 1
-  batch_size: 16
-  train_batch_size: 640 # 16*8*5
+  batch_size: 64
+  train_batch_size: 2560 # 64*8*5
   explorer_input:
     taskset:
       name: enron_train
@@ -56,6 +70,12 @@ buffer:
       storage_type: queue
       replay_buffer:
         enable: true
+        # reuse_cooldown_time is None
+        priority_fn: 'decay_limit_randomization'
+        priority_fn_args:
+          decay: 2.0
+          use_count_limit: 3
+          sigma: 2.0
 explorer:
   eval_interval: 10
   max_repeat_times_per_runner: 1
@@ -93,3 +113,5 @@ trainer:
   use_dynamic_bsz: true
   max_token_len_per_gpu: 16384
   ulysses_sequence_parallel_size: 1
+monitor:
+  monitor_type: wandb
Original file line number	Diff line number	Diff line change
`@@ -48,5 +48,6 @@ The results are shown in the following figure (the accuracy ranges from -0.1 to`
`48`	`48`
`49`	`49`	`![](../../assets/email_rollout_accuracy.png)`
`50`	`50`
	`51`	`+![](../../assets/email_reward_mean.png)`
`51`	`52`
`52`	`53`	`![](../../assets/email_eval_accuracy.png)`