add replication run wandb

kywch · kywch · commit 2b5012911531 · 2025-11-13T10:10:22.000-08:00
diff --git a/pufferlib/config/ocean/g2048.ini b/pufferlib/config/ocean/g2048.ini
@@ -5,12 +5,9 @@ policy_name = G2048
 rnn_name = Recurrent
 
 [policy]
-; hidden_size = 256
 hidden_size = 512
 
 [rnn]
-; input_size = 256
-; hidden_size = 256
 input_size = 512
 hidden_size = 512
 
@@ -26,10 +23,8 @@ use_heuristic_rewards = True
 snake_reward_weight = 0.0005
 
 [train]
-# 256 hidden: https://wandb.ai/kywch/pufferlib/runs/nvd0pfuj?nw=nwuserkywch
-# 512 hidden: https://wandb.ai/kywch/pufferlib/runs/2ch3my60?nw=nwuserkywch
+# 512 hidden: https://wandb.ai/kywch/pufferlib/runs/5thsjr61?nw=nwuserkywch
 total_timesteps = 6_767_676_767
-; total_timesteps = 1_000_000_000
 anneal_lr = True
 min_learning_rate = 0.00005
 batch_size = auto
@@ -43,11 +38,6 @@ gamma = 0.99567
 vf_clip_coef = 0.167
 vf_coef = 2.0
 
-# for 256 hidden
-; learning_rate = 0.0005
-; max_grad_norm = 0.5
-
-# for 512 hidden
 learning_rate = 0.000467
 max_grad_norm = 0.5
 
diff --git a/pufferlib/ocean/g2048/eval.py b/pufferlib/ocean/g2048/eval.py
@@ -57,7 +57,15 @@ def evaluate(env_name, load_model_path):
     Episode length -- Avg: 21539.7, Max: 29680.3
     Merge score -- Avg: 618011.8, Max: 918755.8
     Reached 32768 prob: 68.25 %
-    Reached 65536 prob: 13.09 %    
+    Reached 65536 prob: 13.09 %
+
+    # hidden 512 (replication): https://wandb.ai/kywch/pufferlib/runs/5thsjr61?nw=nwuserkywch
+    Num episodes: 115652
+    Max tile avg: 31773.2
+    Episode length -- Avg: 22196.4, Max: 30316.5
+    Merge score -- Avg: 639395.6, Max: 909969.8
+    Reached 32768 prob: 71.22 %
+    Reached 65536 prob: 14.75 %
     """
 
 def finetune(env_name, load_model_path):
@@ -80,5 +88,5 @@ def finetune(env_name, load_model_path):
     pufferl.train(env_name, args)
 
 if __name__ == '__main__':
-    evaluate('puffer_g2048', load_model_path='puffer_g2048_2ch3my60.pt')
+    evaluate('puffer_g2048', load_model_path='puffer_g2048_5thsjr61.pt')
     # finetune('puffer_g2048', load_model_path='puffer_g2048_256_base.pt')