PufferAI
diff --git a/‎.github/workflows/install.yml‎
Lines changed: 7 additions & 1 deletion b/‎.github/workflows/install.yml‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎pufferlib/config/nethack.ini‎
Lines changed: 22 additions & 7 deletions b/‎pufferlib/config/nethack.ini‎
Lines changed: 22 additions & 7 deletions
diff --git a/‎pufferlib/config/ocean/breakout.ini‎
Lines changed: 15 additions & 1 deletion b/‎pufferlib/config/ocean/breakout.ini‎
Lines changed: 15 additions & 1 deletion
diff --git a/‎pufferlib/config/ocean/cartpole.ini‎
Lines changed: 6 additions & 0 deletions b/‎pufferlib/config/ocean/cartpole.ini‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎pufferlib/config/ocean/chain_mdp.ini‎
Lines changed: 24 additions & 0 deletions b/‎pufferlib/config/ocean/chain_mdp.ini‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎pufferlib/config/ocean/gpudrive.ini‎ ‎pufferlib/config/ocean/drive.ini‎pufferlib/config/ocean/gpudrive.ini renamed to pufferlib/config/ocean/drive.ini
Lines changed: 9 additions & 9 deletions b/‎pufferlib/config/ocean/gpudrive.ini‎ ‎pufferlib/config/ocean/drive.ini‎pufferlib/config/ocean/gpudrive.ini renamed to pufferlib/config/ocean/drive.ini
Lines changed: 9 additions & 9 deletions
diff --git a/‎pufferlib/config/ocean/impulse_wars.ini‎
Lines changed: 73 additions & 1 deletion b/‎pufferlib/config/ocean/impulse_wars.ini‎
Lines changed: 73 additions & 1 deletion
diff --git a/‎pufferlib/config/ocean/memory.ini‎
Lines changed: 15 additions & 0 deletions b/‎pufferlib/config/ocean/memory.ini‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎pufferlib/config/ocean/onestateworld.ini‎
Lines changed: 20 additions & 0 deletions b/‎pufferlib/config/ocean/onestateworld.ini‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎pufferlib/config/ocean/cpr.ini‎ ‎pufferlib/config/ocean/shared_pool.ini‎pufferlib/config/ocean/cpr.ini renamed to pufferlib/config/ocean/shared_pool.ini
Lines changed: 1 addition & 1 deletion b/‎pufferlib/config/ocean/cpr.ini‎ ‎pufferlib/config/ocean/shared_pool.ini‎pufferlib/config/ocean/cpr.ini renamed to pufferlib/config/ocean/shared_pool.ini
Lines changed: 1 addition & 1 deletion
@@ -43,5 +43,11 @@ jobs:
       - name: Upgrade pip
         run: python -m pip install -U pip
 
+      - name: Install build dependencies
+        run: pip install --upgrade "setuptools>=69.0.0" "packaging>=24.2" "numpy<2.0" wheel
+
+      - name: Install PyTorch CPU  
+        run: pip install torch --index-url https://download.pytorch.org/whl/cpu
+      
       - name: Install pufferlib
-        run: pip install -e .
+        run: pip install -e . --no-build-isolation
@@ -1,16 +1,31 @@
 [base]
 package = nethack
 env_name = nethack
+policy_name = Policy
+rnn_name = Recurrent
 
 [vec]
-num_envs = 128
+num_envs = 8192
 num_workers = 16
-batch_size = 64
+batch_size = 4096
 
 [train]
-batch_size = 8192
-minibatch_size = 2048
-update_epochs = 1
+total_timesteps = 90_000_000
+adam_beta1 = 0.8946507418260217
+adam_beta2 = 0.9
+adam_eps = 0.0001
+batch_size = auto
 bptt_horizon = 64
-total_timesteps = 10_000_000
-anneal_lr = False
+clip_coef = 0.19696765958267629
+ent_coef = 0.0005690816545012474
+gae_lambda = 0.747650023961198
+gamma = 0.9997053654668936
+learning_rate = 0.044482546441415506
+max_grad_norm = 2.2356112188495723
+minibatch_size = 32768
+prio_alpha = 0.98967001208896
+prio_beta0 = 0.09999999999999998
+vf_clip_coef = 2.178492167689251
+vf_coef = 1.6832989594296321
+vtrace_c_clip = 2.878171091654008
+vtrace_rho_clip = 0.7876748061547312
@@ -10,7 +10,21 @@ num_envs = 8
 [env]
 num_envs = 1024
 frameskip = 4
-
+width = 576
+height = 330
+paddle_width = 62
+paddle_height = 8
+ball_width = 32
+ball_height = 32
+brick_width = 32
+brick_height = 12
+brick_rows = 6
+brick_cols = 18
+initial_ball_speed = 256
+max_ball_speed = 448
+paddle_speed = 620
+continuous = 0
+ 
 [policy]
 hidden_size = 128
 
 
@@ -6,6 +6,12 @@ rnn_name = Recurrent
 
 [env]
 num_envs = 4096
+cart_mass = 1.0
+pole_mass = 0.1
+pole_length = 0.5
+gravity = 9.8
+force_mag = 10.0
+dt = 0.02
 
 [train]
 total_timesteps = 20_000_000
 
@@ -0,0 +1,24 @@
+[base]
+package = ocean
+env_name = puffer_chain_mdp
+policy_name = Policy
+; rnn_name = Recurrent
+
+[vec]
+num_envs = 8
+
+[env]
+num_envs = 512
+size = 128
+
+[policy]
+hidden_size = 128
+
+; [rnn]
+; input_size = 128
+; hidden_size = 128
+
+[train]
+total_timesteps = 5_000_000
+bptt_horizon = 64
+entropy_coef = 0.1
@@ -1,7 +1,7 @@
 [base]
 package = ocean
-env_name = puffer_gpudrive
-policy_name = GPUDrive
+env_name = puffer_drive
+policy_name = Drive
 rnn_name = Recurrent
 
 [vec]
@@ -12,11 +12,11 @@ batch_size = 2
 
 [policy]
 input_size = 64
-hidden_size = 512
+hidden_size = 256
 
 [rnn]
-input_size = 512
-hidden_size = 512
+input_size = 256
+hidden_size = 256
 
 [env]
 num_agents = 1024
@@ -25,11 +25,11 @@ reward_offroad_collision = -0.2
 spawn_immunity_timer = 50   
 reward_goal_post_respawn = 0.25
 reward_vehicle_collision_post_respawn = -0.5
-resample_frequency = 91
-num_maps = 1000
+resample_frequency = 910
+num_maps = 80000
 
 [train]
-total_timesteps = 1_000_000_000
+total_timesteps = 2_000_000_000
 #learning_rate = 0.02
 #gamma = 0.985
 anneal_lr = True
@@ -44,7 +44,7 @@ clip_coef = 0.2
 ent_coef = 0.001
 gae_lambda = 0.95
 gamma = 0.98
-learning_rate = 0.01
+learning_rate = 0.001
 max_grad_norm = 1
 prio_alpha = 0.8499999999999999
 prio_beta0 = 0.8499999999999999
 
@@ -30,7 +30,7 @@ continuous = False
 is_training = True
 
 [train]
-total_timesteps = 100_000_000
+total_timesteps = 1_000_000_000
 checkpoint_interval = 250
 
 learning_rate = 0.005
@@ -47,6 +47,78 @@ max = 512
 mean = 128
 scale = auto
 
+# reward parameters
+[sweep.env.reward_win]
+distribution = uniform
+min = 0.0
+mean = 2.0
+max = 5.0
+scale = auto
+
+[sweep.env.reward_self_kill]
+distribution = uniform
+min = -3.0
+mean = -1.0
+max = 0.0
+scale = auto
+
+[sweep.env.reward_enemy_death]
+distribution = uniform
+min = 0.0
+mean = 1.0
+max = 3.0
+scale = auto
+
+[sweep.env.reward_kill]
+distribution = uniform
+min = 0.0
+mean = 1.0
+max = 3.0
+scale = auto
+
+[sweep.env.reward_death]
+distribution = uniform
+min = -1.0
+mean = -0.25
+max = 0.0
+scale = auto
+
+[sweep.env.reward_energy_emptied]
+distribution = uniform
+min = -2.0
+mean = -0.75
+max = 0.0
+scale = auto
+
+[sweep.env.reward_weapon_pickup]
+distribution = uniform
+min = 0.0
+mean = 0.5
+max = 3.0
+scale = auto
+
+[sweep.env.reward_shield_break]
+distribution = uniform
+min = 0.0
+mean = 0.5
+max = 3.0
+scale = auto
+
+[sweep.env.reward_shot_hit_coef]
+distribution = log_normal
+min = 0.0005
+mean = 0.005
+max = 0.05
+scale = auto
+
+[sweep.env.reward_explosion_hit_coef]
+distribution = log_normal
+min = 0.0005
+mean = 0.005
+max = 0.05
+scale = auto
+
+# hyperparameters
 [sweep.train.total_timesteps]
 distribution = log_normal
 min = 250_000_000
 
@@ -0,0 +1,15 @@
+[base]
+package = ocean
+env_name = puffer_memory
+policy_name = Policy
+rnn_name = Recurrent
+
+[env]
+num_envs = 1024
+
+[vec]
+num_envs = 8
+
+[train]
+total_timesteps = 50_000_000
+minibatch_size = 32768
@@ -0,0 +1,20 @@
+[base]
+package = ocean
+env_name = puffer_onestateworld
+policy_name = Policy
+rnn_name = None
+
+[vec]
+num_envs = 8
+
+[env]
+num_envs = 512
+mean_left = 0.1
+mean_right = 0.5
+var_right = 10
+
+[policy]
+hidden_size = 128
+
+[train]
+total_timesteps = 5_000_000
@@ -1,6 +1,6 @@
 [base]
 package = ocean
-env_name = puffer_cpr
+env_name = puffer_shared_pool
 rnn_name = Recurrent
 
 [env]