Use .item() before casting single item NP array (#542)

boomanaiden154 · web-flow · commit c00eebcc23f5 · 2026-01-13T13:42:00.000-08:00
This is needed for compatibility with numpy 2.4.
diff --git a/compiler_opt/rl/imitation_learning/generate_bc_trajectories_lib.py b/compiler_opt/rl/imitation_learning/generate_bc_trajectories_lib.py
@@ -396,7 +396,7 @@ def compile_module(
       while curr_obs_dict.step_type != env.StepType.LAST:
         timestep = self._create_timestep(curr_obs_dict)
         action = policy(timestep)
-        add_int_feature(sequence_example, int(action),
+        add_int_feature(sequence_example, int(action.item()),
                         SequenceExampleFeatureNames.action)
         curr_obs_dict = self._env.step(action)
         curr_obs = curr_obs_dict.obs
diff --git a/compiler_opt/rl/imitation_learning/generate_bc_trajectories_test.py b/compiler_opt/rl/imitation_learning/generate_bc_trajectories_test.py
@@ -91,8 +91,8 @@ class ExplorationWithPolicyTest(tf.test.TestCase):
   def _explore_policy(self,
                       state: time_step.TimeStep) -> policy_step.PolicyStep:
     probs = [
-        0.5 * float(state.observation['feature_3'].numpy()),
-        1 - 0.5 * float(state.observation['feature_3'].numpy())
+        0.5 * float(state.observation['feature_3'].numpy().item()),
+        1 - 0.5 * float(state.observation['feature_3'].numpy().item())
     ]
     logits = [[0.0, tf.math.log(probs[1] / (1.0 - probs[1] + _eps))]]
     return policy_step.PolicyStep(