updating random --> rng

klopsahlong · klopsahlong · commit c9778a356300 · 2024-10-11T19:20:32.000-07:00
diff --git a/dspy/propose/grounded_proposer.py b/dspy/propose/grounded_proposer.py
@@ -259,6 +259,7 @@ def __init__(
         set_tip_randomly=True,
         set_history_randomly=True,
         verbose=False,
+        rng=None
     ):
         super().__init__()
         self.program_aware = program_aware
@@ -269,6 +270,7 @@ def __init__(
         self.set_tip_randomly=set_tip_randomly
         self.set_history_randomly=set_history_randomly
         self.verbose = verbose
+        self.rng = rng or random
 
         self.prompt_model = get_prompt_model(prompt_model)
 
@@ -309,7 +311,7 @@ def propose_instructions_for_program(
 
         if self.set_history_randomly:
             # Randomly select whether or not we're using instruction history
-            use_history = random.random() < 0.5
+            use_history = self.rng.random() < 0.5
             self.use_instruct_history = use_history
             if self.verbose: print(f"Use history T/F: {self.use_instruct_history}")
 
@@ -327,7 +329,7 @@ def propose_instructions_for_program(
                 if self.set_tip_randomly:
                     if self.verbose: print("Using a randomly generated configuration for our grounded proposer.")
                     # Randomly select the tip
-                    selected_tip_key = random.choice(list(TIPS.keys()))
+                    selected_tip_key = self.rng.choice(list(TIPS.keys()))
                     selected_tip = TIPS[selected_tip_key]
                     self.use_tip = bool(
                         selected_tip,
diff --git a/dspy/teleprompt/mipro_optimizer_v2.py b/dspy/teleprompt/mipro_optimizer_v2.py
@@ -87,6 +87,7 @@ def __init__(
         self.max_errors = max_errors
         self.metric_threshold = metric_threshold
         self.seed = seed
+        self.rng = None
 
     def compile(
         self,
@@ -110,8 +111,7 @@ def compile(
     ) -> Any:
         # Set random seeds
         seed = seed or self.seed
-        random.seed(seed)
-        np.random.seed(seed)
+        self._set_random_seeds(seed)
 
         # Update max demos if specified
         if max_bootstrapped_demos is not None:
@@ -197,6 +197,12 @@ def compile(
         )
 
         return best_program
+    
+    def _set_random_seeds(self,
+        seed
+    ):
+        self.rng = random.Random(seed)
+        np.random.seed(seed)
 
     def _set_hyperparams_from_run_mode(
         self,
@@ -215,7 +221,7 @@ def _set_hyperparams_from_run_mode(
 
         auto_settings = AUTO_RUN_SETTINGS[self.auto]
         num_trials = auto_settings["num_trials"]
-        valset = create_minibatch(valset, batch_size=auto_settings["val_size"])
+        valset = create_minibatch(valset, batch_size=auto_settings["val_size"], rng=self.rng)
         minibatch = len(valset) > MIN_MINIBATCH_SIZE
         self.num_candidates = int(
             np.round(np.min([num_trials * num_vars, (1.5 * num_trials) / num_vars]))
@@ -395,6 +401,7 @@ def _bootstrap_fewshot_examples(
                 teacher_settings=self.teacher_settings,
                 seed=seed,
                 metric_threshold=self.metric_threshold,
+                rng=self.rng,
             )
         except Exception as e:
             print(f"Error generating few-shot examples: {e}")
@@ -432,6 +439,7 @@ def _propose_instructions(
             use_instruct_history=False,
             set_history_randomly=False,
             verbose=self.verbose,
+            rng=self.rng
         )
 
         print("\nProposing instructions...\n")
@@ -467,7 +475,7 @@ def _optimize_prompt_parameters(
         seed: int,
     ) -> Optional[Any]:
         print("Evaluating the default program...\n")
-        default_score = eval_candidate_program(len(valset), valset, program, evaluate)
+        default_score = eval_candidate_program(len(valset), valset, program, evaluate, self.rng)
         print(f"Default program score: {default_score}\n")
 
         # Initialize optimization variables
@@ -521,7 +529,7 @@ def objective(trial):
             # Evaluate the candidate program
             batch_size = minibatch_size if minibatch else len(valset)
             score = eval_candidate_program(
-                batch_size, valset, candidate_program, evaluate
+                batch_size, valset, candidate_program, evaluate, self.rng
             )
 
             # Update best score and program
@@ -690,7 +698,7 @@ def _perform_full_evaluation(
             f"Doing full eval on next top averaging program (Avg Score: {mean_score}) from minibatch trials..."
         )
         full_eval_score = eval_candidate_program(
-            len(valset), valset, highest_mean_program, evaluate
+            len(valset), valset, highest_mean_program, evaluate, self.rng
         )
         full_eval_scores.append(full_eval_score)
 
diff --git a/dspy/teleprompt/utils.py b/dspy/teleprompt/utils.py
@@ -24,22 +24,25 @@
 ### OPTIMIZER TRAINING UTILS ###
 
 
-def create_minibatch(trainset, batch_size=50):
+def create_minibatch(trainset, batch_size=50, rng=None):
     """Create a minibatch from the trainset."""
 
     # Ensure batch_size isn't larger than the size of the dataset
     batch_size = min(batch_size, len(trainset))
 
-    # Randomly sample indices for the mini-batch
-    sampled_indices = random.sample(range(len(trainset)), batch_size)
+    # If no RNG is provided, fall back to the global random instance
+    rng = rng or random
+
+    # Randomly sample indices for the mini-batch using the provided rng
+    sampled_indices = rng.sample(range(len(trainset)), batch_size)
 
     # Create the mini-batch using the sampled indices
     minibatch = [trainset[i] for i in sampled_indices]
 
     return minibatch
 
 
-def eval_candidate_program(batch_size, trainset, candidate_program, evaluate):
+def eval_candidate_program(batch_size, trainset, candidate_program, evaluate, rng=None):
     """Evaluate a candidate program on the trainset, using the specified batch size."""
     # Evaluate on the full trainset
     if batch_size >= len(trainset):
@@ -48,7 +51,7 @@ def eval_candidate_program(batch_size, trainset, candidate_program, evaluate):
     else:
         score = evaluate(
             candidate_program,
-            devset=create_minibatch(trainset, batch_size),
+            devset=create_minibatch(trainset, batch_size, rng),
         )
 
     return score
@@ -279,6 +282,7 @@ def create_n_fewshot_demo_sets(
     teacher=None,
     include_non_bootstrapped=True,
     seed=0,
+    rng=None
 ):
     """
     This function is copied from random_search.py, and creates fewshot examples in the same way that random search does.
@@ -292,17 +296,15 @@ def create_n_fewshot_demo_sets(
     # Initialize demo_candidates dictionary
     for i, _ in enumerate(student.predictors()):
         demo_candidates[i] = []
-    
-    starter_seed = seed
-    # Shuffle the trainset with the starter seed
-    random.Random(starter_seed).shuffle(trainset)
+
+    rng = rng or random.Random(seed)
 
     # Go through and create each candidate set
     for seed in range(-3, num_candidate_sets):
 
         print(f"Bootstrapping set {seed+4}/{num_candidate_sets+3}")
 
-        trainset2 = list(trainset)
+        trainset_copy = list(trainset)
 
         if seed == -3 and include_non_bootstrapped:
             # zero-shot
@@ -316,7 +318,7 @@ def create_n_fewshot_demo_sets(
             # labels only
             teleprompter = LabeledFewShot(k=max_labeled_demos)
             program2 = teleprompter.compile(
-                student, trainset=trainset2, sample=labeled_sample,
+                student, trainset=trainset_copy, sample=labeled_sample,
             )
 
         elif seed == -1:
@@ -329,12 +331,12 @@ def create_n_fewshot_demo_sets(
                 teacher_settings=teacher_settings,
                 max_rounds=max_rounds,
             )
-            program2 = program.compile(student, teacher=teacher, trainset=trainset2)
+            program2 = program.compile(student, teacher=teacher, trainset=trainset_copy)
 
         else:
             # shuffled few-shot
-            random.Random(seed).shuffle(trainset2)
-            size = random.Random(seed).randint(min_num_samples, max_bootstrapped_demos)
+            rng.shuffle(trainset_copy)
+            size = rng.randint(min_num_samples, max_bootstrapped_demos)
 
             teleprompter = BootstrapFewShot(
                 metric=metric,
@@ -347,7 +349,7 @@ def create_n_fewshot_demo_sets(
             )
 
             program2 = teleprompter.compile(
-                student, teacher=teacher, trainset=trainset2,
+                student, teacher=teacher, trainset=trainset_copy,
             )
 
         for i, _ in enumerate(student.predictors()):