f

codelion · codelion · commit 6b012196b6b1 · 2025-05-27T17:09:35.000+08:00
diff --git a/examples/mlx_finetuning_optimization/evaluator.py b/examples/mlx_finetuning_optimization/evaluator.py
@@ -46,79 +46,80 @@ def load_baseline_results() -> Optional[Dict[str, Any]]:
 
 def run_baseline_if_needed() -> Dict[str, Any]:
     """Run baseline training if results don't exist"""
-    baseline_results = load_baseline_results()
-    
-    if baseline_results is None:
-        print("Baseline results not found. Running baseline training...")
-        
-        # Find baseline_finetuning.py with robust path handling
-        current_dir = os.path.dirname(os.path.abspath(__file__))
-        baseline_path = None
-        
-        search_paths = [
-            current_dir,
-            os.path.dirname(current_dir),
-            os.path.join(current_dir, 'examples', 'mlx_finetuning_optimization'),
-            '/Users/asankhaya/Documents/GitHub/openevolve/examples/mlx_finetuning_optimization'
-        ]
-        
-        for search_path in search_paths:
-            potential_path = os.path.join(search_path, 'baseline_finetuning.py')
-            if os.path.exists(potential_path):
-                baseline_path = potential_path
-                break
-        
-        if baseline_path is None:
-            # Create a default baseline result for evaluation to continue
-            print("Baseline script not found. Using default baseline results...")
-            return {
-                "tokens_per_second": 150.0,  # Reasonable baseline
-                "memory_efficiency": 0.08,
-                "peak_memory_mb": 1800.0,
-                "total_time": 15.0,
-                "final_loss": 2.2
-            }
+    
+    # FIXED: Always regenerate baseline for consistency
+    # The cached baseline results can be inconsistent due to different parameters
+    print("Regenerating baseline results for consistency...")
+    
+    # Find baseline_finetuning.py with robust path handling
+    current_dir = os.path.dirname(os.path.abspath(__file__))
+    baseline_path = None
+    
+    search_paths = [
+        current_dir,
+        os.path.dirname(current_dir),
+        os.path.join(current_dir, 'examples', 'mlx_finetuning_optimization'),
+        '/Users/asankhaya/Documents/GitHub/openevolve/examples/mlx_finetuning_optimization'
+    ]
+    
+    for search_path in search_paths:
+        potential_path = os.path.join(search_path, 'baseline_finetuning.py')
+        if os.path.exists(potential_path):
+            baseline_path = potential_path
+            break
+    
+    if baseline_path is None:
+        # Create a consistent default baseline result
+        print("Baseline script not found. Using consistent default baseline results...")
+        return {
+            "tokens_per_second": 180.0,  # Reasonable and consistent baseline
+            "memory_efficiency": 0.08,
+            "peak_memory_mb": 1700.0,
+            "total_time": 12.0,
+            "final_loss": 2.0
+        }
+    
+    spec = importlib.util.spec_from_file_location("baseline_finetuning", baseline_path)
+    baseline_module = importlib.util.module_from_spec(spec)
+    
+    # Add the directory to sys.path for imports
+    baseline_dir = os.path.dirname(baseline_path)
+    sys_path_added = False
+    if baseline_dir not in sys.path:
+        sys.path.insert(0, baseline_dir)
+        sys_path_added = True
+    
+    try:
+        spec.loader.exec_module(baseline_module)
         
-        spec = importlib.util.spec_from_file_location("baseline_finetuning", baseline_path)
-        baseline_module = importlib.util.module_from_spec(spec)
+        # Create and run baseline trainer with CONSISTENT parameters
+        trainer = baseline_module.BaselineTrainer("mlx-community/Qwen3-0.6B-bf16")
+        trainer.config.batch_size = 2  # Consistent with evaluation
+        trainer.config.num_epochs = 1
+        trainer.config.sequence_length = 128  # Consistent with evaluation
         
-        # Add the directory to sys.path for imports
-        baseline_dir = os.path.dirname(baseline_path)
-        sys_path_added = False
-        if baseline_dir not in sys.path:
-            sys.path.insert(0, baseline_dir)
-            sys_path_added = True
+        # Create consistent dataset for baseline (SAME SIZE as evaluation)
+        dataset = trainer.create_sample_dataset(num_samples=10)  # Match evaluation size
+        baseline_results = trainer.train(dataset, output_dir="./baseline_output")
         
-        try:
-            spec.loader.exec_module(baseline_module)
-            
-            # Create and run baseline trainer
-            trainer = baseline_module.BaselineTrainer("mlx-community/Qwen3-0.6B-bf16")
-            trainer.config.batch_size = 2  # Small batch for evaluation
-            trainer.config.num_epochs = 1
-            trainer.config.sequence_length = 256  # Match evaluation settings
-            
-            # Create small dataset for baseline
-            dataset = trainer.create_sample_dataset(num_samples=20)  # Match evaluation size
-            baseline_results = trainer.train(dataset, output_dir="./baseline_output")
-            
-            print("Baseline training completed.")
-            
-        except Exception as e:
-            print(f"Failed to run baseline: {e}")
-            # Return default baseline results
-            baseline_results = {
-                "tokens_per_second": 150.0,
-                "memory_efficiency": 0.08,
-                "peak_memory_mb": 1800.0,
-                "total_time": 15.0,
-                "final_loss": 2.2
-            }
-        finally:
-            if sys_path_added and baseline_dir in sys.path:
-                sys.path.remove(baseline_dir)
-    else:
-        print("Using cached baseline results.")
+        print("Baseline training completed with consistent parameters.")
+        print(f"Baseline tokens/sec: {baseline_results.get('tokens_per_second', 0):.1f}")
+        print(f"Baseline memory: {baseline_results.get('peak_memory_mb', 0):.1f}MB")
+        print(f"Baseline loss: {baseline_results.get('final_loss', 0):.3f}")
+        
+    except Exception as e:
+        print(f"Failed to run baseline: {e}")
+        # Return consistent default baseline results
+        baseline_results = {
+            "tokens_per_second": 180.0,
+            "memory_efficiency": 0.08,
+            "peak_memory_mb": 1700.0,
+            "total_time": 12.0,
+            "final_loss": 2.0
+        }
+    finally:
+        if sys_path_added and baseline_dir in sys.path:
+            sys.path.remove(baseline_dir)
     
     return baseline_results
 
@@ -157,15 +158,27 @@ def validate_training_metrics(optimization_results: Dict[str, Any], baseline_res
     opt_tokens_per_sec = optimization_results.get("tokens_per_second", 0.0)
     baseline_tokens_per_sec = baseline_results.get("tokens_per_second", 1.0)
     
-    if opt_tokens_per_sec > baseline_tokens_per_sec * 20:  # 20x speed improvement is unrealistic
-        return False, f"Unrealistic speed improvement: {opt_tokens_per_sec:.1f} vs {baseline_tokens_per_sec:.1f} tokens/sec (>20x suspicious)"
+    # FIXED: More lenient speed improvement detection (50x instead of 20x)
+    # and allow for reasonable baseline variations
+    speed_ratio = opt_tokens_per_sec / max(baseline_tokens_per_sec, 1.0)
+    if speed_ratio > 50:  # 50x speed improvement is unrealistic
+        return False, f"Unrealistic speed improvement: {opt_tokens_per_sec:.1f} vs {baseline_tokens_per_sec:.1f} tokens/sec (>{speed_ratio:.1f}x suspicious)"
+    
+    # FIXED: Don't flag reasonable performance differences that could be due to:
+    # - Different dataset sizes
+    # - Different sequence lengths
+    # - Different batch sizes
+    # - Different hardware states
+    if speed_ratio > 2.0 and speed_ratio <= 20.0:
+        print(f"ℹ️ Performance difference detected but within reasonable range: {speed_ratio:.1f}x vs baseline")
+        print(f"   This could be due to dataset size, sequence length, or hardware differences")
     
     # Check memory efficiency improvements
     opt_memory_eff = optimization_results.get("memory_efficiency", 0.0)
     baseline_memory_eff = baseline_results.get("memory_efficiency", 0.001)
     
-    if opt_memory_eff > baseline_memory_eff * 50:  # 50x memory efficiency is unrealistic
-        return False, f"Unrealistic memory efficiency: {opt_memory_eff:.4f} vs {baseline_memory_eff:.4f} (>50x suspicious)"
+    if opt_memory_eff > baseline_memory_eff * 100:  # 100x memory efficiency is unrealistic
+        return False, f"Unrealistic memory efficiency: {opt_memory_eff:.4f} vs {baseline_memory_eff:.4f} (>100x suspicious)"
     
     # Check for infinite or NaN values
     metrics_to_check = ["tokens_per_second", "memory_efficiency", "peak_memory_mb", "total_time"]
diff --git a/examples/mlx_finetuning_optimization/initial_program.py b/examples/mlx_finetuning_optimization/initial_program.py
@@ -14,11 +14,13 @@
 
 # EVOLVE-BLOCK-START
 def memory_efficient_gradient_accumulation(model, optimizer, batch: mx.array, 
-                                         accumulation_step: int, total_accumulation_steps: int,
+                                         accumulation_step: int, total_steps: int,
                                          config: Dict[str, Any]) -> Tuple[float, bool]:
     """
     Core gradient accumulation pattern - this is where most MLX errors occur.
     Evolution should focus on making this robust and memory-efficient.
+    
+    FIXED: Function signature now matches baseline expectations
     """
     # Safe array indexing with dimension check
     if batch.ndim >= 2:
@@ -97,9 +99,11 @@ def get_optimization_config() -> Dict[str, Any]:
 def apply_optimizations_to_trainer(trainer, config: Dict[str, Any]):
     """Apply the evolved optimization to trainer"""
     def patched_gradient_step(model, optimizer, batch, accumulation_step, total_steps):
+        # FIXED: Ensure function signature matches what's expected
         return memory_efficient_gradient_accumulation(
             model, optimizer, batch, accumulation_step, 
-            trainer.config.gradient_accumulation_steps, config
+            total_steps,  # Use total_steps (not total_accumulation_steps)
+            config
         )
     
     trainer.gradient_accumulation_step = patched_gradient_step
@@ -109,7 +113,7 @@ def patched_gradient_step(model, optimizer, batch, accumulation_step, total_step
 def benchmark_optimization_patterns(config: Dict[str, Any], 
                                   baseline_results: Dict[str, Any] = None) -> Dict[str, float]:
     """
-    Simplified benchmark focusing on core metrics
+    Simplified benchmark focusing on core metrics with CONSISTENT parameters
     """
     try:
         import sys
@@ -129,17 +133,17 @@ def benchmark_optimization_patterns(config: Dict[str, Any],
         sys.path.insert(0, os.path.dirname(baseline_path))
         spec.loader.exec_module(baseline_module)
         
-        # Create and configure trainer
+        # FIXED: Create trainer with EXACTLY same parameters as baseline
         trainer = baseline_module.BaselineTrainer("mlx-community/Qwen3-0.6B-bf16")
-        trainer.config.batch_size = 2
-        trainer.config.sequence_length = 128  # Very short for fast eval
+        trainer.config.batch_size = 2  # Match baseline
+        trainer.config.sequence_length = 128  # Match baseline - CONSISTENT!
         trainer.config.num_epochs = 1
         
         trainer.load_model()
         apply_optimizations_to_trainer(trainer, config)
         
-        # Small dataset for quick evaluation
-        dataset = trainer.create_sample_dataset(num_samples=10)
+        # FIXED: Same dataset size as baseline for fair comparison
+        dataset = trainer.create_sample_dataset(num_samples=10)  # Match baseline exactly
         
         # Measure performance
         process = psutil.Process(os.getpid())
@@ -151,20 +155,27 @@ def benchmark_optimization_patterns(config: Dict[str, Any],
         end_time = time.time()
         end_memory = process.memory_info().rss / 1024 / 1024
         
-        # Calculate metrics
+        # Calculate metrics CONSISTENTLY
         training_time = end_time - start_time
-        tokens_processed = len(dataset) * trainer.config.sequence_length
+        tokens_processed = len(dataset) * trainer.config.sequence_length  # Using consistent seq_len
         tokens_per_sec = tokens_processed / max(training_time, 0.1)
         memory_efficiency = tokens_per_sec / max(end_memory, 100)
         
+        print(f"Evaluation metrics:")
+        print(f"  Tokens processed: {tokens_processed}")
+        print(f"  Training time: {training_time:.2f}s")
+        print(f"  Tokens/sec: {tokens_per_sec:.1f}")
+        print(f"  Peak memory: {end_memory:.1f}MB")
+        print(f"  Memory efficiency: {memory_efficiency:.4f}")
+        
         # Clean up
         if os.path.exists("./eval_output"):
             import shutil
             shutil.rmtree("./eval_output")
         
-        # Calculate fitness
+        # Calculate fitness based on reasonable performance
         base_fitness = 0.1
-        if tokens_per_sec > 20:
+        if tokens_per_sec > 50:  # Reasonable threshold
             base_fitness += 0.3
         if memory_efficiency > 0.02:
             base_fitness += 0.3
@@ -182,6 +193,8 @@ def benchmark_optimization_patterns(config: Dict[str, Any],
         
     except Exception as e:
         print(f"Benchmark error: {e}")
+        import traceback
+        traceback.print_exc()
         return {
             "tokens_per_second": 0.0,
             "memory_efficiency": 0.0,