algorithmicsuperintelligence
diff --git a/‎examples/llm_prompt_optimization/README.md‎
Lines changed: 270 additions & 166 deletions b/‎examples/llm_prompt_optimization/README.md‎
Lines changed: 270 additions & 166 deletions
diff --git a/‎examples/llm_prompt_optimization/config_qwen3_baseline.yaml‎
Lines changed: 59 additions & 0 deletions b/‎examples/llm_prompt_optimization/config_qwen3_baseline.yaml‎
Lines changed: 59 additions & 0 deletions
diff --git a/‎examples/llm_prompt_optimization/config_qwen3_evolution.yaml‎
Lines changed: 67 additions & 0 deletions b/‎examples/llm_prompt_optimization/config_qwen3_evolution.yaml‎
Lines changed: 67 additions & 0 deletions
@@ -0,0 +1,59 @@
+# Configuration for baseline benchmarking with Qwen3-8B
+# Using OpenRouter API for model access
+
+# General settings
+max_iterations: 1  # Just one iteration for baseline
+checkpoint_interval: 1
+log_level: "INFO"
+diff_based_evolution: false
+max_code_length: 10000
+language: "text"
+
+# LLM Configuration for Qwen3-8B via OpenRouter
+llm:
+  api_base: "https://openrouter.ai/api/v1"
+  models:
+    - name: "qwen/qwen3-8b"  # Using exact Qwen3-8B model for GEPA comparison
+      weight: 1.0
+  
+  temperature: 0.1  # Low temperature for consistent baseline results
+  max_tokens: 4096  # Reasonable context for Qwen
+  timeout: 300  # Longer timeout for full dataset evaluation
+  retries: 3
+
+# Prompt Configuration - Not used for baseline but required
+prompt:
+  template_dir: "templates"
+  num_top_programs: 3
+  num_diverse_programs: 2
+  include_artifacts: true
+  
+  system_message: |
+    You are a helpful assistant.
+
+# Database Configuration - Minimal for baseline
+database:
+  population_size: 1
+  archive_size: 1
+  num_islands: 1
+  
+  feature_dimensions: ["prompt_length", "reasoning_strategy"]
+  feature_bins: 10
+  
+  elite_selection_ratio: 1.0
+  exploration_ratio: 0.0
+  exploitation_ratio: 0.0
+  
+  migration_interval: 10
+  migration_rate: 0.0
+
+# Evaluator Configuration for baseline
+evaluator:
+  timeout: 3600  # 1 hour timeout for full dataset
+  max_retries: 3
+  parallel_evaluations: 1  # Sequential for baseline
+  cascade_evaluation: false  # No cascading for baseline
+  
+  # Disable LLM feedback for baseline
+  use_llm_feedback: false
+  llm_feedback_weight: 0.0
@@ -0,0 +1,67 @@
+# Configuration for evolving prompts with Qwen3-8B
+# Optimized for GEPA benchmark comparison
+
+# General settings
+max_iterations: 100  # Can be overridden by command line
+checkpoint_interval: 10
+log_level: "INFO"
+diff_based_evolution: false  # Full rewrites for prompt evolution
+max_code_length: 10000
+language: "text"
+
+# LLM Configuration for Qwen3-8B via OpenRouter
+llm:
+  api_base: "https://openrouter.ai/api/v1"
+  models:
+    - name: "qwen/qwen3-8b"
+      weight: 1.0
+  
+  temperature: 0.8  # Higher temperature for creative evolution
+  max_tokens: 4096
+  timeout: 60
+  retries: 3
+
+# Prompt Configuration for evolution
+prompt:
+  template_dir: "templates"
+  num_top_programs: 5  # Show top 5 prompts for inspiration
+  num_diverse_programs: 3  # Include 3 diverse prompts
+  include_artifacts: true
+  
+  system_message: |
+    You are an expert at creating effective prompts for language models.
+    Your goal is to evolve prompts that maximize accuracy on the given task.
+    
+    When creating new prompts:
+    1. Build on successful patterns from the examples
+    2. Be creative but maintain clarity
+    3. Consider different reasoning strategies (direct, step-by-step, few-shot)
+    4. Optimize for the specific task requirements
+
+# Database Configuration for MAP-Elites
+database:
+  population_size: 50  # Moderate population for balance
+  archive_size: 500
+  num_islands: 4  # Multiple islands for diversity
+  
+  feature_dimensions: ["prompt_length", "reasoning_strategy"]
+  feature_bins: 10
+  
+  elite_selection_ratio: 0.4  # 40% elites
+  exploration_ratio: 0.3  # 30% exploration
+  exploitation_ratio: 0.3  # 30% exploitation
+  
+  migration_interval: 20
+  migration_rate: 0.1
+
+# Evaluator Configuration
+evaluator:
+  timeout: 1800  # 30 minutes timeout for complex evaluations
+  max_retries: 3
+  parallel_evaluations: 4  # Parallel evaluation for speed
+  cascade_evaluation: true  # Use cascading to save API calls
+  cascade_thresholds: [0.9]  # Only 2 stages, must achieve 90% in stage 1 to proceed
+  
+  # Enable LLM feedback for better guidance
+  use_llm_feedback: true
+  llm_feedback_weight: 0.2  # 20% weight on qualitative feedback