Add weighted LLM average to evaluation metrics

codelion · codelion · commit 5845e2fc162f · 2025-08-01T11:24:06.000+08:00
Calculates and stores a weighted average of LLM metrics in eval_result.metrics. Updates combined_score to blend accuracy and LLM quality, improving overall evaluation granularity.
diff --git a/openevolve/evaluator.py b/openevolve/evaluator.py
@@ -189,8 +189,23 @@ async def evaluate_program(
                     llm_eval_result = self._process_evaluation_result(llm_result)
 
                     # Combine metrics
+                    llm_scores = []
                     for name, value in llm_result.metrics.items():
-                        eval_result.metrics[f"llm_{name}"] = value * self.config.llm_feedback_weight
+                        weighted_value = value * self.config.llm_feedback_weight
+                        eval_result.metrics[f"llm_{name}"] = weighted_value
+                        llm_scores.append(value)  # Use unweighted value for average
+                    
+                    # Add average of LLM metrics
+                    if llm_scores:
+                        llm_average = sum(llm_scores) / len(llm_scores)
+                        eval_result.metrics["llm_average"] = llm_average * self.config.llm_feedback_weight
+                        
+                        # Recalculate combined_score if it exists
+                        if "combined_score" in eval_result.metrics:
+                            # Original combined_score is just accuracy
+                            accuracy = eval_result.metrics["combined_score"]
+                            # Combine with LLM average (70% accuracy, 30% LLM quality)
+                            eval_result.metrics["combined_score"] = accuracy * 0.7 + llm_average * 0.3
 
                 # Store artifacts if enabled and present
                 if (