stanfordnlp
diff --git a/‎README.md‎
Lines changed: 1 addition & 0 deletions b/‎README.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎dspy/teleprompt/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎dspy/teleprompt/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎dspy/teleprompt/bootstrap_finetune.py‎
Lines changed: 9 additions & 2 deletions b/‎dspy/teleprompt/bootstrap_finetune.py‎
Lines changed: 9 additions & 2 deletions
@@ -46,6 +46,7 @@ If you're looking to understand the framework, please go to the [DSPy Docs at ds
 
 If you're looking to understand the underlying research, this is a set of our papers:
 
+**[Jul'25] [GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning](https://arxiv.org/abs/2507.19457)**       
 **[Jun'24] [Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs](https://arxiv.org/abs/2406.11695)**       
 **[Oct'23] [DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)**     
 [Jul'24] [Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together](https://arxiv.org/abs/2407.10930)     
 
@@ -4,6 +4,7 @@
 from dspy.teleprompt.bootstrap_finetune import BootstrapFinetune
 from dspy.teleprompt.copro_optimizer import COPRO
 from dspy.teleprompt.ensemble import Ensemble
+from dspy.teleprompt.gepa.gepa import GEPA
 from dspy.teleprompt.infer_rules import InferRules
 from dspy.teleprompt.knn_fewshot import KNNFewShot
 from dspy.teleprompt.mipro_optimizer_v2 import MIPROv2
@@ -20,6 +21,7 @@
     "BootstrapFinetune",
     "COPRO",
     "Ensemble",
+    "GEPA",
     "KNNFewShot",
     "MIPROv2",
     "BootstrapFewShotWithRandomSearch",
 
@@ -1,7 +1,7 @@
 import logging
 from collections import defaultdict
 from dataclasses import dataclass
-from typing import Any, Callable
+from typing import Any, Callable, TypedDict
 
 import dspy
 from dspy.adapters.base import Adapter
@@ -13,6 +13,7 @@
 from dspy.predict.predict import Predict
 from dspy.primitives.example import Example
 from dspy.primitives.module import Module
+from dspy.primitives.prediction import Prediction
 from dspy.teleprompt.teleprompt import Teleprompter
 from dspy.utils.exceptions import AdapterParseError
 
@@ -220,6 +221,12 @@ class FailedPrediction:
     completion_text: str
     format_reward: float | None = None
 
+class TraceData(TypedDict):
+    example_ind: int
+    example: Example
+    prediction: Prediction
+    trace: list[tuple[Any, dict[str, Any], Prediction]]
+    score: float | None
 
 def bootstrap_trace_data(
     program: Module,
@@ -231,7 +238,7 @@ def bootstrap_trace_data(
     failure_score: float = 0,
     format_failure_score: float = -1,
     log_format_failures: bool = False,
-) -> list[dict[str, Any]]:
+) -> list[TraceData]:
     # Return a list of dicts with the following keys: example_ind, example, prediction, trace, and score
     # (if metric != None)
     evaluator = Evaluate(