lint

nina-kollman · nina-kollman · commit f64177c63025 · 2025-12-07T14:04:36.000+02:00
diff --git a/packages/traceloop-sdk/traceloop/sdk/evaluator/config.py b/packages/traceloop-sdk/traceloop/sdk/evaluator/config.py
@@ -10,7 +10,8 @@ class EvaluatorDetails(BaseModel):
         slug: The evaluator slug/identifier
         version: Optional version of the evaluator
         config: Optional configuration dictionary for the evaluator
-        required_input_fields: Optional list of required fields to the evaluator input. These fields must be present in the task output.
+        required_input_fields: Optional list of required fields to the evaluator
+            input. These fields must be present in the task output.
 
     Example:
         >>> EvaluatorDetails(slug="pii-detector", config={"probability_threshold": 0.8}, required_input_fields=["text"])
diff --git a/packages/traceloop-sdk/traceloop/sdk/evaluator/evaluators_made_by_traceloop.py b/packages/traceloop-sdk/traceloop/sdk/evaluator/evaluators_made_by_traceloop.py
@@ -171,7 +171,12 @@ def placeholder_regex(
             "multi_line": multi_line,
         }
 
-        return EvaluatorDetails(slug="placeholder-regex", version=None, config=config, required_input_fields=["text", "placeholder_value"])
+        return EvaluatorDetails(
+            slug="placeholder-regex",
+            version=None,
+            config=config,
+            required_input_fields=["text", "placeholder_value"],
+        )
 
     @staticmethod
     def char_count(
@@ -204,7 +209,12 @@ def char_count_ratio(
         """
         config: Dict[str, Any] = {}
 
-        return EvaluatorDetails(slug="char-count-ratio", version=None, config=config, required_input_fields=["numerator_text", "denominator_text"])
+        return EvaluatorDetails(
+            slug="char-count-ratio",
+            version=None,
+            config=config,
+            required_input_fields=["numerator_text", "denominator_text"],
+        )
 
     @staticmethod
     def word_count() -> EvaluatorDetails:
@@ -236,7 +246,12 @@ def word_count_ratio(
         """
         config: Dict[str, Any] = {}
 
-        return EvaluatorDetails(slug="word-count-ratio", version=None, config=config, required_input_fields=["numerator_text", "denominator_text"])
+        return EvaluatorDetails(
+            slug="word-count-ratio",
+            version=None,
+            config=config,
+            required_input_fields=["numerator_text", "denominator_text"],
+        )
 
     @staticmethod
     def answer_relevancy(
@@ -253,7 +268,12 @@ def answer_relevancy(
         """
         config: Dict[str, Any] = {}
 
-        return EvaluatorDetails(slug="answer-relevancy", version=None, config=config, required_input_fields=["question", "answer"])
+        return EvaluatorDetails(
+            slug="answer-relevancy",
+            version=None,
+            config=config,
+            required_input_fields=["question", "answer"],
+        )
 
     @staticmethod
     def faithfulness(
@@ -271,7 +291,12 @@ def faithfulness(
         """
         config: Dict[str, Any] = {}
 
-        return EvaluatorDetails(slug="faithfulness", version=None, config=config, required_input_fields=["question", "completion", "context"])
+        return EvaluatorDetails(
+            slug="faithfulness",
+            version=None,
+            config=config,
+            required_input_fields=["question", "completion", "context"],
+        )
 
     @staticmethod
     def profanity_detector() -> EvaluatorDetails:
@@ -354,7 +379,12 @@ def semantic_similarity(
         """
         config: Dict[str, Any] = {}
 
-        return EvaluatorDetails(slug="semantic-similarity", version=None, config=config, required_input_fields=["completion", "reference"])
+        return EvaluatorDetails(
+            slug="semantic-similarity",
+            version=None,
+            config=config,
+            required_input_fields=["completion", "reference"],
+        )
 
     @staticmethod
     def agent_goal_accuracy(
@@ -365,13 +395,19 @@ def agent_goal_accuracy(
         Required task output fields:
             - question: The input question or goal
             - completion: The agent's completion
+            - reference: The reference answer or goal
 
         Returns:
             EvaluatorDetails configured for agent goal accuracy evaluation
         """
         config: Dict[str, Any] = {}
 
-        return EvaluatorDetails(slug="agent-goal-accuracy", version=None, config=config, required_input_fields=["question", "completion", "reference"])
+        return EvaluatorDetails(
+            slug="agent-goal-accuracy",
+            version=None,
+            config=config,
+            required_input_fields=["question", "completion", "reference"],
+        )
 
     @staticmethod
     def topic_adherence(
@@ -380,6 +416,7 @@ def topic_adherence(
         Topic adherence evaluator - validates topic adherence.
 
         Required task output fields:
+            - question: The input question or goal
             - completion: The completion text to evaluate
             - reference_topics: The expected topic or topics
 
@@ -388,7 +425,12 @@ def topic_adherence(
         """
         config: Dict[str, Any] = {}
 
-        return EvaluatorDetails(slug="topic-adherence", version=None, config=config, required_input_fields=["question", "completion", "reference_topics"])
+        return EvaluatorDetails(
+            slug="topic-adherence",
+            version=None,
+            config=config,
+            required_input_fields=["question", "completion", "reference_topics"],
+        )
 
     @staticmethod
     def perplexity(
@@ -403,5 +445,10 @@ def perplexity(
             EvaluatorDetails configured for perplexity measurement
         """
         config: Dict[str, Any] = {}
-        
-        return EvaluatorDetails(slug="perplexity", version=None, config=config, required_input_fields=["prompt"])
+
+        return EvaluatorDetails(
+            slug="perplexity",
+            version=None,
+            config=config,
+            required_input_fields=["prompt"],
+        )
diff --git a/packages/traceloop-sdk/traceloop/sdk/experiment/experiment.py b/packages/traceloop-sdk/traceloop/sdk/experiment/experiment.py
@@ -161,6 +161,7 @@ async def _run_locally(
         errors: List[str] = []
 
         evaluators_to_validate = [evaluator for evaluator in evaluators if isinstance(evaluator, EvaluatorDetails)]
+
         async def run_single_row(row: Optional[Dict[str, Any]]) -> TaskResponse:
             try:
                 task_result = await task(row)