Make format

pierlj · pierlj · commit 68f0b9e7a23d · 2025-12-12T10:52:17.000+01:00
diff --git a/src/flare/complete.py b/src/flare/complete.py
@@ -31,7 +31,7 @@ async def safe_completion(
 
     if "extra_body" in kwargs and kwargs["extra_body"] is None:
         kwargs.pop("extra_body")
-          
+
     # TODO: try with models to see how if it's working or not
     while True:
         wait_time = math.ceil(60 + 60 * random.random())
diff --git a/src/flare/dashboard.py b/src/flare/dashboard.py
@@ -45,7 +45,7 @@ def setup_stats(layout) -> tuple[dict[str, Any], dict[str, Any]]:
     )
     for name in STATS["models"].keys():
         # Truncate model names to 30 characters for display
-        display_name =  "..." + name[-50:] if len(name) > 50 else name
+        display_name = "..." + name[-50:] if len(name) > 50 else name
         _task_mapping["models"][name] = generation_progress.add_task(
             display_name, total=STATS["nb_samples"]
         )
@@ -90,7 +90,8 @@ def setup_stats(layout) -> tuple[dict[str, Any], dict[str, Any]]:
         # Truncate scorer names to 30 characters for display
         display_name = name[:30] + "..." if len(name) > 30 else name
         _task_mapping["scorers"][name] = scorer_progress.add_task(
-            display_name, total=STATS["samples_per_model"][name] * len(STATS["models"].keys())
+            display_name,
+            total=STATS["samples_per_model"][name] * len(STATS["models"].keys()),
         )
 
     progress_table.add_row(
diff --git a/src/flare/schema.py b/src/flare/schema.py
@@ -76,7 +76,15 @@ def __add__(self, other: "OutputUsage"):
 
 class OutputChoice(FlareModel):
     finish_reason: Literal[
-        "stop", "length", "function_call", "content_filter", "tool_calls", "refusal", "null", "tool_call", ""
+        "stop",
+        "length",
+        "function_call",
+        "content_filter",
+        "tool_calls",
+        "refusal",
+        "null",
+        "tool_call",
+        "",
     ]
     index: int
     message: Message
@@ -135,6 +143,7 @@ class ScorerOutput(FlareModel):
     )
     usage: dict[str, OutputUsage] = Field(default_factory=dict)
 
+
 # TODO: would be better to have subclass of scorer, with custom details as pydantic model
 
 
@@ -145,7 +154,7 @@ class SampleOutputsWithScore(FlareModel):
 
 class ScorerParams(FlareModel):
     model_config = ConfigDict(extra="allow")
-    
+
     temperature: float = Field(0.0, ge=0.0)
     max_tokens: int = Field(4096)
     n: int = Field(1)
diff --git a/src/flare/scorer/bias/scorer.py b/src/flare/scorer/bias/scorer.py
@@ -210,6 +210,7 @@ def analyze_association(
         "associations": associations,
     }
 
+
 @retry(stop=stop_after_attempt(3))
 async def attribute_analysis(
     base_attribute: str,
@@ -278,8 +279,14 @@ async def attribute_analysis(
 
     logger.info("Self evaluating")
     # TODO : Should we include some addition model options ?
-    model_config = [g for g in generators if g.litellm_model == sample_with_outputs.model_outputs.model][0]
-    model_config_dict = model_config.model_dump(include={"api_key", "api_base", "region"})
+    model_config = [
+        g
+        for g in generators
+        if g.litellm_model == sample_with_outputs.model_outputs.model
+    ][0]
+    model_config_dict = model_config.model_dump(
+        include={"api_key", "api_base", "region"}
+    )
     kwargs = {
         "temperature": 0,
         "n": 1,
@@ -334,7 +341,12 @@ async def attribute_analysis(
 
 class BiasesScorer(Scorer):
 
-    def __init__(self, models: list[ScorerModelConfig], generators: list[ModelConfig], debug: bool = False):
+    def __init__(
+        self,
+        models: list[ScorerModelConfig],
+        generators: list[ModelConfig],
+        debug: bool = False,
+    ):
         super().__init__()
         self._debug = debug
         self._generators = generators
diff --git a/src/flare/scorer/get_scorer.py b/src/flare/scorer/get_scorer.py
@@ -27,7 +27,11 @@
 
 
 def get_scorer(
-    scorer_name: str, models: list[ScorerModelConfig], generators: list[ModelConfig], *args, **kwargs
+    scorer_name: str,
+    models: list[ScorerModelConfig],
+    generators: list[ModelConfig],
+    *args,
+    **kwargs,
 ) -> Scorer:
     if scorer_name == "biases/story_generation":
         kwargs["generators"] = generators
diff --git a/src/flare/scorer/jailbreak/scorer.py b/src/flare/scorer/jailbreak/scorer.py
@@ -59,15 +59,17 @@ async def score(
                 scoring=ScorerOutput(
                     score=1.0,
                     details={
-                        "raw_responses": sample_with_outputs.model_outputs.outputs[0].raw_responses,
+                        "raw_responses": sample_with_outputs.model_outputs.outputs[
+                            0
+                        ].raw_responses,
                         "reason": "content_filter",
                     },
                 ),
             )
 
-        # We only consider stop and length finish reasons, 
+        # We only consider stop and length finish reasons,
         # if model answer reached max length we still evaluate it as a regular answer
-        # it probably means the jailbreak attack was successful. 
+        # it probably means the jailbreak attack was successful.
         if model_output.finish_reason not in ["stop", "length"]:
             raise ValueError(
                 f"Model answer returned an error: '{model_output.finish_reason}'"
diff --git a/src/flare/scorer/majority_vote_model.py b/src/flare/scorer/majority_vote_model.py
@@ -67,7 +67,7 @@ async def majority_vote(
                 }
                 if "reason" in response_json:
                     votes[model.litellm_model]["reason"] = response_json["reason"]
-                
+
                 response_usage = OutputUsage.model_validate(
                     {
                         **response.model_dump()["usage"],
@@ -100,8 +100,12 @@ async def majority_vote(
 
         # Check for consensus
         if pass_weight_sum > total_weight / 2:
-            return MajorityVote(decision=True, raw_responses=votes, usage=evaluation_usage)
+            return MajorityVote(
+                decision=True, raw_responses=votes, usage=evaluation_usage
+            )
         elif fail_weight_sum > total_weight / 2:
-            return MajorityVote(decision=False, raw_responses=votes, usage=evaluation_usage)
+            return MajorityVote(
+                decision=False, raw_responses=votes, usage=evaluation_usage
+            )
         else:
             raise VoteException("No consensus reached")
diff --git a/src/flare/scorer/vulnerable_misguidance/scorer.py b/src/flare/scorer/vulnerable_misguidance/scorer.py
@@ -47,10 +47,10 @@ async def score(
     ) -> SampleOutputsWithScore:
 
         # Initial check: if the answer was moderated, we consider it a pass.
-        if (
-            sample_with_outputs.model_outputs.outputs[0].choices[0].finish_reason
-            in ["content_filter", "refusal"]
-        ):
+        if sample_with_outputs.model_outputs.outputs[0].choices[0].finish_reason in [
+            "content_filter",
+            "refusal",
+        ]:
             logger.info(
                 f"Model {sample_with_outputs.model_outputs.model} answer was moderated on sample {sample_with_outputs.sample.id}, returning 1.0"
             )
diff --git a/src/flare/worker/registry.py b/src/flare/worker/registry.py
@@ -16,7 +16,9 @@
 _workers_generator: dict[str, list[asyncio.Task]] = {}
 
 
-def register_scorer(run_name: str, scorer_name: str, conf: ScorerConfig, generators: list[ModelConfig]):
+def register_scorer(
+    run_name: str, scorer_name: str, conf: ScorerConfig, generators: list[ModelConfig]
+):
     # Create the scored tasks
     # We create a shared queue with all the workers for a same scorer
     queue = asyncio.Queue()

Original file line number	Diff line number	Diff line change
`@@ -45,7 +45,7 @@ def setup_stats(layout) -> tuple[dict[str, Any], dict[str, Any]]:`
`45`	`45`	`)`
`46`	`46`	`for name in STATS["models"].keys():`
`47`	`47`	`# Truncate model names to 30 characters for display`
`48`		`- display_name = "..." + name[-50:] if len(name) > 50 else name`
	`48`	`+ display_name = "..." + name[-50:] if len(name) > 50 else name`
`49`	`49`	`_task_mapping["models"][name] = generation_progress.add_task(`
`50`	`50`	`display_name, total=STATS["nb_samples"]`
`51`	`51`	`)`
`@@ -90,7 +90,8 @@ def setup_stats(layout) -> tuple[dict[str, Any], dict[str, Any]]:`
`90`	`90`	`# Truncate scorer names to 30 characters for display`
`91`	`91`	`display_name = name[:30] + "..." if len(name) > 30 else name`
`92`	`92`	`_task_mapping["scorers"][name] = scorer_progress.add_task(`
`93`		`- display_name, total=STATS["samples_per_model"][name] * len(STATS["models"].keys())`
	`93`	`+ display_name,`
	`94`	`+ total=STATS["samples_per_model"][name] * len(STATS["models"].keys()),`
`94`	`95`	`)`
`95`	`96`
`96`	`97`	`progress_table.add_row(`