huggingface · clefourrier · Nov 18, 2024 · Nov 11, 2024 · Nov 12, 2024 · Nov 12, 2024
diff --git a/src/lighteval/metrics/metrics_corpus.py b/src/lighteval/metrics/metrics_corpus.py
@@ -30,12 +30,13 @@
 import sacrebleu
 import sklearn.metrics
 
+from lighteval.logging.hierarchical_logger import hlog_warn
+from lighteval.utils.utils import as_list
 from lighteval.metrics.sample_preparator import (
     GenerativeCorpusMetricInput,
     LogprobCorpusMetricInput,
     PerplexityCorpusMetricInput,
 )
-from lighteval.utils.utils import as_list
 
 
 # General aggregations
@@ -103,7 +104,12 @@ def __init__(self, metric_type: str):
     def compute(self, items: list[GenerativeCorpusMetricInput]) -> float:
         """Computes the metric score over all the corpus generated items, by using the sacrebleu implementation."""
         golds = [i.golds for i in items]
-        preds = [as_list(i.preds) for i in items]
+        preds = []
+        for i in items:
+            pred = as_list(i.preds)
+            if len(pred) > 1:
+                hlog_warn(f"Multiple predictions present, keeping only the first prediction (when computing sacrebleu.{self.metric.__name__}).")
+            preds.append(pred[0])
         return float(self.metric(hypotheses=preds, references=golds).score)