Users/singankit/rogue evaluator fix (Azure#41317)

singankit · web-flow · commit 27d295a06fed · 2025-05-27T22:28:31.000-07:00
* RogueType to be compatible with str

* Adding tests

* Revert test changes
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_rouge/_rouge.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_rouge/_rouge.py
@@ -3,7 +3,7 @@
 # ---------------------------------------------------------
 from enum import Enum
 
-from typing import Dict
+from typing import Dict, Union
 from typing_extensions import overload, override
 
 from azure.ai.evaluation._vendor.rouge_score import rouge_scorer
@@ -12,7 +12,7 @@
 import math
 
 
-class RougeType(Enum):
+class RougeType(str, Enum):
     """
     Enumeration of ROUGE (Recall-Oriented Understudy for Gisting Evaluation) types.
     """
@@ -179,8 +179,8 @@ async def _do_eval(self, eval_input: Dict) -> Dict[str, float]:
         """
         ground_truth = eval_input["ground_truth"]
         response = eval_input["response"]
-        scorer = rouge_scorer.RougeScorer(rouge_types=[self._rouge_type.value])
-        metrics = scorer.score(ground_truth, response)[self._rouge_type.value]
+        scorer = rouge_scorer.RougeScorer(rouge_types=[self._rouge_type])
+        metrics = scorer.score(ground_truth, response)[self._rouge_type]
         binary_results = {
             "rouge_precision_result": False,
             "rouge_recall_result": False,
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_builtin_evaluators.py b/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_builtin_evaluators.py
@@ -83,6 +83,13 @@ def test_math_evaluator_meteor_score(self):
             (RougeType.ROUGE_4),
             (RougeType.ROUGE_5),
             (RougeType.ROUGE_L),
+            # TODO: Enable them in a future PR
+            # (RougeType.ROUGE_1.value),
+            # (RougeType.ROUGE_2.value),
+            # (RougeType.ROUGE_3.value),
+            # (RougeType.ROUGE_4.value),
+            # (RougeType.ROUGE_5.value),
+            # (RougeType.ROUGE_L.value),
         ],
     )
     def test_math_evaluator_rouge_score(self, rouge_type):