Protected material metrics fix using defect rate instead label. (Azure#39327)

w-javed · web-flow · commit 25970ad34e0d · 2025-02-04T09:27:02.000-08:00
* fix for label

* fix label

* updated tests and fix recordings

* fix test config and updated assets

* fix test config and updated assets

* updated assets

* revert

* revert
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_constants.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_constants.py
@@ -22,6 +22,9 @@ class EvaluationMetrics:
     SELF_HARM = "self_harm"
     SEXUAL = "sexual"
     PROTECTED_MATERIAL = "protected_material"
+    ARTWORK = "artwork"
+    FICTIONAL_CHARACTERS = "fictional_characters"
+    LOGOS_AND_BRANDS = "logos_and_brands"
     XPIA = "xpia"
 
 
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_evaluate.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_evaluate.py
@@ -147,6 +147,9 @@ def _aggregate_label_defect_metrics(df: pd.DataFrame) -> Tuple[List[str], Dict[s
     """
     handled_metrics = [
         EvaluationMetrics.PROTECTED_MATERIAL,
+        EvaluationMetrics.FICTIONAL_CHARACTERS,
+        EvaluationMetrics.ARTWORK,
+        EvaluationMetrics.LOGOS_AND_BRANDS,
         _InternalEvaluationMetrics.ECI,
         EvaluationMetrics.XPIA,
     ]
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_mass_evaluate.py b/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_mass_evaluate.py
@@ -94,7 +94,7 @@ def test_evaluate_singleton_inputs(self, model_config, azure_cred, project_scope
             "similarity": SimilarityEvaluator(model_config),
             "qa": QAEvaluator(model_config),
             "grounded_pro": GroundednessProEvaluator(azure_cred, project_scope),
-            # "protected_material": ProtectedMaterialEvaluator(azure_cred, project_scope),
+            "protected_material": ProtectedMaterialEvaluator(azure_cred, project_scope),
             "indirect_attack": IndirectAttackEvaluator(azure_cred, project_scope),
             "eci": ECIEvaluator(azure_cred, project_scope),
             "content_safety": ContentSafetyEvaluator(azure_cred, project_scope),
@@ -108,7 +108,7 @@ def test_evaluate_singleton_inputs(self, model_config, azure_cred, project_scope
 
         row_result_df = pd.DataFrame(result["rows"])
         metrics = result["metrics"]
-        assert len(row_result_df.keys()) == 61
+        assert len(row_result_df.keys()) == 63
         assert len(row_result_df["inputs.query"]) == 3
         assert len(row_result_df["inputs.context"]) == 3
         assert len(row_result_df["inputs.response"]) == 3
@@ -136,8 +136,8 @@ def test_evaluate_singleton_inputs(self, model_config, azure_cred, project_scope
         assert len(row_result_df["outputs.similarity.gpt_similarity"]) == 3
         assert len(row_result_df["outputs.grounded_pro.groundedness_pro_label"]) == 3
         assert len(row_result_df["outputs.grounded_pro.groundedness_pro_reason"]) == 3
-        # assert len(row_result_df["outputs.protected_material.protected_material_label"]) == 3
-        # assert len(row_result_df["outputs.protected_material.protected_material_reason"]) == 3
+        assert len(row_result_df["outputs.protected_material.protected_material_label"]) == 3
+        assert len(row_result_df["outputs.protected_material.protected_material_reason"]) == 3
         assert len(row_result_df["outputs.indirect_attack.xpia_label"]) == 3
         assert len(row_result_df["outputs.indirect_attack.xpia_reason"]) == 3
         assert len(row_result_df["outputs.indirect_attack.xpia_manipulated_content"]) == 3
@@ -173,7 +173,7 @@ def test_evaluate_singleton_inputs(self, model_config, azure_cred, project_scope
         assert len(row_result_df["outputs.qa.similarity"]) == 3
         assert len(row_result_df["outputs.qa.gpt_similarity"]) == 3
 
-        assert len(metrics.keys()) == 38
+        assert len(metrics.keys()) == 39
         assert metrics["f1_score.f1_score"] >= 0
         assert metrics["gleu.gleu_score"] >= 0
         assert metrics["bleu.bleu_score"] >= 0
@@ -199,7 +199,7 @@ def test_evaluate_singleton_inputs(self, model_config, azure_cred, project_scope
         assert metrics["content_safety.hate_unfairness_defect_rate"] >= 0
         assert metrics["content_safety.violence_defect_rate"] >= 0
         assert metrics["grounded_pro.groundedness_pro_passing_rate"] >= 0
-        # assert metrics["protected_material.protected_material_defect_rate"] >= 0
+        assert metrics["protected_material.protected_material_defect_rate"] >= 0
         assert metrics["indirect_attack.xpia_defect_rate"] >= 0
         assert metrics["eci.eci_defect_rate"] >= 0
         assert metrics["qa.f1_score"] >= 0
@@ -221,7 +221,7 @@ def test_evaluate_conversation(self, model_config, data_convo_file, azure_cred,
             "fluency": FluencyEvaluator(model_config),
             "relevance": RelevanceEvaluator(model_config),
             "grounded_pro": GroundednessProEvaluator(azure_cred, project_scope),
-            # "protected_material": ProtectedMaterialEvaluator(azure_cred, project_scope),
+            "protected_material": ProtectedMaterialEvaluator(azure_cred, project_scope),
             "indirect_attack": IndirectAttackEvaluator(azure_cred, project_scope),
             "eci": ECIEvaluator(azure_cred, project_scope),
             "content_safety": ContentSafetyEvaluator(azure_cred, project_scope),
@@ -237,7 +237,7 @@ def test_evaluate_conversation(self, model_config, data_convo_file, azure_cred,
         row_result_df = pd.DataFrame(result["rows"])
         metrics = result["metrics"]
 
-        assert len(row_result_df.keys()) == 30
+        assert len(row_result_df.keys()) == 32
         assert len(row_result_df["inputs.conversation"]) == 2
         assert len(row_result_df["outputs.grounded.groundedness"]) == 2
         assert len(row_result_df["outputs.grounded.gpt_groundedness"]) == 2
@@ -253,8 +253,8 @@ def test_evaluate_conversation(self, model_config, data_convo_file, azure_cred,
         assert len(row_result_df["outputs.relevance.evaluation_per_turn"]) == 2
         assert len(row_result_df["outputs.grounded_pro.groundedness_pro_label"]) == 2
         assert len(row_result_df["outputs.grounded_pro.evaluation_per_turn"]) == 2
-        # assert len(row_result_df["outputs.protected_material.protected_material_label"]) == 2
-        # assert len(row_result_df["outputs.protected_material.evaluation_per_turn"]) == 2
+        assert len(row_result_df["outputs.protected_material.protected_material_label"]) == 2
+        assert len(row_result_df["outputs.protected_material.evaluation_per_turn"]) == 2
         assert len(row_result_df["outputs.indirect_attack.xpia_label"]) == 2
         assert len(row_result_df["outputs.indirect_attack.xpia_manipulated_content"]) == 2
         assert len(row_result_df["outputs.indirect_attack.xpia_intrusion"]) == 2
@@ -271,7 +271,7 @@ def test_evaluate_conversation(self, model_config, data_convo_file, azure_cred,
         assert len(row_result_df["outputs.retrieval.gpt_retrieval"]) == 2
         assert len(row_result_df["outputs.retrieval.evaluation_per_turn"]) == 2
 
-        assert len(metrics.keys()) == 20
+        assert len(metrics.keys()) == 21
         assert metrics["coherence.coherence"] >= 0
         assert metrics["coherence.gpt_coherence"] >= 0
         assert metrics["fluency.fluency"] >= 0
@@ -290,7 +290,7 @@ def test_evaluate_conversation(self, model_config, data_convo_file, azure_cred,
         assert metrics["content_safety.hate_unfairness_defect_rate"] >= 0
         assert metrics["content_safety.self_harm_defect_rate"] >= 0
         assert metrics["grounded_pro.groundedness_pro_passing_rate"] >= 0
-        # assert metrics["protected_material.protected_material_defect_rate"] >= 0
+        assert metrics["protected_material.protected_material_defect_rate"] >= 0
         assert metrics["indirect_attack.xpia_defect_rate"] >= 0
         assert metrics["eci.eci_defect_rate"] >= 0
 
@@ -311,9 +311,6 @@ def test_evaluate_multimodal(
         project_scope,
         run_from_temp_dir,
     ):
-        # ContentSafetyMultimodalEvaluator is excluded due 2 reasons:
-        # - It fails in playback mode for some reason
-        # - It's imminently being removed in favor of the ContentSafetyEvaluator.
         evaluators = {
             "protected_material_old": ProtectedMaterialMultimodalEvaluator(
                 credential=azure_cred, azure_ai_project=project_scope
@@ -396,12 +393,12 @@ def test_evaluate_multimodal(
         assert 0 <= metrics.get("content_safety.violence_defect_rate") <= 1
         assert 0 <= metrics.get("content_safety.self_harm_defect_rate") <= 1
         assert 0 <= metrics.get("content_safety.hate_unfairness_defect_rate") <= 1
-        assert 0 <= metrics.get("protected_material.fictional_characters_label") <= 1
-        assert 0 <= metrics.get("protected_material.logos_and_brands_label") <= 1
-        assert 0 <= metrics.get("protected_material.artwork_label") <= 1
+        assert 0 <= metrics.get("protected_material.fictional_characters_defect_rate") <= 1
+        assert 0 <= metrics.get("protected_material.logos_and_brands_defect_rate") <= 1
+        assert 0 <= metrics.get("protected_material.artwork_defect_rate") <= 1
         assert 0 <= metrics.get("sexual.sexual_defect_rate") <= 1
         # TODO remove _old values when multi-modal specific evaluators are removed
-        assert 0 <= metrics.get("protected_material_old.fictional_characters_label") <= 1
-        assert 0 <= metrics.get("protected_material_old.logos_and_brands_label") <= 1
-        assert 0 <= metrics.get("protected_material_old.artwork_label") <= 1
+        assert 0 <= metrics.get("protected_material_old.fictional_characters_defect_rate") <= 1
+        assert 0 <= metrics.get("protected_material_old.logos_and_brands_defect_rate") <= 1
+        assert 0 <= metrics.get("protected_material_old.artwork_defect_rate") <= 1
         assert 0 <= metrics.get("sexual_old.sexual_defect_rate") <= 1
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_sim_and_eval.py b/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_sim_and_eval.py
@@ -216,6 +216,14 @@ async def callback(
         assert eval_output["rows"][0]["outputs.protected_material.artwork_label"] is not None
         assert eval_output["rows"][0]["outputs.protected_material.logos_and_brands_label"] is not None
 
+        assert "protected_material.fictional_characters_defect_rate" in metrics.keys()
+        assert "protected_material.logos_and_brands_defect_rate" in metrics.keys()
+        assert "protected_material.artwork_defect_rate" in metrics.keys()
+
+        assert 0 <= metrics.get("protected_material.fictional_characters_defect_rate") <= 1
+        assert 0 <= metrics.get("protected_material.logos_and_brands_defect_rate") <= 1
+        assert 0 <= metrics.get("protected_material.artwork_defect_rate") <= 1
+
         # Cleanup file
         os.remove(file_name)