Refactor evaluate_query parameter to use kwargs pattern instead of explicit parameter

Copilot · slister1001 · Copilot · commit 0470066c0af6 · 2025-07-22T21:07:53.000Z
Co-authored-by: slister1001 &lt;103153180+slister1001@users.noreply.github.com&gt;
diff --git a/sdk/evaluation/azure-ai-evaluation/CHANGELOG.md b/sdk/evaluation/azure-ai-evaluation/CHANGELOG.md
@@ -6,7 +6,7 @@
 - Added `_evaluate_query` parameter to `RaiServiceEvaluatorBase` class with a default value of `False`. This parameter controls whether queries are included in evaluation data when evaluating query-response pairs. Previously, queries were always included in evaluations. Existing code that relies on queries being evaluated will need to explicitly set `_evaluate_query=True` to maintain the previous behavior.
 
 ### Features Added
-- Made `_evaluate_query` parameter public as `evaluate_query` across all RAI service evaluators. The old `_evaluate_query` parameter is still supported but deprecated with a warning. Users should use `evaluate_query` instead of the private `_evaluate_query` parameter.
+- Refactored `_evaluate_query` parameter from private to public API using kwargs pattern across all RAI service evaluators. The parameter now follows standard kwargs conventions instead of being an explicit parameter. The old `_evaluate_query` parameter is still supported but deprecated with a warning. Users should pass `evaluate_query` as a keyword argument instead of using the private `_evaluate_query` parameter.
 
 ### Bugs Fixed
 
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_code_vulnerability/_code_vulnerability.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_code_vulnerability/_code_vulnerability.py
@@ -88,14 +88,17 @@ def __init__(
         self,
         credential,
         azure_ai_project,
-        *,
-        evaluate_query: bool = True,
+        **kwargs,
     ):
+        # Set default for evaluate_query if not provided
+        if 'evaluate_query' not in kwargs and '_evaluate_query' not in kwargs:
+            kwargs['evaluate_query'] = True
+            
         super().__init__(
             eval_metric=EvaluationMetrics.CODE_VULNERABILITY,
             azure_ai_project=azure_ai_project,
             credential=credential,
-            evaluate_query=evaluate_query,
+            **kwargs,
         )
 
     @overload
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_common/_base_rai_svc_eval.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_common/_base_rai_svc_eval.py
@@ -41,11 +41,12 @@ class RaiServiceEvaluatorBase(EvaluatorBase[T]):
     :type conversation_aggregation_type: ~azure.ai.evaluation._AggregationType
     :param threshold: The threshold for the evaluation. Default is 3.
     :type threshold: Optional[int]
+    :param _higher_is_better: If True, higher scores are better. Default is True.
+    :type _higher_is_better: Optional[bool]
     :param evaluate_query: If True, the query will be included in the evaluation data when evaluating
         query-response pairs. If False, only the response will be evaluated. Default is False.
+        Can be passed as a keyword argument.
     :type evaluate_query: bool
-    :param _higher_is_better: If True, higher scores are better. Default is True.
-    :type _higher_is_better: Optional[bool]
     """
 
     @override
@@ -57,10 +58,8 @@ def __init__(
         eval_last_turn: bool = False,
         conversation_aggregation_type: _AggregationType = _AggregationType.MEAN,
         threshold: int = 3,
-        evaluate_query: bool = False,
         _higher_is_better: Optional[bool] = False,
-        *,
-        _evaluate_query: Optional[bool] = None,
+        **kwargs,
     ):
         super().__init__(
             eval_last_turn=eval_last_turn,
@@ -73,6 +72,10 @@ def __init__(
         self._credential = credential
         self._threshold = threshold
         
+        # Handle evaluate_query parameter from kwargs
+        evaluate_query = kwargs.get('evaluate_query', False)
+        _evaluate_query = kwargs.get('_evaluate_query', None)
+        
         # Handle backward compatibility with _evaluate_query parameter
         if _evaluate_query is not None:
             import warnings
@@ -82,7 +85,7 @@ def __init__(
                 stacklevel=2
             )
             # If both are provided, that's an error
-            if evaluate_query != False:  # evaluate_query was explicitly set to something other than default
+            if 'evaluate_query' in kwargs:  # evaluate_query was explicitly passed
                 raise ValueError("Cannot specify both 'evaluate_query' and '_evaluate_query'. Use 'evaluate_query'.")
             evaluate_query = _evaluate_query
         
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_content_safety.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_content_safety.py
@@ -81,7 +81,6 @@ def __init__(
         sexual_threshold: int = 3,
         self_harm_threshold: int = 3,
         hate_unfairness_threshold: int = 3,
-        evaluate_query: bool = False,
         **kwargs,
     ):
         # Type checking
@@ -94,16 +93,23 @@ def __init__(
             if not isinstance(value, int):
                 raise TypeError(f"{name} must be an int, got {type(value)}")
 
+        # Extract evaluate_query from kwargs if present
+        evaluate_query_kwargs = {}
+        if 'evaluate_query' in kwargs:
+            evaluate_query_kwargs['evaluate_query'] = kwargs['evaluate_query']
+        if '_evaluate_query' in kwargs:
+            evaluate_query_kwargs['_evaluate_query'] = kwargs['_evaluate_query']
+        
         evaluators = [
             ViolenceEvaluator(
-                credential, azure_ai_project, threshold=violence_threshold, evaluate_query=evaluate_query
+                credential, azure_ai_project, threshold=violence_threshold, **evaluate_query_kwargs
             ),
-            SexualEvaluator(credential, azure_ai_project, threshold=sexual_threshold, evaluate_query=evaluate_query),
+            SexualEvaluator(credential, azure_ai_project, threshold=sexual_threshold, **evaluate_query_kwargs),
             SelfHarmEvaluator(
-                credential, azure_ai_project, threshold=self_harm_threshold, evaluate_query=evaluate_query
+                credential, azure_ai_project, threshold=self_harm_threshold, **evaluate_query_kwargs
             ),
             HateUnfairnessEvaluator(
-                credential, azure_ai_project, threshold=hate_unfairness_threshold, evaluate_query=evaluate_query
+                credential, azure_ai_project, threshold=hate_unfairness_threshold, **evaluate_query_kwargs
             ),
         ]
         super().__init__(evaluators=evaluators, **kwargs)
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_hate_unfairness.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_hate_unfairness.py
@@ -91,7 +91,7 @@ def __init__(
         azure_ai_project,
         *,
         threshold: int = 3,
-        evaluate_query: bool = False,
+        **kwargs,
     ):
         super().__init__(
             eval_metric=EvaluationMetrics.HATE_FAIRNESS,
@@ -100,7 +100,7 @@ def __init__(
             conversation_aggregation_type=_AggregationType.MAX,
             threshold=threshold,
             _higher_is_better=False,
-            evaluate_query=evaluate_query,
+            **kwargs,
         )
 
     @overload
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_self_harm.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_self_harm.py
@@ -76,7 +76,7 @@ def __init__(
         azure_ai_project,
         *,
         threshold: int = 3,
-        evaluate_query: bool = False,
+        **kwargs,
     ):
         super().__init__(
             eval_metric=EvaluationMetrics.SELF_HARM,
@@ -85,7 +85,7 @@ def __init__(
             conversation_aggregation_type=_AggregationType.MAX,
             threshold=threshold,
             _higher_is_better=False,
-            evaluate_query=evaluate_query,
+            **kwargs,
         )
 
     @overload
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_sexual.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_sexual.py
@@ -87,7 +87,7 @@ def __init__(
         azure_ai_project,
         *,
         threshold: int = 3,
-        evaluate_query: bool = False,
+        **kwargs,
     ):
         super().__init__(
             eval_metric=EvaluationMetrics.SEXUAL,
@@ -96,7 +96,7 @@ def __init__(
             conversation_aggregation_type=_AggregationType.MAX,
             threshold=threshold,
             _higher_is_better=False,
-            evaluate_query=evaluate_query,
+            **kwargs,
         )
 
     @overload
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_violence.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_content_safety/_violence.py
@@ -87,7 +87,7 @@ def __init__(
         azure_ai_project,
         *,
         threshold: int = 3,
-        evaluate_query: bool = False,
+        **kwargs,
     ):
         super().__init__(
             eval_metric=EvaluationMetrics.VIOLENCE,
@@ -96,7 +96,7 @@ def __init__(
             conversation_aggregation_type=_AggregationType.MAX,
             threshold=threshold,
             _higher_is_better=False,
-            evaluate_query=evaluate_query,
+            **kwargs,
         )
 
     @overload
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_eci/_eci.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_eci/_eci.py
@@ -59,14 +59,13 @@ def __init__(
         self,
         credential,
         azure_ai_project,
-        *,
-        evaluate_query: bool = False,
+        **kwargs,
     ):
         super().__init__(
             eval_metric=_InternalEvaluationMetrics.ECI,
             azure_ai_project=azure_ai_project,
             credential=credential,
-            evaluate_query=evaluate_query,
+            **kwargs,
         )
 
     @overload
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_protected_material/_protected_material.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_protected_material/_protected_material.py
@@ -59,14 +59,17 @@ def __init__(
         self,
         credential,
         azure_ai_project,
-        *,
-        evaluate_query: bool = True,
+        **kwargs,
     ):
+        # Set default for evaluate_query if not provided
+        if 'evaluate_query' not in kwargs and '_evaluate_query' not in kwargs:
+            kwargs['evaluate_query'] = True
+            
         super().__init__(
             eval_metric=EvaluationMetrics.PROTECTED_MATERIAL,
             azure_ai_project=azure_ai_project,
             credential=credential,
-            evaluate_query=evaluate_query,
+            **kwargs,
         )
 
     @overload
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_service_groundedness/_service_groundedness.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_service_groundedness/_service_groundedness.py
@@ -77,7 +77,6 @@ def __init__(
         azure_ai_project,
         *,
         threshold: int = 5,
-        evaluate_query: bool = False,
         **kwargs,
     ):
         self.threshold = threshold
@@ -88,7 +87,6 @@ def __init__(
             azure_ai_project=azure_ai_project,
             credential=credential,
             threshold=self.threshold,
-            evaluate_query=evaluate_query,
             **kwargs,
         )
 
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_ungrounded_attributes/_ungrounded_attributes.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_ungrounded_attributes/_ungrounded_attributes.py
@@ -67,14 +67,17 @@ def __init__(
         self,
         credential,
         azure_ai_project,
-        *,
-        evaluate_query: bool = True,
+        **kwargs,
     ):
+        # Set default for evaluate_query if not provided
+        if 'evaluate_query' not in kwargs and '_evaluate_query' not in kwargs:
+            kwargs['evaluate_query'] = True
+            
         super().__init__(
             eval_metric=EvaluationMetrics.UNGROUNDED_ATTRIBUTES,
             azure_ai_project=azure_ai_project,
             credential=credential,
-            evaluate_query=evaluate_query,
+            **kwargs,
         )
 
     @overload
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_xpia/xpia.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_xpia/xpia.py
@@ -76,14 +76,13 @@ def __init__(
         self,
         credential,
         azure_ai_project,
-        *,
-        evaluate_query: bool = False,
+        **kwargs,
     ):
         super().__init__(
             eval_metric=EvaluationMetrics.XPIA,
             azure_ai_project=azure_ai_project,
             credential=credential,
-            evaluate_query=evaluate_query,
+            **kwargs,
         )
 
     @overload