Azure
diff --git a/‎sdk/evaluation/azure-ai-evaluation/CHANGELOG.md‎
Lines changed: 7 additions & 0 deletions b/‎sdk/evaluation/azure-ai-evaluation/CHANGELOG.md‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_eval_run.py‎
Lines changed: 14 additions & 1 deletion b/‎sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_eval_run.py‎
Lines changed: 14 additions & 1 deletion
diff --git a/‎sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_evaluate.py‎
Lines changed: 13 additions & 4 deletions b/‎sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_evaluate.py‎
Lines changed: 13 additions & 4 deletions
diff --git a/‎sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_utils.py‎
Lines changed: 4 additions & 0 deletions b/‎sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_utils.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_version.py‎
Lines changed: 1 addition & 1 deletion b/‎sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_version.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎sdk/evaluation/azure-ai-evaluation/samples/aoai_score_model_grader_sample.py‎
Lines changed: 61 additions & 7 deletions b/‎sdk/evaluation/azure-ai-evaluation/samples/aoai_score_model_grader_sample.py‎
Lines changed: 61 additions & 7 deletions
diff --git a/‎sdk/evaluation/azure-ai-evaluation/samples/evaluation_samples_evaluate.py‎
Lines changed: 40 additions & 27 deletions b/‎sdk/evaluation/azure-ai-evaluation/samples/evaluation_samples_evaluate.py‎
Lines changed: 40 additions & 27 deletions
@@ -1,5 +1,12 @@
 # Release History
 
+## 1.11.0 (Unreleased)
+
+### Features Added
+
+- Added support for user-supplied tags in the `evaluate` function. Tags are key-value pairs that can be used for experiment tracking, A/B testing, filtering, and organizing evaluation runs. The function accepts a `tags` parameter.
+
+
 ## 1.10.0 (2025-07-31)
 
 ### Breaking Changes
 
@@ -81,6 +81,8 @@ class EvalRun(contextlib.AbstractContextManager):  # pylint: disable=too-many-in
         ~azure.ai.evaluation._promptflow.azure._lite_azure_management_client.LiteMLClient
     :param promptflow_run: The promptflow run used by the
     :type promptflow_run: Optional[promptflow._sdk.entities.Run]
+    :param tags: A dictionary of tags to be added to the evaluation run for tracking and organization purposes.
+    :type tags: Optional[Dict[str, str]]
     """
 
     _MAX_RETRIES = 5
@@ -98,6 +100,7 @@ def __init__(
         workspace_name: str,
         management_client: LiteMLClient,
         promptflow_run: Optional[Run] = None,
+        tags: Optional[Dict[str, str]] = None,
     ) -> None:
         self._tracking_uri: str = tracking_uri
         self._subscription_id: str = subscription_id
@@ -107,6 +110,7 @@ def __init__(
         self._is_promptflow_run: bool = promptflow_run is not None
         self._run_name = run_name
         self._promptflow_run = promptflow_run
+        self._tags = tags or {}
         self._status = RunStatus.NOT_STARTED
         self._url_base: Optional[str] = None
         self._info: Optional[RunInfo] = None
@@ -173,11 +177,20 @@ def _start_run(self) -> None:
                 )
             else:
                 url = f"https://{self._url_base}/mlflow/v2.0" f"{self._get_scope()}/api/2.0/mlflow/runs/create"
+
+                # Prepare tags: start with user tags, ensure mlflow.user is set
+                run_tags = self._tags.copy()
+                if "mlflow.user" not in run_tags:
+                    run_tags["mlflow.user"] = "azure-ai-evaluation"
+
+                # Convert tags to MLflow format
+                tags_list = [{"key": key, "value": value} for key, value in run_tags.items()]
+
                 body = {
                     "experiment_id": "0",
                     "user_id": "azure-ai-evaluation",
                     "start_time": int(time.time() * 1000),
-                    "tags": [{"key": "mlflow.user", "value": "azure-ai-evaluation"}],
+                    "tags": tags_list,
                 }
                 if self._run_name:
                     body["run_name"] = self._run_name
 
@@ -464,7 +464,7 @@ def _validate_columns_for_evaluators(
         )
 
 
-def _validate_and_load_data(target, data, evaluators, output_path, azure_ai_project, evaluation_name):
+def _validate_and_load_data(target, data, evaluators, output_path, azure_ai_project, evaluation_name, tags):
     if data is None:
         msg = "The 'data' parameter is required for evaluation."
         raise EvaluationException(
@@ -725,6 +725,7 @@ def evaluate(
     azure_ai_project: Optional[Union[str, AzureAIProject]] = None,
     output_path: Optional[Union[str, os.PathLike]] = None,
     fail_on_evaluator_errors: bool = False,
+    tags: Optional[Dict[str, str]] = None,
     **kwargs,
 ) -> EvaluationResult:
     """Evaluates target or data with built-in or custom evaluators. If both target and data are provided,
@@ -757,6 +758,10 @@ def evaluate(
         Defaults to false, which means that evaluations will continue regardless of failures.
         If such failures occur, metrics may be missing, and evidence of failures can be found in the evaluation's logs.
     :paramtype fail_on_evaluator_errors: bool
+    :keyword tags: A dictionary of tags to be added to the evaluation run for tracking and organization purposes.
+        Keys and values must be strings. For more information about tag limits, see:
+        https://learn.microsoft.com/en-us/azure/machine-learning/resource-limits-capacity?view=azureml-api-2#runs
+    :paramtype tags: Optional[Dict[str, str]]
     :keyword user_agent: A string to append to the default user-agent sent with evaluation http requests
     :paramtype user_agent: Optional[str]
     :return: Evaluation results.
@@ -793,6 +798,7 @@ def evaluate(
                 azure_ai_project=azure_ai_project,
                 output_path=output_path,
                 fail_on_evaluator_errors=fail_on_evaluator_errors,
+                tags=tags,
                 **kwargs,
             )
     except Exception as e:
@@ -861,6 +867,7 @@ def _evaluate(  # pylint: disable=too-many-locals,too-many-statements
     azure_ai_project: Optional[Union[str, AzureAIProject]] = None,
     output_path: Optional[Union[str, os.PathLike]] = None,
     fail_on_evaluator_errors: bool = False,
+    tags: Optional[Dict[str, str]] = None,
     **kwargs,
 ) -> EvaluationResult:
     if fail_on_evaluator_errors:
@@ -877,6 +884,7 @@ def _evaluate(  # pylint: disable=too-many-locals,too-many-statements
         azure_ai_project=azure_ai_project,
         evaluation_name=evaluation_name,
         fail_on_evaluator_errors=fail_on_evaluator_errors,
+        tags=tags,
         **kwargs,
     )
 
@@ -956,15 +964,15 @@ def _evaluate(  # pylint: disable=too-many-locals,too-many-statements
     name_map = _map_names_to_builtins(evaluators, graders)
     if is_onedp_project(azure_ai_project):
         studio_url = _log_metrics_and_instance_results_onedp(
-            metrics, results_df, azure_ai_project, evaluation_name, name_map, **kwargs
+            metrics, results_df, azure_ai_project, evaluation_name, name_map, tags=tags, **kwargs
         )
     else:
         # Since tracing is disabled, pass None for target_run so a dummy evaluation run will be created each time.
         trace_destination = _trace_destination_from_project_scope(azure_ai_project) if azure_ai_project else None
         studio_url = None
         if trace_destination:
             studio_url = _log_metrics_and_instance_results(
-                metrics, results_df, trace_destination, None, evaluation_name, name_map, **kwargs
+                metrics, results_df, trace_destination, None, evaluation_name, name_map, tags=tags, **kwargs
             )
 
     result_df_dict = results_df.to_dict("records")
@@ -985,14 +993,15 @@ def _preprocess_data(
     azure_ai_project: Optional[Union[str, AzureAIProject]] = None,
     evaluation_name: Optional[str] = None,
     fail_on_evaluator_errors: bool = False,
+    tags: Optional[Dict[str, str]] = None,
     **kwargs,
 ) -> __ValidatedData:
     # Process evaluator config to replace ${target.} with ${data.}
     if evaluator_config is None:
         evaluator_config = {}
 
     input_data_df = _validate_and_load_data(
-        target, data, evaluators_and_graders, output_path, azure_ai_project, evaluation_name
+        target, data, evaluators_and_graders, output_path, azure_ai_project, evaluation_name, tags
     )
     if target is not None:
         _validate_columns_for_target(input_data_df, target)
 
@@ -138,6 +138,7 @@ def _log_metrics_and_instance_results_onedp(
     project_url: str,
     evaluation_name: Optional[str],
     name_map: Dict[str, str],
+    tags: Optional[Dict[str, str]] = None,
     **kwargs,
 ) -> Optional[str]:
 
@@ -191,6 +192,7 @@ def _log_metrics_and_instance_results_onedp(
             evaluation=EvaluationUpload(
                 display_name=evaluation_name,
                 properties=properties,
+                tags=tags,
             )
         )
 
@@ -215,6 +217,7 @@ def _log_metrics_and_instance_results(
     run: Optional[Run],
     evaluation_name: Optional[str],
     name_map: Dict[str, str],
+    tags: Optional[Dict[str, str]] = None,
     **kwargs,
 ) -> Optional[str]:
     from azure.ai.evaluation._evaluate._eval_run import EvalRun
@@ -244,6 +247,7 @@ def _log_metrics_and_instance_results(
         workspace_name=ws_triad.workspace_name,
         management_client=management_client,
         promptflow_run=run,
+        tags=tags,
     ) as ev_run:
         artifact_name = EvalRun.EVALUATION_ARTIFACT
 
 
@@ -3,4 +3,4 @@
 # ---------------------------------------------------------
 # represents upcoming version
 
-VERSION = "1.10.0"
+VERSION = "1.11.0"
@@ -9,22 +9,31 @@
 This sample shows how to:
 1. Configure an Azure OpenAI model for grading
 2. Create a score model grader with custom prompts
-3. Run evaluation using the evaluate() method
+3. Run evaluation using the evaluate() method with both foundry and hub-based projects
 4. Interpret continuous scoring results
 
 Prerequisites:
 - Azure OpenAI resource with API key and endpoint
 - Model deployment (e.g., gpt-4, gpt-4o-mini)
 - Sample conversation data in JSONL format
 - Environment variables configured in .env file
+- Azure AI project configuration (either foundry-based or hub-based)
+
+Azure AI Project Configuration Options:
+1. Foundry-based project (recommended):
+   - AZURE_AI_PROJECT_ENDPOINT
+2. Hub-based project (legacy):
+   - AZURE_SUBSCRIPTION_ID
+   - AZURE_RESOURCE_GROUP_NAME  
+   - AZURE_PROJECT_NAME
 """
 
 import json
 import os
 from dotenv import load_dotenv
 import pandas as pd
 from azure.ai.evaluation import evaluate, AzureOpenAIScoreModelGrader
-from azure.ai.evaluation import AzureOpenAIModelConfiguration
+from azure.ai.evaluation import AzureOpenAIModelConfiguration, AzureAIProject
 
 # Load environment variables
 load_dotenv()
@@ -141,6 +150,37 @@ def create_sample_data() -> str:
     return filename
 
 
+def get_azure_ai_project():
+    """
+    Get Azure AI project configuration based on available environment variables.
+
+    Returns either:
+    1. Foundry-based project (preferred): Uses AZURE_AI_PROJECT_ENDPOINT
+    2. Hub-based project (legacy): Uses subscription_id, resource_group_name, project_name
+    """
+    # Try foundry-based project first (newer approach)
+    foundry_endpoint = os.environ.get("AZURE_AI_PROJECT_ENDPOINT")
+    if foundry_endpoint:
+        print("✅ Using foundry-based Azure AI project")
+        return foundry_endpoint
+
+    # Fall back to hub-based project (legacy approach)
+    subscription_id = os.environ.get("AZURE_SUBSCRIPTION_ID")
+    resource_group = os.environ.get("AZURE_RESOURCE_GROUP_NAME")
+    project_name = os.environ.get("AZURE_PROJECT_NAME")
+
+    if subscription_id and resource_group and project_name:
+        print("✅ Using hub-based Azure AI project (legacy)")
+        return AzureAIProject(
+            subscription_id=subscription_id,
+            resource_group_name=resource_group,
+            project_name=project_name,
+        )
+
+    print("⚠️  No Azure AI project configuration found")
+    return None
+
+
 def demonstrate_score_model_grader():
     """Demonstrate the AzureOpenAIScoreModelGrader usage with real credentials."""
 
@@ -160,7 +200,15 @@ def demonstrate_score_model_grader():
 
         print("✅ Model configuration loaded successfully")
 
-        # 2. Create conversation quality grader
+        # 2. Get Azure AI project configuration (supports both foundry and hub-based projects)
+        azure_ai_project = get_azure_ai_project()
+        if not azure_ai_project:
+            print("❌ No Azure AI project configuration found. Please set either:")
+            print("   - AZURE_AI_PROJECT_ENDPOINT (for foundry-based projects), or")
+            print("   - AZURE_SUBSCRIPTION_ID, AZURE_RESOURCE_GROUP_NAME, AZURE_PROJECT_NAME (for hub-based projects)")
+            return
+
+        # 3. Create conversation quality grader
         conversation_quality_grader = AzureOpenAIScoreModelGrader(
             model_config=model_config,
             name="Conversation Quality Assessment",
@@ -192,16 +240,22 @@ def demonstrate_score_model_grader():
 
         print("✅ Conversation quality grader created successfully")
 
-        # 3. Run evaluation with the score model grader
+        # 4. Run evaluation with the score model grader
         print("\n🚀 Running evaluation with score model grader...")
-
         result = evaluate(
             data=data_file,
             evaluators={"conversation_quality": conversation_quality_grader},
-            azure_ai_project=os.environ.get("AZURE_AI_PROJECT_ENDPOINT"),
+            azure_ai_project=azure_ai_project,
+            tags={
+                "grader_type": "score_model",
+                "model": "gpt-4o-mini",
+                "evaluation_focus": "conversation_quality",
+                "sample_size": "demo",
+                "automation_level": "full",
+            },
         )
 
-        # 4. Display results
+        # 5. Display results
         print("\n=== Evaluation Results ===")
         print(f"Total samples evaluated: {len(result['rows'])}")
 
 
@@ -62,6 +62,13 @@ def evaluation_evaluate_classes_methods(self):
                     },
                 },
             },
+            # Example of using tags for tracking and organization
+            tags={
+                "experiment": "basic_evaluation",
+                "model": "gpt-4",
+                "dataset": "sample_qa_data",
+                "environment": "development",
+            },
         )
 
         # [END evaluate_method]
@@ -363,23 +370,6 @@ def evaluation_evaluate_classes_methods(self):
         )
         # [END similarity_evaluator]
 
-        # [START completeness_evaluator]
-        import os
-        from azure.ai.evaluation import CompletenessEvaluator
-
-        model_config = {
-            "azure_endpoint": os.environ.get("AZURE_OPENAI_ENDPOINT"),
-            "api_key": os.environ.get("AZURE_OPENAI_KEY"),
-            "azure_deployment": os.environ.get("AZURE_OPENAI_DEPLOYMENT"),
-        }
-
-        completeness_eval = CompletenessEvaluator(model_config=model_config)
-        completeness_eval(
-            response="The capital of Japan is Tokyo.",
-            ground_truth="Tokyo is Japan's capital.",
-        )
-        # [END completeness_evaluator]
-
         # [START task_adherence_evaluator]
         import os
         from azure.ai.evaluation import TaskAdherenceEvaluator
@@ -509,19 +499,19 @@ def evaluation_evaluate_classes_methods(self):
         from azure.ai.evaluation import DocumentRetrievalEvaluator
 
         retrieval_ground_truth = [
-            {"document_id": "1", "query_relevance_judgement": 4},
-            {"document_id": "2", "query_relevance_judgement": 2},
-            {"document_id": "3", "query_relevance_judgement": 3},
-            {"document_id": "4", "query_relevance_judgement": 1},
-            {"document_id": "5", "query_relevance_judgement": 0},
+            {"document_id": "1", "query_relevance_label": 4},
+            {"document_id": "2", "query_relevance_label": 2},
+            {"document_id": "3", "query_relevance_label": 3},
+            {"document_id": "4", "query_relevance_label": 1},
+            {"document_id": "5", "query_relevance_label": 0},
         ]
 
         retrieved_documents = [
-            {"document_id": "2", "query_relevance_judgement": 45.1},
-            {"document_id": "6", "query_relevance_judgement": 35.8},
-            {"document_id": "3", "query_relevance_judgement": 29.2},
-            {"document_id": "5", "query_relevance_judgement": 25.4},
-            {"document_id": "7", "query_relevance_judgement": 18.8},
+            {"document_id": "2", "relevance_score": 45.1},
+            {"document_id": "6", "relevance_score": 35.8},
+            {"document_id": "3", "relevance_score": 29.2},
+            {"document_id": "5", "relevance_score": 25.4},
+            {"document_id": "7", "relevance_score": 18.8},
         ]
 
         document_retrieval_evaluator = DocumentRetrievalEvaluator()
@@ -530,6 +520,29 @@ def evaluation_evaluate_classes_methods(self):
         )
         # [END document_retrieval_evaluator]
 
+        # [START evaluate_with_tags_examples]
+        evaluate(
+            data=path,
+            evaluators={"coherence": CoherenceEvaluator(model_config=model_config)},
+            evaluator_config={
+                "coherence": {
+                    "column_mapping": {
+                        "response": "${data.response}",
+                        "query": "${data.query}",
+                    },
+                },
+            },
+            azure_ai_project=azure_ai_project,
+            tags={
+                "experiment_name": "coherence_baseline",
+                "model_version": "gpt-4-0613",
+                "dataset_version": "v1.2",
+                "researcher": "data_science_team",
+                "cost_center": "ai_research",
+            },
+        )
+        # [END evaluate_with_tags_examples]
+
 
 if __name__ == "__main__":
     from dotenv import load_dotenv