feat: GenAI Client(evals) - Add pd.DataFrame as input for dataset in create_evaluation_runin Vertex AI GenAI SDK evals

vertex-sdk-bot · copybara-github · commit 36a741ac2825 · 2025-10-29T12:28:39.000-07:00
PiperOrigin-RevId: 825658094
diff --git a/tests/unit/vertexai/genai/test_evals.py b/tests/unit/vertexai/genai/test_evals.py
@@ -1070,9 +1070,7 @@ def test_run_inference_with_agent_engine_and_session_inputs_dict(
         )
 
         mock_agent_engine = mock.Mock()
-        mock_agent_engine.async_create_session = mock.AsyncMock(
-            return_value={"id": "session1"}
-        )
+        mock_agent_engine.create_session.return_value = {"id": "session1"}
         stream_query_return_value = [
             {
                 "id": "1",
@@ -1088,13 +1086,7 @@ def test_run_inference_with_agent_engine_and_session_inputs_dict(
             },
         ]
 
-        async def _async_iterator(iterable):
-            for item in iterable:
-                yield item
-
-        mock_agent_engine.async_stream_query.return_value = _async_iterator(
-            stream_query_return_value
-        )
+        mock_agent_engine.stream_query.return_value = iter(stream_query_return_value)
         mock_vertexai_client.return_value.agent_engines.get.return_value = (
             mock_agent_engine
         )
@@ -1108,10 +1100,10 @@ async def _async_iterator(iterable):
         mock_vertexai_client.return_value.agent_engines.get.assert_called_once_with(
             name="projects/test-project/locations/us-central1/reasoningEngines/123"
         )
-        mock_agent_engine.async_create_session.assert_called_once_with(
+        mock_agent_engine.create_session.assert_called_once_with(
             user_id="123", state={"a": "1"}
         )
-        mock_agent_engine.async_stream_query.assert_called_once_with(
+        mock_agent_engine.stream_query.assert_called_once_with(
             user_id="123", session_id="session1", message="agent prompt"
         )
 
@@ -1162,9 +1154,7 @@ def test_run_inference_with_agent_engine_and_session_inputs_literal_string(
         )
 
         mock_agent_engine = mock.Mock()
-        mock_agent_engine.async_create_session = mock.AsyncMock(
-            return_value={"id": "session1"}
-        )
+        mock_agent_engine.create_session.return_value = {"id": "session1"}
         stream_query_return_value = [
             {
                 "id": "1",
@@ -1180,13 +1170,7 @@ def test_run_inference_with_agent_engine_and_session_inputs_literal_string(
             },
         ]
 
-        async def _async_iterator(iterable):
-            for item in iterable:
-                yield item
-
-        mock_agent_engine.async_stream_query.return_value = _async_iterator(
-            stream_query_return_value
-        )
+        mock_agent_engine.stream_query.return_value = iter(stream_query_return_value)
         mock_vertexai_client.return_value.agent_engines.get.return_value = (
             mock_agent_engine
         )
@@ -1200,10 +1184,10 @@ async def _async_iterator(iterable):
         mock_vertexai_client.return_value.agent_engines.get.assert_called_once_with(
             name="projects/test-project/locations/us-central1/reasoningEngines/123"
         )
-        mock_agent_engine.async_create_session.assert_called_once_with(
+        mock_agent_engine.create_session.assert_called_once_with(
             user_id="123", state={"a": "1"}
         )
-        mock_agent_engine.async_stream_query.assert_called_once_with(
+        mock_agent_engine.stream_query.assert_called_once_with(
             user_id="123", session_id="session1", message="agent prompt"
         )
 
diff --git a/vertexai/_genai/_evals_common.py b/vertexai/_genai/_evals_common.py
@@ -278,12 +278,10 @@ def agent_run_wrapper(
                             and type(agent_engine).__name__ == "AgentEngine"
                         ):
                             agent_engine_instance = agent_engine
-                        return asyncio.run(
-                            inference_fn_arg(
-                                row=row_arg,
-                                contents=contents_arg,
-                                agent_engine=agent_engine_instance,
-                            )
+                        return inference_fn_arg(
+                            row=row_arg,
+                            contents=contents_arg,
+                            agent_engine=agent_engine_instance,
                         )
 
                     future = executor.submit(
@@ -1265,7 +1263,7 @@ def _run_agent(
     )
 
 
-async def _execute_agent_run_with_retry(
+def _execute_agent_run_with_retry(
     row: pd.Series,
     contents: Union[genai_types.ContentListUnion, genai_types.ContentListUnionDict],
     agent_engine: types.AgentEngine,
@@ -1287,7 +1285,7 @@ async def _execute_agent_run_with_retry(
             )
         user_id = session_inputs.user_id
         session_state = session_inputs.state
-        session = await agent_engine.async_create_session(
+        session = agent_engine.create_session(
             user_id=user_id,
             state=session_state,
         )
@@ -1298,7 +1296,7 @@ async def _execute_agent_run_with_retry(
     for attempt in range(max_retries):
         try:
             responses = []
-            async for event in agent_engine.async_stream_query(
+            for event in agent_engine.stream_query(
                 user_id=user_id,
                 session_id=session["id"],
                 message=contents,
@@ -1317,7 +1315,7 @@ async def _execute_agent_run_with_retry(
             )
             if attempt == max_retries - 1:
                 return {"error": f"Resource exhausted after retries: {e}"}
-            await asyncio.sleep(2**attempt)
+            time.sleep(2**attempt)
         except Exception as e:  # pylint: disable=broad-exception-caught
             logger.error(
                 "Unexpected error during generate_content on attempt %d/%d: %s",
@@ -1328,7 +1326,7 @@ async def _execute_agent_run_with_retry(
 
             if attempt == max_retries - 1:
                 return {"error": f"Failed after retries: {e}"}
-            await asyncio.sleep(1)
+            time.sleep(1)
     return {"error": f"Failed to get agent run results after {max_retries} retries"}
 
 
diff --git a/vertexai/_genai/evals.py b/vertexai/_genai/evals.py
@@ -1332,7 +1332,9 @@ def get_evaluation_run(
     def create_evaluation_run(
         self,
         *,
-        dataset: Union[types.EvaluationRunDataSource, types.EvaluationDataset],
+        dataset: Union[
+            types.EvaluationRunDataSource, types.EvaluationDataset, pd.DataFrame
+        ],
         dest: str,
         name: Optional[str] = None,
         display_name: Optional[str] = None,
@@ -1346,7 +1348,8 @@ def create_evaluation_run(
         """Creates an EvaluationRun.
 
         Args:
-          dataset: The dataset to evaluate. Either an EvaluationRunDataSource or an EvaluationDataset.
+          dataset: The dataset to evaluate. Either an EvaluationRunDataSource, an
+            EvaluationDataset, or a pd.DataFrame.
           dest: The GCS URI prefix to write the evaluation results to.
           name: The name of the evaluation run.
           display_name: The display name of the evaluation run.
@@ -1358,6 +1361,8 @@ def create_evaluation_run(
         Returns:
             The created evaluation run.
         """
+        if isinstance(dataset, pd.DataFrame):
+            dataset = types.EvaluationDataset(eval_dataset_df=dataset)
         if type(dataset).__name__ == "EvaluationDataset":
             logger.warning(
                 "EvaluationDataset input is experimental and may change in future versions."
@@ -2185,7 +2190,9 @@ async def get_evaluation_run(
     async def create_evaluation_run(
         self,
         *,
-        dataset: Union[types.EvaluationRunDataSource, types.EvaluationDataset],
+        dataset: Union[
+            types.EvaluationRunDataSource, types.EvaluationDataset, pd.DataFrame
+        ],
         dest: str,
         name: Optional[str] = None,
         display_name: Optional[str] = None,
@@ -2199,7 +2206,8 @@ async def create_evaluation_run(
         """Creates an EvaluationRun.
 
         Args:
-          dataset: The dataset to evaluate. Either an EvaluationRunDataSource or an EvaluationDataset.
+          dataset: The dataset to evaluate. Either an EvaluationRunDataSource, an
+            EvaluationDataset, or a pd.DataFrame.
           dest: The GCS URI prefix to write the evaluation results to.
           name: The name of the evaluation run.
           display_name: The display name of the evaluation run.
@@ -2211,6 +2219,8 @@ async def create_evaluation_run(
         Returns:
             The created evaluation run.
         """
+        if isinstance(dataset, pd.DataFrame):
+            dataset = types.EvaluationDataset(eval_dataset_df=dataset)
         if type(dataset).__name__ == "EvaluationDataset":
             logger.warning(
                 "EvaluationDataset input is experimental and may change in future versions."

Original file line number	Diff line number	Diff line change
`@@ -1070,9 +1070,7 @@ def test_run_inference_with_agent_engine_and_session_inputs_dict(`
`1070`	`1070`	`)`
`1071`	`1071`
`1072`	`1072`	`mock_agent_engine = mock.Mock()`
`1073`		`- mock_agent_engine.async_create_session = mock.AsyncMock(`
`1074`		`- return_value={"id": "session1"}`
`1075`		`- )`
	`1073`	`+ mock_agent_engine.create_session.return_value = {"id": "session1"}`
`1076`	`1074`	`stream_query_return_value = [`
`1077`	`1075`	`{`
`1078`	`1076`	`"id": "1",`
`@@ -1088,13 +1086,7 @@ def test_run_inference_with_agent_engine_and_session_inputs_dict(`
`1088`	`1086`	`},`
`1089`	`1087`	`]`
`1090`	`1088`
`1091`		`- async def _async_iterator(iterable):`
`1092`		`- for item in iterable:`
`1093`		`- yield item`
`1094`		`-`
`1095`		`- mock_agent_engine.async_stream_query.return_value = _async_iterator(`
`1096`		`- stream_query_return_value`
`1097`		`- )`
	`1089`	`+ mock_agent_engine.stream_query.return_value = iter(stream_query_return_value)`
`1098`	`1090`	`mock_vertexai_client.return_value.agent_engines.get.return_value = (`
`1099`	`1091`	`mock_agent_engine`
`1100`	`1092`	`)`
`@@ -1108,10 +1100,10 @@ async def _async_iterator(iterable):`
`1108`	`1100`	`mock_vertexai_client.return_value.agent_engines.get.assert_called_once_with(`
`1109`	`1101`	`name="projects/test-project/locations/us-central1/reasoningEngines/123"`
`1110`	`1102`	`)`
`1111`		`- mock_agent_engine.async_create_session.assert_called_once_with(`
	`1103`	`+ mock_agent_engine.create_session.assert_called_once_with(`
`1112`	`1104`	`user_id="123", state={"a": "1"}`
`1113`	`1105`	`)`
`1114`		`- mock_agent_engine.async_stream_query.assert_called_once_with(`
	`1106`	`+ mock_agent_engine.stream_query.assert_called_once_with(`
`1115`	`1107`	`user_id="123", session_id="session1", message="agent prompt"`
`1116`	`1108`	`)`
`1117`	`1109`
`@@ -1162,9 +1154,7 @@ def test_run_inference_with_agent_engine_and_session_inputs_literal_string(`
`1162`	`1154`	`)`
`1163`	`1155`
`1164`	`1156`	`mock_agent_engine = mock.Mock()`
`1165`		`- mock_agent_engine.async_create_session = mock.AsyncMock(`
`1166`		`- return_value={"id": "session1"}`
`1167`		`- )`
	`1157`	`+ mock_agent_engine.create_session.return_value = {"id": "session1"}`
`1168`	`1158`	`stream_query_return_value = [`
`1169`	`1159`	`{`
`1170`	`1160`	`"id": "1",`
`@@ -1180,13 +1170,7 @@ def test_run_inference_with_agent_engine_and_session_inputs_literal_string(`
`1180`	`1170`	`},`
`1181`	`1171`	`]`
`1182`	`1172`
`1183`		`- async def _async_iterator(iterable):`
`1184`		`- for item in iterable:`
`1185`		`- yield item`
`1186`		`-`
`1187`		`- mock_agent_engine.async_stream_query.return_value = _async_iterator(`
`1188`		`- stream_query_return_value`
`1189`		`- )`
	`1173`	`+ mock_agent_engine.stream_query.return_value = iter(stream_query_return_value)`
`1190`	`1174`	`mock_vertexai_client.return_value.agent_engines.get.return_value = (`
`1191`	`1175`	`mock_agent_engine`
`1192`	`1176`	`)`
`@@ -1200,10 +1184,10 @@ async def _async_iterator(iterable):`
`1200`	`1184`	`mock_vertexai_client.return_value.agent_engines.get.assert_called_once_with(`
`1201`	`1185`	`name="projects/test-project/locations/us-central1/reasoningEngines/123"`
`1202`	`1186`	`)`
`1203`		`- mock_agent_engine.async_create_session.assert_called_once_with(`
	`1187`	`+ mock_agent_engine.create_session.assert_called_once_with(`
`1204`	`1188`	`user_id="123", state={"a": "1"}`
`1205`	`1189`	`)`
`1206`		`- mock_agent_engine.async_stream_query.assert_called_once_with(`
	`1190`	`+ mock_agent_engine.stream_query.assert_called_once_with(`
`1207`	`1191`	`user_id="123", session_id="session1", message="agent prompt"`
`1208`	`1192`	`)`
`1209`	`1193`