fix

seratch · seratch · commit 39dbf33f109c · 2025-09-03T15:30:50.000+09:00
diff --git a/src/agents/realtime/openai_realtime.py b/src/agents/realtime/openai_realtime.py
@@ -6,7 +6,7 @@
 import json
 import os
 from datetime import datetime
-from typing import Annotated, Any, Callable, Literal, Union, cast
+from typing import Annotated, Any, Callable, Literal, Optional, Union, cast
 
 import pydantic
 import websockets
@@ -811,15 +811,21 @@ def _get_session_config(
             for value in [input_audio_format, input_audio_transcription, turn_detection]
         ):
             input_audio_config = OpenAIRealtimeAudioInput(
-                format=cast(Literal["pcm16", "g711_ulaw", "g711_alaw"] | None, input_audio_format),
+                format=cast(
+                    Optional[Literal["pcm16", "g711_ulaw", "g711_alaw"]],
+                    input_audio_format,
+                ),
                 transcription=cast(Any, input_audio_transcription),
                 turn_detection=cast(Any, turn_detection),
             )
 
         output_audio_config = None
         if any(value is not None for value in [output_audio_format, speed, voice]):
             output_audio_config = OpenAIRealtimeAudioOutput(
-                format=cast(Literal["pcm16", "g711_ulaw", "g711_alaw"] | None, output_audio_format),
+                format=cast(
+                    Optional[Literal["pcm16", "g711_ulaw", "g711_alaw"]],
+                    output_audio_format,
+                ),
                 speed=speed,
                 voice=voice,
             )
@@ -838,6 +844,7 @@ def _get_session_config(
             instructions=model_settings.get("instructions"),
             output_modalities=modalities,
             audio=audio_config,
+            max_output_tokens=cast(Any, model_settings.get("max_output_tokens")),
             tool_choice=cast(Any, model_settings.get("tool_choice")),
             tools=cast(
                 Any,
diff --git a/tests/realtime/test_ga_session_update_normalization.py b/tests/realtime/test_ga_session_update_normalization.py
@@ -0,0 +1,77 @@
+from __future__ import annotations
+
+import json
+from typing import Any
+
+import pytest
+
+from agents.realtime.model_inputs import RealtimeModelSendSessionUpdate
+from agents.realtime.openai_realtime import OpenAIRealtimeWebSocketModel
+
+
+class _DummyWS:
+    def __init__(self) -> None:
+        self.sent: list[str] = []
+
+    async def send(self, data: str) -> None:  # type: ignore[override]
+        self.sent.append(data)
+
+
+@pytest.mark.asyncio
+async def test_session_update_flattens_audio_and_modalities() -> None:
+    model = OpenAIRealtimeWebSocketModel()
+    # Inject a dummy websocket so send() works without a network
+    dummy = _DummyWS()
+    model._websocket = dummy  # type: ignore[attr-defined]
+
+    settings = {
+        "model_name": "gpt-realtime",
+        "modalities": ["text", "audio"],
+        "input_audio_format": "pcm16",
+        "input_audio_transcription": {"model": "gpt-4o-mini-transcribe"},
+        "output_audio_format": "pcm16",
+        "turn_detection": {"type": "semantic_vad", "threshold": 0.5},
+        "voice": "ash",
+        "speed": 1.0,
+        "max_output_tokens": 2048,
+    }
+
+    await model.send_event(RealtimeModelSendSessionUpdate(session_settings=settings))
+
+    # One session.update should have been sent
+    assert dummy.sent, "no websocket messages were sent"
+    payload = json.loads(dummy.sent[-1])
+    assert payload["type"] == "session.update"
+    session = payload["session"]
+
+    # GA expects flattened fields, not session.audio or session.type
+    assert "audio" not in session
+    assert "type" not in session
+    # Modalities field is named 'modalities' in GA
+    assert session.get("modalities") == ["text", "audio"]
+    # Audio fields flattened
+    assert session.get("input_audio_format") == "pcm16"
+    assert session.get("output_audio_format") == "pcm16"
+    assert isinstance(session.get("input_audio_transcription"), dict)
+    assert isinstance(session.get("turn_detection"), dict)
+    # Token field name normalized
+    assert session.get("max_response_output_tokens") == 2048
+
+
+@pytest.mark.asyncio
+async def test_no_auto_interrupt_on_vad_speech_started(monkeypatch: Any) -> None:
+    model = OpenAIRealtimeWebSocketModel()
+
+    called = {"interrupt": False}
+
+    async def _fake_interrupt(event: Any) -> None:
+        called["interrupt"] = True
+
+    # Prevent network use; _websocket only needed for other paths
+    model._websocket = _DummyWS()  # type: ignore[attr-defined]
+    monkeypatch.setattr(model, "_send_interrupt", _fake_interrupt)
+
+    # This event previously triggered an interrupt; now it should be ignored
+    await model._handle_ws_event({"type": "input_audio_buffer.speech_started"})
+
+    assert called["interrupt"] is False