implement end of utterance detection for AssemblyAI (vocodedev#512)

m-ods · web-flow · commit 9ef8d7576006 · 2024-03-18T17:14:43.000-07:00
* implement end of utterance detection

* replace threshold_msg with end_utterance_silence_threshold_msg

* implement end of utterance detection with endpointing config

* standardise end_utterance_silence_threshold to be in milliseconds

* fix error

* ensure type safety for endpointing_config attribute access

* add imports to fix errors
diff --git a/vocode/streaming/models/transcriber.py b/vocode/streaming/models/transcriber.py
@@ -130,6 +130,7 @@ class AssemblyAITranscriberConfig(
 ):
     buffer_size_seconds: float = 0.1
     word_boost: Optional[List[str]] = None
+    end_utterance_silence_threshold_milliseconds: Optional[int] = None
 
 
 class WhisperCPPTranscriberConfig(
diff --git a/vocode/streaming/transcriber/assembly_ai_transcriber.py b/vocode/streaming/transcriber/assembly_ai_transcriber.py
@@ -8,7 +8,7 @@
 from urllib.parse import urlencode
 from vocode import getenv
 
-from vocode.streaming.models.transcriber import AssemblyAITranscriberConfig
+from vocode.streaming.models.transcriber import AssemblyAITranscriberConfig, TimeEndpointingConfig, PunctuationEndpointingConfig
 from vocode.streaming.models.websocket import AudioMessage
 from vocode.streaming.transcriber.base_transcriber import (
     BaseAsyncTranscriber,
@@ -54,12 +54,18 @@ def __init__(
             )
         self._ended = False
         self.logger = logger or logging.getLogger(__name__)
-        if self.transcriber_config.endpointing_config:
-            raise Exception("Assembly AI endpointing config not supported yet")
-
         self.buffer = bytearray()
         self.audio_cursor = 0
-        self.terminate_msg = str.encode(json.dumps({"terminate_session": True}))
+
+        if isinstance(self.transcriber_config.endpointing_config, (TimeEndpointingConfig, PunctuationEndpointingConfig)):
+            self.transcriber_config.end_utterance_silence_threshold_milliseconds = int(self.transcriber_config.endpointing_config.time_cutoff_seconds * 1000)
+        self.terminate_msg = json.dumps({"terminate_session": True})
+        self.end_utterance_silence_threshold_msg = (
+            None if self.transcriber_config.end_utterance_silence_threshold_milliseconds is None 
+            else json.dumps(
+                {"end_utterance_silence_threshold": self.transcriber_config.end_utterance_silence_threshold_milliseconds}
+            )
+        )
 
     async def ready(self):
         return True
@@ -107,6 +113,9 @@ async def process(self):
         ) as ws:
             await asyncio.sleep(0.1)
 
+            if self.end_utterance_silence_threshold_msg:
+                await ws.send(self.end_utterance_silence_threshold_msg)
+
             async def sender(ws):  # sends audio to websocket
                 while not self._ended:
                     try: