Merge pull request #16 from ks6088ts-labs/feature/issue-15_ai-speech-app

ks6088ts · web-flow · commit 41606e624aa9 · 2024-05-03T19:06:11.000+09:00
add transcription solution
diff --git a/.env.sample b/.env.sample
@@ -1,3 +1,3 @@
 # Basic
-SOLUTION_NAME = "azure-ai-services-solutions"
+SOLUTION_NAME = "SANDBOX"
 BACKEND_URL = "http://localhost:8000"
diff --git a/azure_ai_speech.env.sample b/azure_ai_speech.env.sample
@@ -0,0 +1,3 @@
+AZURE_AI_SPEECH_SUBSCRIPTION_KEY="<your-subscription-key>"
+AZURE_AI_SPEECH_REGION="japaneast"
+AZURE_AI_SPEECH_RECOGNITION_LANGUAGE="ja-JP"
diff --git a/docs/README.md b/docs/README.md
@@ -27,3 +27,12 @@
 
 - [Quickstart: Create a Python function in Azure from the command line](https://learn.microsoft.com/en-us/azure/azure-functions/create-first-function-cli-python?tabs=linux%2Cbash%2Cazure-cli%2Cbrowser)
 - [Using FastAPI Framework with Azure Functions](https://learn.microsoft.com/en-us/samples/azure-samples/fastapi-on-azure-functions/fastapi-on-azure-functions/)
+
+### Azure AI Speech Service
+
+- [How to recognize speech > Recognize speech from a microphone](https://learn.microsoft.com/en-us/azure/ai-services/speech-service/how-to-recognize-speech?pivots=programming-language-python#recognize-speech-from-a-microphone)
+- [Speech SDK trowing error: Exception with an error code: 0xe (SPXERR_MIC_NOT_AVAILABLE)](https://stackoverflow.com/a/75731356)
+- [Failed to initialize platform (azure-c-shared). Error: 2176 #2204](https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2204)
+- [Quickstart: Install the Speech SDK](https://learn.microsoft.com/en-us/azure/ai-services/speech-service/quickstarts/setup-platform?tabs=linux%2Cubuntu%2Cdotnetcli%2Cdotnet%2Cjre%2Cmaven%2Cnodejs%2Cmac%2Cpypi&pivots=programming-language-python)
+- [How to recognize speech > Use continuous recognition](https://learn.microsoft.com/en-us/azure/ai-services/speech-service/how-to-recognize-speech?pivots=programming-language-python#use-continuous-recognition)
+- [Task 02 - Perform speech requests with Streamlit (40 minutes)](https://microsoft.github.io/TechExcel-Implementing-automation-practices-using-Azure-OpenAI/docs/04_implement_audio_transcription/0402.html)
diff --git a/frontend/entrypoint.py b/frontend/entrypoint.py
@@ -1,76 +1,23 @@
-import asyncio
 import logging
-from urllib.parse import urljoin
 
-import aiohttp
-import streamlit as st
-
-from backend.schemas import azure_openai as azure_openai_schemas
+from frontend.solutions import sandbox, transcription
+from frontend.solutions.types import SolutionType
 
 logger = logging.getLogger(__name__)
 
 
-async def http_get(url: str) -> dict:
-    async with aiohttp.ClientSession() as session:
-        async with session.get(url) as response:
-            response.raise_for_status()
-            return await response.json()
-
-
-async def http_post(url: str, data: dict) -> dict:
-    async with aiohttp.ClientSession() as session:
-        async with session.post(
-            url=url,
-            json=data,
-        ) as response:
-            response.raise_for_status()
-            return await response.json()
-
-
 def start(
-    solution_name: str,
+    solution_type: SolutionType,
     backend_url: str,
     log_level: int,
-):
-    logger.setLevel(log_level)
-    logger.debug(f"set log level to {log_level}")
-
-    st.write(f"Solution name: {solution_name}")
-
-    # GET
-    if st.button("GET"):
-        logger.info("Fetching data from backend...")
-        try:
-            with st.spinner("Calling API..."):
-                response = asyncio.run(http_get(url=urljoin(base=backend_url, url="")))
-            st.write(response)
-            logger.info("Data fetched successfully.")
-        except Exception as e:
-            st.write(f"Error: {e}")
-            logger.error(f"Error: {e}")
-
-    st.write("---")
-
-    # POST
-    prompt = st.text_input(
-        label="Prompt",
-        value="Hello",
-    )
-    if st.button("POST"):
-        logger.info("Posting data to backend...")
-        try:
-            with st.spinner("Calling API..."):
-                response = asyncio.run(
-                    http_post(
-                        url=urljoin(base=backend_url, url="/azure_openai/chat_completions/"),
-                        data=azure_openai_schemas.ChatCompletionRequest(
-                            content=prompt,
-                            stream=False,
-                        ).model_dump(),
-                    )
-                )
-            st.write(response)
-            logger.info("Data posted successfully.")
-        except Exception as e:
-            st.write(f"Error: {e}")
-            logger.error(f"Error: {e}")
+) -> None:
+    if solution_type == SolutionType.TRANSCRIPTION:
+        return transcription.start(
+            backend_url=backend_url,
+            log_level=log_level,
+        )
+    if solution_type == SolutionType.SANDBOX:
+        return sandbox.start(
+            backend_url=backend_url,
+            log_level=log_level,
+        )
diff --git a/frontend/solutions/__init__.py b/frontend/solutions/__init__.py
diff --git a/frontend/solutions/sandbox.py b/frontend/solutions/sandbox.py
@@ -0,0 +1,75 @@
+import asyncio
+import logging
+from urllib.parse import urljoin
+
+import aiohttp
+import streamlit as st
+
+from backend.schemas import azure_openai as azure_openai_schemas
+
+logger = logging.getLogger(__name__)
+
+
+async def http_get(url: str) -> dict:
+    async with aiohttp.ClientSession() as session:
+        async with session.get(url) as response:
+            response.raise_for_status()
+            return await response.json()
+
+
+async def http_post(url: str, data: dict) -> dict:
+    async with aiohttp.ClientSession() as session:
+        async with session.post(
+            url=url,
+            json=data,
+        ) as response:
+            response.raise_for_status()
+            return await response.json()
+
+
+def start(
+    backend_url: str,
+    log_level: int,
+):
+    logger.setLevel(log_level)
+    logger.debug(f"set log level to {log_level}")
+
+    st.write("Misc solution")
+
+    # GET
+    if st.button("GET"):
+        logger.info("Fetching data from backend...")
+        try:
+            with st.spinner("Calling API..."):
+                response = asyncio.run(http_get(url=urljoin(base=backend_url, url="")))
+            st.write(response)
+            logger.info("Data fetched successfully.")
+        except Exception as e:
+            st.write(f"Error: {e}")
+            logger.error(f"Error: {e}")
+
+    st.write("---")
+
+    # POST
+    prompt = st.text_input(
+        label="Prompt",
+        value="Hello",
+    )
+    if st.button("POST"):
+        logger.info("Posting data to backend...")
+        try:
+            with st.spinner("Calling API..."):
+                response = asyncio.run(
+                    http_post(
+                        url=urljoin(base=backend_url, url="/azure_openai/chat_completions/"),
+                        data=azure_openai_schemas.ChatCompletionRequest(
+                            content=prompt,
+                            stream=False,
+                        ).model_dump(),
+                    )
+                )
+            st.write(response)
+            logger.info("Data posted successfully.")
+        except Exception as e:
+            st.write(f"Error: {e}")
+            logger.error(f"Error: {e}")
diff --git a/frontend/solutions/transcription.py b/frontend/solutions/transcription.py
@@ -0,0 +1,86 @@
+import logging
+import time
+from os import getenv
+
+import azure.cognitiveservices.speech as speechsdk
+import streamlit as st
+from azure.cognitiveservices.speech.speech import SpeechRecognitionEventArgs
+from dotenv import load_dotenv
+
+load_dotenv("azure_ai_speech.env")
+logger = logging.getLogger(__name__)
+done = False
+
+
+def transcript(
+    subscription: str,
+    region: str,
+    speech_recognition_language: str,
+):
+    speech_recognizer = speechsdk.SpeechRecognizer(
+        speech_config=speechsdk.SpeechConfig(
+            subscription=subscription,
+            region=region,
+            speech_recognition_language=speech_recognition_language,
+        ),
+        audio_config=speechsdk.audio.AudioConfig(
+            use_default_microphone=True,
+        ),
+    )
+
+    def stop_cb(evt: SpeechRecognitionEventArgs):
+        logger.debug(f"CLOSING on {evt}")
+        speech_recognizer.stop_continuous_recognition()
+
+    def recognized_cb(evt: SpeechRecognitionEventArgs):
+        logger.debug(f"RECOGNIZED: {evt}")
+        new_text = evt.result.text.strip()
+        logger.info(new_text)
+        # FIXME: App does not show the transcription
+
+    speech_recognizer.recognizing.connect(lambda evt: logger.debug(f"RECOGNIZING: {evt}"))
+    speech_recognizer.recognized.connect(recognized_cb)
+    speech_recognizer.session_started.connect(lambda evt: logger.debug(f"SESSION STARTED: {evt}"))
+    speech_recognizer.session_stopped.connect(lambda evt: logger.debug(f"SESSION STOPPED {evt}"))
+    speech_recognizer.canceled.connect(lambda evt: logger.debug(f"CANCELED {evt}"))
+    speech_recognizer.session_stopped.connect(stop_cb)
+    speech_recognizer.canceled.connect(stop_cb)
+
+    speech_recognizer.start_continuous_recognition()
+
+    global done
+
+    if st.button("Stop transcription", key="stop_transcription"):
+        # FIXME: App does not stop transcription
+        logger.info("Stop transcription")
+        speech_recognizer.stop_continuous_recognition()
+        done = True
+
+    while done is False:
+        time.sleep(0.5)
+
+
+def start(
+    backend_url: str,
+    log_level: int,
+):
+    global done
+
+    logger.setLevel(log_level)
+    logger.debug(f"set log level to {log_level}")
+
+    st.write("Transcription")
+
+    if st.button("Start transcription", key="start_transcription"):
+        logger.info("Start transcription...")
+        done = False
+        try:
+            with st.spinner("Transcribing..."):
+                transcript(
+                    subscription=getenv("AZURE_AI_SPEECH_SUBSCRIPTION_KEY"),
+                    region=getenv("AZURE_AI_SPEECH_REGION"),
+                    speech_recognition_language=getenv("AZURE_AI_SPEECH_RECOGNITION_LANGUAGE"),
+                )
+        except Exception as e:
+            st.write(f"Error: {e}")
+            logger.error(f"Error: {e}")
diff --git a/frontend/solutions/types.py b/frontend/solutions/types.py
@@ -0,0 +1,6 @@
+from enum import Enum
+
+
+class SolutionType(Enum):
+    TRANSCRIPTION = "TRANSCRIPTION"
+    SANDBOX = "SANDBOX"
diff --git a/main.py b/main.py
@@ -39,9 +39,17 @@ def frontend(
     backend_url: Annotated[str, typer.Option(help="Backend URL")] = os.getenv("BACKEND_URL", "http://localhost:8000/"),
 ):
     from frontend.entrypoint import start
+    from frontend.solutions.types import SolutionType
+
+    # convert solution_name to SolutionType
+    try:
+        solution_type = SolutionType(solution_name.upper())
+    except ValueError:
+        typer.echo(f"Invalid solution name: {solution_name}", err=True)
+        raise typer.Exit(code=1)
 
     start(
-        solution_name=solution_name,
+        solution_type=solution_type,
         backend_url=backend_url,
         log_level=log_level,
     )
diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -32,6 +32,7 @@ pydantic-settings = "^2.2.1"
 [tool.poetry.group.frontend.dependencies]
 streamlit = "^1.33.0"
 aiohttp = {extras = ["speedups"], version = "^3.9.5"}
+azure-cognitiveservices-speech = "^1.37.0"
 
 
 [tool.poetry.group.azure-functions.dependencies]

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+AZURE_AI_SPEECH_SUBSCRIPTION_KEY="<your-subscription-key>"`
	`2`	`+AZURE_AI_SPEECH_REGION="japaneast"`
	`3`	`+AZURE_AI_SPEECH_RECOGNITION_LANGUAGE="ja-JP"`