2/n model parser impl

Ankush Pala  ankush@lastmileai.dev · Ankush Pala  ankush@lastmileai.dev · commit d328bd0be5fc · 2024-01-05T14:47:02.000-05:00
## Testplan Created an mp3 file that says "hi". Used aiconfig to run asr on it. |<img width="596" alt="Screenshot 2024-01-05 at 2 39 17 PM" src="https://github.com/lastmile-ai/aiconfig/assets/141073967/42c7ddbe-20ca-4828-b609-725b88a08939">|<img width="900" alt="Screenshot 2024-01-05 at 2 41 04 PM" src="https://github.com/lastmile-ai/aiconfig/assets/141073967/74b21333-d347-4270-bbd6-efd318785172">| | ------------- | ------------- |
diff --git a/extensions/HuggingFace/python/src/aiconfig_extension_hugging_face/__init__.py b/extensions/HuggingFace/python/src/aiconfig_extension_hugging_face/__init__.py
@@ -1,8 +1,9 @@
 from .local_inference.text_2_image import HuggingFaceText2ImageDiffusor
 from .local_inference.text_generation import HuggingFaceTextGenerationTransformer
-from .remote_inference_client.text_generation import HuggingFaceTextGenerationClient
+# from .remote_inference_client.text_generation import HuggingFaceTextGenerationClient
 from .local_inference.text_summarization import HuggingFaceTextSummarizationTransformer
 from .local_inference.text_translation import HuggingFaceTextTranslationTransformer
+from .local_inference.automatic_speech_recognition import HuggingFaceAutomaticSpeechRecognition
 
 # from .remote_inference_client.text_generation import HuggingFaceTextGenerationClient
 
@@ -11,6 +12,7 @@
     "HuggingFaceTextGenerationTransformer",
     "HuggingFaceTextSummarizationTransformer",
     "HuggingFaceTextTranslationTransformer",
+    "HuggingFaceAutomaticSpeechRecognition",
 ]
 REMOTE_INFERENCE_CLASSES = ["HuggingFaceTextGenerationClient"]
 __ALL__ = LOCAL_INFERENCE_CLASSES + REMOTE_INFERENCE_CLASSES
diff --git a/extensions/HuggingFace/python/src/aiconfig_extension_hugging_face/local_inference/automatic_speech_recognition.py b/extensions/HuggingFace/python/src/aiconfig_extension_hugging_face/local_inference/automatic_speech_recognition.py
@@ -1,8 +1,8 @@
-from typing import Any, Coroutine, Dict, Optional, List, TYPE_CHECKING
+from typing import Any, Dict, Optional, List, TYPE_CHECKING
 from aiconfig import ParameterizedModelParser, InferenceOptions, AIConfig
-
-from aiconfig.schema import Prompt, Output
-from transformers import Pipeline
+import torch
+from aiconfig.schema import Prompt, Output, ExecuteResult
+from transformers import pipeline, Pipeline
 
 if TYPE_CHECKING:
     from aiconfig import AIConfigRuntime
@@ -24,7 +24,7 @@ def __init__(self):
                 config.register_model_parser(parser)
         """
         super().__init__()
-        self.generators: dict[str, Pipeline] = {}
+        self.pipelines: dict[str, Pipeline] = {}
 
     def id(self) -> str:
         """
@@ -56,10 +56,41 @@ async def serialize(
     async def deserialize(
         self,
         prompt: Prompt,
-        aiconfig: "AIConfig",
+        aiconfig: "AIConfigRuntime",
         params: Optional[Dict[str, Any]] = {},
     ) -> Dict[str, Any]:
-        pass
+        # Build Completion data
+        completion_params = self.get_model_settings(prompt, aiconfig)
+
+        inputs = prompt.input.attachments[0].data
+
+        completion_params["inputs"] = inputs
+        return completion_params
 
     async def run_inference(self, prompt: Prompt, aiconfig: "AIConfigRuntime", options: InferenceOptions, parameters: Dict[str, Any]) -> list[Output]:
-        pass
+        model_name = aiconfig.get_model_name(prompt)
+
+        if isinstance(model_name, str) and model_name not in self.pipelines:
+            device = self._get_device()
+            self.pipelines[model_name] = pipeline(task="automatic-speech-recognition", model=model_name, device=device)
+
+        asr_pipeline = self.pipelines[model_name]
+        completion_data = await self.deserialize(prompt, aiconfig, parameters)
+
+        response = asr_pipeline(**completion_data)
+
+        output = ExecuteResult(output_type="execute_result", data=response, metadata={})
+
+        prompt.outputs = [output]
+
+        return prompt.outputs
+
+    def _get_device(self) -> str:
+        if torch.cuda.is_available():
+            return "cuda"
+        # Mps backend is not supported for all asr models.
+        # This is currently a torch library limitation. Test this by creating a pipeline with mps backend.
+        return "cpu"
+
+    def get_output_text(self, response: dict[str, Any]) -> str:
+        return