Make prepdocs mypy happy

pamelafox · pamelafox · commit b3787279e53a · 2024-09-26T13:30:24.000-07:00
diff --git a/app/backend/prepdocs.py b/app/backend/prepdocs.py
@@ -156,10 +156,9 @@ def setup_file_processors(
     local_html_parser: bool = False,
     search_images: bool = False,
 ):
-    html_parser: Parser
-    pdf_parser: Parser
-    doc_int_parser: DocumentAnalysisParser = None
+    sentence_text_splitter = SentenceTextSplitter(has_image_embeddings=search_images)
 
+    doc_int_parser: Optional[DocumentAnalysisParser] = None
     # check if Azure Document Intelligence credentials are provided
     if document_intelligence_service is not None:
         documentintelligence_creds: Union[AsyncTokenCredential, AzureKeyCredential] = (
@@ -169,25 +168,34 @@ def setup_file_processors(
             endpoint=f"https://{document_intelligence_service}.cognitiveservices.azure.com/",
             credential=documentintelligence_creds,
         )
+
+    pdf_parser: Optional[Parser] = None
     if local_pdf_parser or document_intelligence_service is None:
         pdf_parser = LocalPdfParser()
-    else:
+    elif document_intelligence_service is not None:
         pdf_parser = doc_int_parser
+    else:
+        logger.warning("No PDF parser available")
+
+    html_parser: Optional[Parser] = None
     if local_html_parser or document_intelligence_service is None:
         html_parser = LocalHTMLParser()
-    else:
+    elif document_intelligence_service is not None:
         html_parser = doc_int_parser
-    sentence_text_splitter = SentenceTextSplitter(has_image_embeddings=search_images)
+    else:
+        logger.warning("No HTML parser available")
 
-    # These file formats can always be parsed, thanks to local packages
+    # These file formats can always be parsed:
     file_processors = {
-        ".pdf": FileProcessor(pdf_parser, sentence_text_splitter),
-        ".html": FileProcessor(html_parser, sentence_text_splitter),
         ".json": FileProcessor(JsonParser(), SimpleTextSplitter()),
         ".md": FileProcessor(TextParser(), sentence_text_splitter),
         ".txt": FileProcessor(TextParser(), sentence_text_splitter),
     }
-
+    # These require either a Python package or Document Intelligence
+    if pdf_parser is not None:
+        file_processors.update({".pdf": FileProcessor(pdf_parser, sentence_text_splitter)})
+    if html_parser is not None:
+        file_processors.update({".html": FileProcessor(html_parser, sentence_text_splitter)})
     # These file formats require Document Intelligence
     if doc_int_parser is not None:
         file_processors.update(