feat: add PPTX document parser and update dependencies

maxpill · maxpill · commit 948f935b34af · 2025-07-11T16:06:30.000+02:00
- Introduced PptxDocumentParser to handle PPTX files.
- Updated the list of dependencies in pyproject.toml to include python-pptx.
- Cleaned up formatting in pyproject.toml and __init__.py for better readability.
diff --git a/packages/ragbits-document-search/pyproject.toml b/packages/ragbits-document-search/pyproject.toml
@@ -5,17 +5,15 @@ description = "Document Search module for Ragbits"
 readme = "README.md"
 requires-python = ">=3.10"
 license = "MIT"
-authors = [
-    { name = "deepsense.ai", email = "ragbits@deepsense.ai"}
-]
+authors = [{ name = "deepsense.ai", email = "ragbits@deepsense.ai" }]
 keywords = [
     "Retrieval Augmented Generation",
     "RAG",
     "Large Language Models",
     "LLMs",
     "Generative AI",
     "GenAI",
-    "Document Search"
+    "Document Search",
 ]
 classifiers = [
     "Development Status :: 4 - Beta",
@@ -31,7 +29,14 @@ classifiers = [
     "Topic :: Scientific/Engineering :: Artificial Intelligence",
     "Topic :: Software Development :: Libraries :: Python Modules",
 ]
-dependencies = ["docling>=2.15.1,<3.0.0", "opencv-python>=4.11.0.86,<5.0.0.0", "rerankers>=0.6.1,<1.0.0", "filetype>=1.2.0,<2.0.0", "ragbits-core==1.1.0"]
+dependencies = [
+    "docling>=2.15.1,<3.0.0",
+    "opencv-python>=4.11.0.86,<5.0.0.0",
+    "rerankers>=0.6.1,<1.0.0",
+    "filetype>=1.2.0,<2.0.0",
+    "ragbits-core==1.1.0",
+    "python-pptx>=1.0.0,<2.0.0",
+]
 
 [project.urls]
 "Homepage" = "https://github.com/deepsense-ai/ragbits"
@@ -44,9 +49,7 @@ unstructured = [
     "unstructured>=0.16.9,<1.0.0",
     "unstructured-client>=0.26.0,<1.0.0",
 ]
-ray = [
-    "ray[data]>=2.43.0,<3.0.0",
-]
+ray = ["ray[data]>=2.43.0,<3.0.0"]
 
 [tool.uv]
 dev-dependencies = [
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/__init__.py
@@ -1,4 +1,11 @@
 from ragbits.document_search.ingestion.parsers.base import DocumentParser, ImageDocumentParser, TextDocumentParser
+from ragbits.document_search.ingestion.parsers.pptx import PptxDocumentParser
 from ragbits.document_search.ingestion.parsers.router import DocumentParserRouter
 
-__all__ = ["DocumentParser", "DocumentParserRouter", "ImageDocumentParser", "TextDocumentParser"]
+__all__ = [
+    "DocumentParser",
+    "DocumentParserRouter",
+    "ImageDocumentParser",
+    "PptxDocumentParser",
+    "TextDocumentParser",
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/__init__.py
@@ -0,0 +1,5 @@
+from .parser import PptxDocumentParser
+
+__all__ = [
+    "PptxDocumentParser",
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py
@@ -0,0 +1,21 @@
+from .extractors import (
+    DEFAULT_EXTRACTORS,
+    BasePptxExtractor,
+    HyperlinkExtractor,
+    ImageExtractor,
+    MetadataExtractor,
+    ShapeExtractor,
+    SpeakerNotesExtractor,
+    TextExtractor,
+)
+
+__all__ = [
+    "DEFAULT_EXTRACTORS",
+    "BasePptxExtractor",
+    "PptxHyperlinkExtractor",
+    "PptxImageExtractor",
+    "PptxMetadataExtractor",
+    "PptxShapeExtractor",
+    "PptxSpeakerNotesExtractor",
+    "PptxTextExtractor",
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py
@@ -0,0 +1,214 @@
+from __future__ import annotations
+
+from abc import ABC, abstractmethod
+
+from pptx.presentation import Presentation
+from pptx.slide import Slide
+
+from ragbits.document_search.documents.document import DocumentMeta
+from ragbits.document_search.documents.element import ElementLocation, TextElement
+
+
+class BasePptxExtractor(ABC):
+    """Base class for all PPTX content extractors."""
+
+    @abstractmethod
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract content from the presentation or specific slide."""
+
+    @abstractmethod
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+
+
+class PptxTextExtractor(BasePptxExtractor):
+    """Extracts text content with hierarchy, positioning, and formatting."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract text content from the presentation or a specific slide."""
+        slides = [slide] if slide else list(presentation.slides)
+
+        elements: list[TextElement] = []
+        for slide_idx, sld in enumerate(slides, start=1):
+            for shape in sld.shapes:
+                if shape.has_text_frame:
+                    text_frame = shape.text_frame
+                    text = str(text_frame.text).strip()
+                    element = TextElement(                   
+                        element_type="text",
+                        document_meta=document_meta,
+                        location=ElementLocation(page_number=slide_idx, coordinates={"left": shape.left, "top": shape.top, "width": shape.width, "height": shape.height}),
+                        content=text,
+                    )
+                    elements.append(element)
+
+        return elements
+
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_text_extractor"
+
+class PptxHyperlinkExtractor(BasePptxExtractor):
+    """Extracts text content with hierarchy, positioning, and formatting."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract hyperlink content from the presentation or a specific slide."""
+        slides = [slide] if slide else list(presentation.slides)
+
+        elements: list[TextElement] = []
+        for slide_idx, sld in enumerate(slides, start=1):
+            for shape in sld.shapes:
+                if shape.click_action.hyperlink.address:
+                    shape.has_text_frame
+                    element = TextElement(                   
+                        element_type="text",
+                        document_meta=document_meta,
+                        location=ElementLocation(page_number=slide_idx, coordinates={"left": shape.left, "top": shape.top, "width": shape.width, "height": shape.height}),
+                        content=shape.click_action.hyperlink.address,
+                    )
+                    elements.append(element)
+
+        return elements
+
+    
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_hyperlink_extractor"
+    
+class PptxImageExtractor(BasePptxExtractor):
+    """Extracts text content with hierarchy, positioning, and formatting."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract hyperlink content from the presentation or a specific slide."""
+        slides = [slide] if slide else list(presentation.slides)
+
+        elements: list[TextElement] = []
+        for slide_idx, sld in enumerate(slides, start=1):
+            for shape in sld.shapes:
+                if shape.click_action.hyperlink:
+                    text_frame = shape.text_frame
+                    text = str(text_frame.text).strip()
+                    element = TextElement(                   
+                        element_type="text",
+                        document_meta=document_meta,
+                        location=ElementLocation(page_number=slide_idx, coordinates={"left": shape.left, "top": shape.top, "width": shape.width, "height": shape.height}),
+                        content=text,
+                    )
+                    elements.append(element)
+
+        return elements
+
+    
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_image_extractor"
+
+
+class PptxShapeExtractor(BasePptxExtractor):
+    """Extracts text content with hierarchy, positioning, and formatting."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract hyperlink content from the presentation or a specific slide."""
+        slides = [slide] if slide else list(presentation.slides)
+
+        elements: list[TextElement] = []
+        for slide_idx, sld in enumerate(slides, start=1):
+            for shape in sld.shapes:
+                if shape.click_action.hyperlink:
+                    text_frame = shape.text_frame
+                    text = str(text_frame.text).strip()
+                    element = TextElement(                   
+                        element_type="text",
+                        document_meta=document_meta,
+                        location=ElementLocation(page_number=slide_idx, coordinates={"left": shape.left, "top": shape.top, "width": shape.width, "height": shape.height}),
+                        content=text,
+                    )
+                    elements.append(element)
+
+        return elements
+
+    
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_shape_extractor"
+    
+class PptxMetadataExtractor(BasePptxExtractor):
+    """Extracts text content with hierarchy, positioning, and formatting."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract hyperlink content from the presentation or a specific slide."""
+        core_properties = presentation.core_properties
+        properties = [
+            core_properties.author,
+            core_properties.title,
+            core_properties.subject,
+            core_properties.keywords,
+            core_properties.category,
+            core_properties.created,
+            core_properties.modified,
+        ]
+        
+        elements = []
+        for prop in properties:
+            if prop is not None:
+                elements.append(TextElement(
+                    element_type="metadata",
+                    document_meta=document_meta,
+                    content=prop,
+                ))
+
+        return elements
+
+    
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_metadata_extractor"
+    
+class PptxSpeakerNotesExtractor(BasePptxExtractor):
+    """Extracts text content with hierarchy, positioning, and formatting."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract hyperlink content from the presentation or a specific slide."""
+        slides = [slide] if slide else list(presentation.slides)
+
+        elements: list[TextElement] = []
+        for slide_idx, sld in enumerate(slides, start=1):
+            if sld.has_notes_slide and sld.notes_slide.notes_text_frame is not None:
+                notes_slide = sld.notes_slide
+                notes_text_frame = notes_slide.notes_text_frame
+                text = notes_text_frame.text
+                element = TextElement(                   
+                        element_type="text",
+                        document_meta=document_meta,
+                        location=ElementLocation(page_number=slide_idx, coordinates={"left": notes_text_frame.margin_left, "right": notes_text_frame.margin_right, "top": notes_text_frame.margin_top, "bottom": notes_text_frame.margin_bottom}),
+                        content=text,
+                    )
+                elements.append(element)
+                for shape in notes_slide.shapes:
+                    if shape.has_text_frame:
+                        text_frame = shape.text_frame
+                        text = str(text_frame.text).strip()
+                        element = TextElement(                   
+                            element_type="text",
+                            document_meta=document_meta,
+                            location=ElementLocation(page_number=slide_idx, coordinates={"left": shape.left, "top": shape.top, "width": shape.width, "height": shape.height}),
+                            content=text,
+                        )
+                        elements.append(element)
+
+        return elements
+
+    
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_speaker_notes_extractor"
+
+DEFAULT_EXTRACTORS = [
+    PptxTextExtractor(),
+    PptxHyperlinkExtractor(),
+    PptxImageExtractor(),
+    PptxShapeExtractor(),
+    PptxSpeakerNotesExtractor(),
+    PptxMetadataExtractor(),
+    # PptxSlideImageExtractor(),
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/parser.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/parser.py
@@ -0,0 +1,56 @@
+from __future__ import annotations
+
+import logging
+
+from pptx import Presentation
+
+from ragbits.document_search.documents.document import Document, DocumentType
+from ragbits.document_search.documents.element import Element
+from ragbits.document_search.ingestion.parsers.base import DocumentParser
+from ragbits.document_search.ingestion.parsers.pptx.extractors import (
+    DEFAULT_EXTRACTORS,
+    BaseExtractor,
+)
+
+logger = logging.getLogger(__name__)
+
+
+class PptxDocumentParser(DocumentParser):
+    """
+    A comprehensive PPTX parser using python-pptx library with modular extractor architecture.
+    """
+
+    supported_document_types = {DocumentType.PPTX}
+
+    def __init__(
+        self,
+        extractors: list[BaseExtractor] | None = None,
+    ) -> None:
+        """
+        Initialize the PPTX parser with configurable extractors.
+
+        Args:
+            extractors: List of extractors to use. If None, uses DEFAULT_EXTRACTORS.
+        """
+        self.extractors = extractors or DEFAULT_EXTRACTORS
+
+    async def parse(self, document: Document) -> list[Element]:
+        """
+        Parse the PPTX document and return extracted elements.
+
+        Args:
+            document: The document to parse.
+
+        Returns:
+            List of extracted elements.
+        """
+        self.validate_document_type(document.metadata.document_type)
+
+        extracted_elements = []
+        presentation = Presentation(document.local_path.as_posix())
+
+        for extractor in self.extractors:
+            for slide in presentation.slides:
+                extracted_elements.extend(extractor.extract(presentation, slide))
+
+        return extracted_elements
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/router.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/router.py
@@ -8,6 +8,7 @@
 from ragbits.document_search.ingestion.parsers.base import DocumentParser
 from ragbits.document_search.ingestion.parsers.docling import DoclingDocumentParser
 from ragbits.document_search.ingestion.parsers.exceptions import ParserNotFoundError
+from ragbits.document_search.ingestion.parsers.pptx.parser import PptxDocumentParser
 
 _default_parser = DoclingDocumentParser()
 
@@ -16,7 +17,7 @@
     DocumentType.MD: _default_parser,
     DocumentType.PDF: _default_parser,
     DocumentType.DOCX: _default_parser,
-    DocumentType.PPTX: _default_parser,
+    DocumentType.PPTX: PptxDocumentParser(),
     DocumentType.XLSX: _default_parser,
     DocumentType.HTML: _default_parser,
     DocumentType.JPG: _default_parser,