refactor(pptx): enhance PPTX extraction classes and remove unused dataclasses

maxpill · maxpill · commit 888eadf411ed · 2025-07-11T14:57:20.000+02:00
- Renamed and refactored extractor classes to follow a consistent naming convention, changing BaseExtractor to BasePptxExtractor and updating derived classes accordingly.
- Removed the dataclasses.py file as it contained unused data structures.
- Updated the DEFAULT_EXTRACTORS list to include the new extractor classes.
- Added python-pptx as a dependency in uv.lock and updated the requirements.
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/__init__.py
@@ -0,0 +1,5 @@
+from .parser import PptxDocumentParser
+
+__all__ = [
+    "PptxDocumentParser",
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py
@@ -1,6 +1,6 @@
 from .extractors import (
     DEFAULT_EXTRACTORS,
-    BaseExtractor,
+    BasePptxExtractor,
     HyperlinkExtractor,
     ImageExtractor,
     MetadataExtractor,
@@ -11,11 +11,11 @@
 
 __all__ = [
     "DEFAULT_EXTRACTORS",
-    "BaseExtractor",
-    "HyperlinkExtractor",
-    "ImageExtractor",
-    "MetadataExtractor",
-    "ShapeExtractor",
-    "SpeakerNotesExtractor",
-    "TextExtractor",
+    "BasePptxExtractor",
+    "PptxHyperlinkExtractor",
+    "PptxImageExtractor",
+    "PptxMetadataExtractor",
+    "PptxShapeExtractor",
+    "PptxSpeakerNotesExtractor",
+    "PptxTextExtractor",
 ]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/dataclasses.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/dataclasses.py
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py
@@ -9,20 +9,10 @@
 from pptx.presentation import Presentation
 from pptx.slide import Slide
 
-from ragbits.document_search.documents.element import Element
+from ragbits.document_search.documents.element import Element, ImageElement, TextElement
 
-from .dataclasses import (
-    ExtractedHyperlink,
-    ExtractedImage,
-    ExtractedMetadata,
-    ExtractedShape,
-    ExtractedSlideImage,
-    ExtractedSpeakerNotes,
-    ExtractedText,
-)
 
-
-class BaseExtractor(ABC):
+class BasePptxExtractor(ABC):
     """Base class for all PPTX content extractors."""
 
     @abstractmethod
@@ -36,10 +26,10 @@ def get_extractor_name(self) -> str:
         pass
 
 
-class TextExtractor(BaseExtractor):
+class PptxTextExtractor(BasePptxExtractor):
     """Extracts text content with hierarchy, positioning, and formatting."""
 
-    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[ExtractedText]:
+    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[Element]:
         """Extract text content from all slides or a specific slide."""
         extracted_texts = []
 
@@ -57,7 +47,7 @@ def extract(self, presentation: Presentation, slide: Slide | None = None) -> lis
                         for run in paragraph.runs:
                             if run.text.strip():
                                 extracted_texts.append(
-                                    ExtractedText(
+                                    TextElement(
                                         content=run.text,
                                         slide_index=slide_idx,
                                         shape_id=shape.shape_id,
@@ -122,10 +112,10 @@ def get_extractor_name(self) -> str:
         return "text"
 
 
-class HyperlinkExtractor(BaseExtractor):
+class PptxHyperlinkExtractor(BasePptxExtractor):
     """Extracts hyperlinks from shapes and text runs."""
 
-    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[ExtractedHyperlink]:
+    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[Element]:
         """Extract hyperlinks from all slides or a specific slide."""
         extracted_hyperlinks = []
 
@@ -142,7 +132,7 @@ def extract(self, presentation: Presentation, slide: Slide | None = None) -> lis
                     hyperlink_info = self._extract_hyperlink_from_action(shape.click_action)
                     if hyperlink_info:
                         extracted_hyperlinks.append(
-                            ExtractedHyperlink(
+                            Element(
                                 url=hyperlink_info["url"],
                                 display_text=hyperlink_info["display_text"],
                                 slide_index=slide_idx,
@@ -159,7 +149,7 @@ def extract(self, presentation: Presentation, slide: Slide | None = None) -> lis
                         for run in paragraph.runs:
                             if hasattr(run, "hyperlink") and run.hyperlink and run.hyperlink.address:
                                 extracted_hyperlinks.append(
-                                    ExtractedHyperlink(
+                                    Element(
                                         url=run.hyperlink.address,
                                         display_text=run.text,
                                         slide_index=slide_idx,
@@ -199,10 +189,10 @@ def get_extractor_name(self) -> str:
         return "hyperlink"
 
 
-class ImageExtractor(BaseExtractor):
+class PptxImageExtractor(BasePptxExtractor):
     """Extracts embedded images from slides."""
 
-    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[ExtractedImage]:
+    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[Element]:
         """Extract images from all slides or a specific slide."""
         extracted_images = []
 
@@ -220,7 +210,7 @@ def extract(self, presentation: Presentation, slide: Slide | None = None) -> lis
                         image_format = self._get_image_format(image_bytes)
 
                         extracted_images.append(
-                            ExtractedImage(
+                            ImageElement(
                                 image_bytes=image_bytes,
                                 slide_index=slide_idx,
                                 shape_id=shape.shape_id,
@@ -259,10 +249,10 @@ def get_extractor_name(self) -> str:
         return "image"
 
 
-class ShapeExtractor(BaseExtractor):
+class PptxShapeExtractor(BasePptxExtractor):
     """Extracts shape information including positioning and styling."""
 
-    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[ExtractedShape]:
+    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[Element]:
         """Extract shapes from all slides or a specific slide."""
         extracted_shapes = []
 
@@ -280,7 +270,7 @@ def extract(self, presentation: Presentation, slide: Slide | None = None) -> lis
                     )
 
                 extracted_shapes.append(
-                    ExtractedShape(
+                    Element(
                         shape_type=self._get_shape_type_name(shape.shape_type),
                         slide_index=slide_idx,
                         shape_id=shape.shape_id,
@@ -338,10 +328,10 @@ def get_extractor_name(self) -> str:
         return "shape"
 
 
-class SpeakerNotesExtractor(BaseExtractor):
+class PptxSpeakerNotesExtractor(BasePptxExtractor):
     """Extracts speaker notes from slides."""
 
-    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[ExtractedSpeakerNotes]:
+    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[Element]:
         """Extract notes from all slides or a specific slide."""
         extracted_notes = []
 
@@ -365,7 +355,7 @@ def extract(self, presentation: Presentation, slide: Slide | None = None) -> lis
                     if notes_text.strip():
                         formatting = self._extract_notes_formatting(notes_slide.notes_text_frame)
                         extracted_notes.append(
-                            ExtractedSpeakerNotes(content=notes_text, slide_index=slide_idx, formatting=formatting)
+                            Element(content=notes_text, slide_index=slide_idx, formatting=formatting)
                         )
 
         return extracted_notes
@@ -392,10 +382,10 @@ def get_extractor_name(self) -> str:
         return "notes"
 
 
-class SlideImageExtractor(BaseExtractor):
+class PptxSlideImageExtractor(BasePptxExtractor):
     """Extracts each slide as an image."""
 
-    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[ExtractedSlideImage]:
+    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[Element]:
         """Extract slides as images - placeholder implementation."""
         # Note: This would require additional libraries like python-pptx-interface
         # or conversion tools to render slides as images
@@ -406,14 +396,14 @@ def get_extractor_name(self) -> str:
         return "slide_image"
 
 
-class MetadataExtractor(BaseExtractor):
+class PptxMetadataExtractor(BasePptxExtractor):
     """Extracts document metadata and properties."""
 
-    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[ExtractedMetadata]:
+    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[Element]:
         """Extract metadata from the presentation."""
         core_props = presentation.core_properties
 
-        metadata = ExtractedMetadata(
+        metadata = Element(
             title=core_props.title,
             author=core_props.author,
             subject=core_props.subject,
@@ -446,13 +436,12 @@ def get_extractor_name(self) -> str:
         return "metadata"
 
 
-# Default list of extractors
 DEFAULT_EXTRACTORS = [
-    TextExtractor(),
-    HyperlinkExtractor(),
-    ImageExtractor(),
-    ShapeExtractor(),
-    SpeakerNotesExtractor(),
-    MetadataExtractor(),
-    SlideImageExtractor(),
+    PptxTextExtractor(),
+    PptxHyperlinkExtractor(),
+    PptxImageExtractor(),
+    PptxShapeExtractor(),
+    PptxSpeakerNotesExtractor(),
+    PptxMetadataExtractor(),
+    PptxSlideImageExtractor(),
 ]