feat: add python-pptx dependency and update parser imports

maxpill · maxpill · commit d3e21c0b261b · 2025-07-11T14:31:02.000+02:00
- Added python-pptx to dependencies in uv.lock and updated its version constraint in pyproject.toml.
- Refactored import paths for PptxDocumentParser in the ingestion parsers to improve module structure.
diff --git a/packages/ragbits-document-search/pyproject.toml b/packages/ragbits-document-search/pyproject.toml
@@ -35,7 +35,7 @@ dependencies = [
     "rerankers>=0.6.1,<1.0.0",
     "filetype>=1.2.0,<2.0.0",
     "ragbits-core==1.1.0",
-    "python-pptx>=0.6.21,<1.0.0",
+    "python-pptx>=1.0.0,<2.0.0",
 ]
 
 [project.urls]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/__init__.py
@@ -1,5 +1,5 @@
 from ragbits.document_search.ingestion.parsers.base import DocumentParser, ImageDocumentParser, TextDocumentParser
-from ragbits.document_search.ingestion.parsers.pptx_parser import PptxDocumentParser
+from ragbits.document_search.ingestion.parsers.pptx import PptxDocumentParser
 from ragbits.document_search.ingestion.parsers.router import DocumentParserRouter
 
 __all__ = [
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/__init__.py
@@ -1,4 +1,4 @@
-from ragbits.document_search.ingestion.parsers.pptx.parser import PptxDocumentParser
+from .parser import PptxDocumentParser
 
 __all__ = [
     "PptxDocumentParser",
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py
@@ -0,0 +1,35 @@
+from .dataclasses import (
+    ExtractedHyperlink,
+    ExtractedImage,
+    ExtractedMetadata,
+    ExtractedShape,
+    ExtractedSlideImage,
+    ExtractedSpeakerNotes,
+    ExtractedText,
+)
+from .extractors import (
+    BaseExtractor,
+    HyperlinkExtractor,
+    ImageExtractor,
+    MetadataExtractor,
+    ShapeExtractor,
+    SpeakerNotesExtractor,
+    TextExtractor,
+)
+
+__all__ = [
+    "BaseExtractor",
+    "ExtractedHyperlink",
+    "ExtractedImage",
+    "ExtractedMetadata",
+    "ExtractedShape",
+    "ExtractedSlideImage",
+    "ExtractedSpeakerNotes",
+    "ExtractedText",
+    "HyperlinkExtractor",
+    "ImageExtractor",
+    "MetadataExtractor",
+    "ShapeExtractor",
+    "SpeakerNotesExtractor",
+    "TextExtractor",
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/dataclasses.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/dataclasses.py
@@ -0,0 +1,113 @@
+from __future__ import annotations
+
+from dataclasses import dataclass, field
+from datetime import datetime
+from typing import Any
+
+
+@dataclass
+class ExtractedHyperlink:
+    """Represents a hyperlink extracted from a PPTX file."""
+
+    url: str
+    display_text: str
+    slide_index: int
+    shape_id: int | None = None
+    shape_name: str | None = None
+    is_internal: bool = False
+    target_slide_index: int | None = None
+
+
+@dataclass
+class ExtractedText:
+    """Represents text content extracted from a PPTX file."""
+
+    content: str
+    slide_index: int
+    shape_id: int | None = None
+    shape_name: str | None = None
+    hierarchy_level: int = 0  # 0=title, 1=subtitle, 2=body, etc.
+    font_size: float | None = None
+    is_bold: bool = False
+    is_italic: bool = False
+    is_underline: bool = False
+    font_name: str | None = None
+    color_rgb: str | None = None
+    left: int | None = None
+    top: int | None = None
+    width: int | None = None
+    height: int | None = None
+
+
+@dataclass
+class ExtractedImage:
+    """Represents an image extracted from a PPTX file."""
+
+    image_bytes: bytes
+    slide_index: int
+    shape_id: int | None = None
+    shape_name: str | None = None
+    format: str | None = None
+    width: int | None = None
+    height: int | None = None
+    left: int | None = None
+    top: int | None = None
+
+
+@dataclass
+class ExtractedShape:
+    """Represents a shape extracted from a PPTX file."""
+
+    shape_type: str
+    slide_index: int
+    shape_id: int | None = None
+    shape_name: str | None = None
+    left: int | None = None
+    top: int | None = None
+    width: int | None = None
+    height: int | None = None
+    rotation: float | None = None
+    fill_color: str | None = None
+    line_color: str | None = None
+    text_content: str | None = None
+
+
+@dataclass
+class ExtractedSpeakerNotes:
+    """Represents speaker notes extracted from a PPTX file."""
+
+    content: str
+    slide_index: int
+    formatting: dict[str, Any] = field(default_factory=dict)
+
+
+@dataclass
+class ExtractedSlideImage:
+    """Represents a slide rendered as an image."""
+
+    image_bytes: bytes
+    slide_index: int
+    width: int
+    height: int
+    format: str = "PNG"
+
+
+@dataclass
+class ExtractedMetadata:
+    """Represents document metadata extracted from a PPTX file."""
+
+    title: str | None = None
+    author: str | None = None
+    subject: str | None = None
+    keywords: str | None = None
+    comments: str | None = None
+    category: str | None = None
+    created: datetime | None = None
+    modified: datetime | None = None
+    last_modified_by: str | None = None
+    last_printed: datetime | None = None
+    revision: int | None = None
+    version: str | None = None
+    language: str | None = None
+    content_status: str | None = None
+    identifier: str | None = None
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/parser.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/parser.py

Original file line number	Diff line number	Diff line change
`@@ -35,7 +35,7 @@ dependencies = [`
`35`	`35`	`"rerankers>=0.6.1,<1.0.0",`
`36`	`36`	`"filetype>=1.2.0,<2.0.0",`
`37`	`37`	`"ragbits-core==1.1.0",`
`38`		`- "python-pptx>=0.6.21,<1.0.0",`
	`38`	`+ "python-pptx>=1.0.0,<2.0.0",`
`39`	`39`	`]`
`40`	`40`
`41`	`41`	`[project.urls]`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-from ragbits.document_search.ingestion.parsers.pptx.parser import PptxDocumentParser`
	`1`	`+from .parser import PptxDocumentParser`
`2`	`2`
`3`	`3`	`__all__ = [`
`4`	`4`	`"PptxDocumentParser",`