refactor(pptx): rename ExtractedNotes to ExtractedSpeakerNotes and update related references

maxpill · maxpill · commit 6cc10622861c · 2025-07-11T14:36:12.000+02:00
- Updated the naming of ExtractedNotes to ExtractedSpeakerNotes for clarity.
- Adjusted method signatures and import statements accordingly in the parser and extractor files.
- Added DEFAULT_EXTRACTORS for the new SpeakerNotesExtractor.
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py
@@ -8,6 +8,7 @@
     ExtractedText,
 )
 from .extractors import (
+    DEFAULT_EXTRACTORS,
     BaseExtractor,
     HyperlinkExtractor,
     ImageExtractor,
@@ -18,6 +19,7 @@
 )
 
 __all__ = [
+    "DEFAULT_EXTRACTORS",
     "BaseExtractor",
     "ExtractedHyperlink",
     "ExtractedImage",
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py
@@ -2,8 +2,6 @@
 
 import io
 from abc import ABC, abstractmethod
-from dataclasses import dataclass, field
-from datetime import datetime
 from typing import Any
 
 from PIL import Image
@@ -341,7 +339,7 @@ def get_extractor_name(self) -> str:
 class SpeakerNotesExtractor(BaseExtractor):
     """Extracts speaker notes from slides."""
 
-    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[ExtractedNotes]:
+    def extract(self, presentation: Presentation, slide: Slide | None = None) -> list[ExtractedSpeakerNotes]:
         """Extract notes from all slides or a specific slide."""
         extracted_notes = []
 
@@ -365,7 +363,7 @@ def extract(self, presentation: Presentation, slide: Slide | None = None) -> lis
                     if notes_text.strip():
                         formatting = self._extract_notes_formatting(notes_slide.notes_text_frame)
                         extracted_notes.append(
-                            ExtractedNotes(content=notes_text, slide_index=slide_idx, formatting=formatting)
+                            ExtractedSpeakerNotes(content=notes_text, slide_index=slide_idx, formatting=formatting)
                         )
 
         return extracted_notes
@@ -452,7 +450,7 @@ def get_extractor_name(self) -> str:
     HyperlinkExtractor(),
     ImageExtractor(),
     ShapeExtractor(),
-    NotesExtractor(),
+    SpeakerNotesExtractor(),
     MetadataExtractor(),
     SlideImageExtractor(),
 ]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/parser.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/parser.py
@@ -14,7 +14,7 @@
     ExtractedHyperlink,
     ExtractedImage,
     ExtractedMetadata,
-    ExtractedNotes,
+    ExtractedSpeakerNotes,
     ExtractedText,
 )
 
@@ -349,7 +349,7 @@ def _process_image_content(self, image_data: list[ExtractedImage], document: Doc
 
         return elements
 
-    def _process_notes_content(self, notes_data: list[ExtractedNotes], document: Document) -> list[TextElement]:
+    def _process_notes_content(self, notes_data: list[ExtractedSpeakerNotes], document: Document) -> list[TextElement]:
         """
         Process extracted notes content into TextElement objects.
 

Original file line number	Diff line number	Diff line change
`@@ -8,6 +8,7 @@`
`8`	`8`	`ExtractedText,`
`9`	`9`	`)`
`10`	`10`	`from .extractors import (`
	`11`	`+ DEFAULT_EXTRACTORS,`
`11`	`12`	`BaseExtractor,`
`12`	`13`	`HyperlinkExtractor,`
`13`	`14`	`ImageExtractor,`
`@@ -18,6 +19,7 @@`
`18`	`19`	`)`
`19`	`20`
`20`	`21`	`__all__ = [`
	`22`	`+ "DEFAULT_EXTRACTORS",`
`21`	`23`	`"BaseExtractor",`
`22`	`24`	`"ExtractedHyperlink",`
`23`	`25`	`"ExtractedImage",`