refactor: rename the whole project into pdf2table

Alijanloo · Alijanloo · commit 90c13aa5c79e · 2025-07-14T22:20:29.000+03:30
diff --git a/README.md b/README.md
@@ -1,4 +1,4 @@
-# TableRag
+# Pdf2Table
 
 A RAG (Retrieval-Augmented Generation) application for detecting, extracting, and indexing tables from PDF documents and finally inferring on them.
 
@@ -24,7 +24,7 @@ This project aims to provide a robust solution for extracting tabular data from
 
 ## Project Structure
 
-- `table_rag/`: Main package
+- `pdf2table/`: Main package
   - `adaptors/`: Interface with external systems (Elasticsearch, PDF reader, Table Transformer)
   - `entities/`: Domain models
   - `usecases/`: Application logic
@@ -42,8 +42,8 @@ pip install -e .
 
 ### Usage
 ```python
-from table_rag.frameworks.table_extraction_factory import TableExtractionFactory
-from table_rag.usecases.dtos import TableExtractionRequest
+from pdf2table.frameworks.table_extraction_factory import TableExtractionFactory
+from pdf2table.usecases.dtos import TableExtractionRequest
 
 # Initialize the factory
 factory = TableExtractionFactory()
diff --git a/docs/architecture_guide.md b/docs/architecture_guide.md
@@ -2,7 +2,7 @@
 
 ## Directory Structure
 ```
-table_rag/
+pdf2table/
 ├── entities/
 │   └── table_entities.py
 ├── usecases/
@@ -22,7 +22,7 @@ table_rag/
 
 ## Architecture Layers
 
-### 1. Entities Layer (`table_rag/entities/`)
+### 1. Entities Layer (`pdf2table/entities/`)
 - **table_entities.py**: Core business entities and domain services
   - `BoundingBox`: Value object for coordinates
   - `DetectedCell`: Detected table cell entity
@@ -31,7 +31,7 @@ table_rag/
   - `DetectedTable`: Detected table with metadata
   - `PageImage`: PDF page image entity
 
-### 2. Use Cases Layer (`table_rag/usecases/`)
+### 2. Use Cases Layer (`pdf2table/usecases/`)
 - **table_extraction_use_case.py**: Application business logic
   - `TableExtractionUseCase`: Orchestrates table extraction workflow
   - `TableGridBuilder`: Builds structured grids from detected cells
@@ -43,12 +43,12 @@ table_rag/
   - `TableExtractionRequest`: Request DTO for table extraction
   - `TableExtractionResponse`: Response DTO for table extraction
 
-### 3. Interface Adapters Layer (`table_rag/adaptors/`)
+### 3. Interface Adapters Layer (`pdf2table/adaptors/`)
 - **table_extraction_ports.py**: Abstract interfaces and DTOs
   - Port interfaces: `PDFImageExtractorPort`, `TableDetectorPort`, etc.
   - `TableExtractionAdapter`: Coordinates between use cases and external interfaces
 
-### 4. Frameworks & Drivers Layer (`table_rag/frameworks/`)
+### 4. Frameworks & Drivers Layer (`pdf2table/frameworks/`)
 - **pdf_image_extractor.py**: PyMuPDF implementation
 - **table_transformer_detector.py**: Table detection using Transformer models
 - **table_structure_recognizer.py**: Structure recognition using Transformer models
@@ -58,7 +58,7 @@ table_rag/
 
 ### Usage (Simple)
 ```python
-from table_rag.frameworks.table_extraction_factory import TableExtractionService
+from pdf2table.frameworks.table_extraction_factory import TableExtractionService
 
 service = TableExtractionService(device="cpu")
 result = service.extract_tables_from_page(pdf_path, page_number)
@@ -67,8 +67,8 @@ tables = result["tables"]
 
 ### Usage (Advanced)
 ```python
-from table_rag.frameworks.table_extraction_factory import TableExtractionFactory
-from table_rag.usecases.dtos import TableExtractionRequest
+from pdf2table.frameworks.table_extraction_factory import TableExtractionFactory
+from pdf2table.usecases.dtos import TableExtractionRequest
 
 # Create with custom configuration
 adapter = TableExtractionFactory.create_table_extraction_adapter(
diff --git a/pdf2table/__init__.py b/pdf2table/__init__.py
diff --git a/pdf2table/adaptors/__init__.py b/pdf2table/adaptors/__init__.py
diff --git a/pdf2table/adaptors/table_extraction_adaptor.py b/pdf2table/adaptors/table_extraction_adaptor.py
@@ -1,5 +1,5 @@
-from table_rag.usecases.dtos import TableExtractionRequest, TableExtractionResponse
-from table_rag.usecases.table_extraction_use_case import TableExtractionUseCase
+from pdf2table.usecases.dtos import TableExtractionRequest, TableExtractionResponse
+from pdf2table.usecases.table_extraction_use_case import TableExtractionUseCase
 
 
 class TableExtractionAdapter:
diff --git a/pdf2table/entities/__init__.py b/pdf2table/entities/__init__.py
diff --git a/pdf2table/entities/table_entities.py b/pdf2table/entities/table_entities.py
diff --git a/pdf2table/frameworks/__init__.py b/pdf2table/frameworks/__init__.py
diff --git a/pdf2table/frameworks/ocr_service.py b/pdf2table/frameworks/ocr_service.py
@@ -4,7 +4,7 @@
 from PIL import Image
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 
-from table_rag.usecases.interfaces.framework_interfaces import OCRInterface
+from pdf2table.usecases.interfaces.framework_interfaces import OCRInterface
 
 
 class TrOCRService(OCRInterface):
diff --git a/pdf2table/frameworks/pdf_image_extractor.py b/pdf2table/frameworks/pdf_image_extractor.py
@@ -2,8 +2,8 @@
 import numpy as np
 import fitz
 
-from table_rag.entities.table_entities import PageImage
-from table_rag.usecases.interfaces.framework_interfaces import (
+from pdf2table.entities.table_entities import PageImage
+from pdf2table.usecases.interfaces.framework_interfaces import (
     PDFImageExtractorInterface,
 )
 
diff --git a/pdf2table/frameworks/table_extraction_factory.py b/pdf2table/frameworks/table_extraction_factory.py
@@ -1,12 +1,12 @@
-from table_rag.usecases.table_extraction_use_case import TableExtractionUseCase
-from table_rag.usecases.dtos import TableExtractionRequest
-from table_rag.adaptors.table_extraction_adaptor import TableExtractionAdapter
-from table_rag.frameworks.pdf_image_extractor import PyMuPDFImageExtractor
-from table_rag.frameworks.table_transformer_detector import TableTransformerDetector
-from table_rag.frameworks.table_structure_recognizer import (
+from pdf2table.usecases.table_extraction_use_case import TableExtractionUseCase
+from pdf2table.usecases.dtos import TableExtractionRequest
+from pdf2table.adaptors.table_extraction_adaptor import TableExtractionAdapter
+from pdf2table.frameworks.pdf_image_extractor import PyMuPDFImageExtractor
+from pdf2table.frameworks.table_transformer_detector import TableTransformerDetector
+from pdf2table.frameworks.table_structure_recognizer import (
     TableTransformerStructureRecognizer,
 )
-from table_rag.frameworks.ocr_service import TrOCRService
+from pdf2table.frameworks.ocr_service import TrOCRService
 
 
 class TableExtractionFactory:
@@ -73,7 +73,7 @@ def extract_tables_from_page(self, pdf_path: str, page_number: int) -> dict:
 
     def extract_tables_from_pdf(self, pdf_path: str) -> list[dict]:
         """Extract tables from all pages of a PDF."""
-        from table_rag.frameworks.pdf_image_extractor import PyMuPDFImageExtractor
+        from pdf2table.frameworks.pdf_image_extractor import PyMuPDFImageExtractor
 
         # Get page count
         pdf_extractor = PyMuPDFImageExtractor()
diff --git a/pdf2table/frameworks/table_structure_recognizer.py b/pdf2table/frameworks/table_structure_recognizer.py
@@ -3,8 +3,8 @@
 from typing import List
 from transformers import DetrFeatureExtractor, TableTransformerForObjectDetection
 
-from table_rag.entities.table_entities import PageImage, DetectedCell, BoundingBox
-from table_rag.usecases.interfaces.framework_interfaces import TableStructureRecognizerInterface
+from pdf2table.entities.table_entities import PageImage, DetectedCell, BoundingBox
+from pdf2table.usecases.interfaces.framework_interfaces import TableStructureRecognizerInterface
 
 
 class TableTransformerStructureRecognizer(TableStructureRecognizerInterface):
diff --git a/pdf2table/frameworks/table_transformer_detector.py b/pdf2table/frameworks/table_transformer_detector.py
@@ -2,8 +2,8 @@
 from typing import List
 from transformers import DetrFeatureExtractor, TableTransformerForObjectDetection
 
-from table_rag.entities.table_entities import PageImage, DetectedTable, BoundingBox
-from table_rag.usecases.interfaces.framework_interfaces import TableDetectorInterface
+from pdf2table.entities.table_entities import PageImage, DetectedTable, BoundingBox
+from pdf2table.usecases.interfaces.framework_interfaces import TableDetectorInterface
 
 
 class TableTransformerDetector(TableDetectorInterface):
diff --git a/pdf2table/usecases/__init__.py b/pdf2table/usecases/__init__.py
diff --git a/pdf2table/usecases/dtos.py b/pdf2table/usecases/dtos.py
@@ -1,6 +1,6 @@
 from typing import List
 
-from table_rag.entities.table_entities import  DetectedTable
+from pdf2table.entities.table_entities import  DetectedTable
 
 
 class TableExtractionRequest:    
diff --git a/pdf2table/usecases/interfaces/__init__.py b/pdf2table/usecases/interfaces/__init__.py
diff --git a/pdf2table/usecases/interfaces/framework_interfaces.py b/pdf2table/usecases/interfaces/framework_interfaces.py
@@ -2,7 +2,7 @@
 from typing import List
 import numpy as np
 
-from table_rag.entities.table_entities import (
+from pdf2table.entities.table_entities import (
     PageImage, DetectedTable, DetectedCell, BoundingBox
 )
 
diff --git a/pdf2table/usecases/services/__init__.py b/pdf2table/usecases/services/__init__.py
diff --git a/pdf2table/usecases/services/table_services.py b/pdf2table/usecases/services/table_services.py
@@ -1,6 +1,6 @@
 from typing import List
 
-from table_rag.entities.table_entities import DetectedCell, TableGrid
+from pdf2table.entities.table_entities import DetectedCell, TableGrid
 
 
 class TableValidationService:
diff --git a/pdf2table/usecases/table_extraction_use_case.py b/pdf2table/usecases/table_extraction_use_case.py
@@ -1,20 +1,20 @@
 from typing import List, Optional
 
-from table_rag.entities.table_entities import (
+from pdf2table.entities.table_entities import (
     PageImage,
     DetectedTable,
 )
-from table_rag.usecases.services.table_services import (
+from pdf2table.usecases.services.table_services import (
     TableValidationService,
 )
-from table_rag.usecases.table_grid_builder import TableGridBuilder
-from table_rag.usecases.interfaces.framework_interfaces import (
+from pdf2table.usecases.table_grid_builder import TableGridBuilder
+from pdf2table.usecases.interfaces.framework_interfaces import (
     PDFImageExtractorInterface,
     TableDetectorInterface,
     TableStructureRecognizerInterface,
     OCRInterface,
 )
-from table_rag.usecases.table_visualization_utils import (
+from pdf2table.usecases.table_visualization_utils import (
     visualize_table_structure,
     visualize_cell_grid,
     visualize_table_detection,
diff --git a/pdf2table/usecases/table_grid_builder.py b/pdf2table/usecases/table_grid_builder.py
@@ -1,17 +1,17 @@
 from typing import List, Optional
 import fitz
 
-from table_rag.entities.table_entities import (
+from pdf2table.entities.table_entities import (
     PageImage,
     DetectedCell,
     TableGrid,
     GridCell,
     BoundingBox,
 )
-from table_rag.usecases.services.table_services import (
+from pdf2table.usecases.services.table_services import (
     CoordinateClusteringService,
 )
-from table_rag.usecases.interfaces.framework_interfaces import (
+from pdf2table.usecases.interfaces.framework_interfaces import (
     OCRInterface,
 )
 
diff --git a/pdf2table/usecases/table_visualization_utils.py b/pdf2table/usecases/table_visualization_utils.py
@@ -2,7 +2,7 @@
 import os
 
 import matplotlib.pyplot as plt
-from table_rag.entities.table_entities import (
+from pdf2table.entities.table_entities import (
     PageImage,
     TableGrid,
     DetectedTable,
diff --git a/setup.py b/setup.py
@@ -7,14 +7,14 @@
     requirements = f.read().splitlines()
 
 setup(
-    name="table_rag",
+    name="pdf2table",
     version="0.1.0",
-    author="TableRag Team",
+    author="Pdf2Table Team",
     author_email="mahmoodjanlooali@gmail.com",
     description="A RAG application for indexing and inferring tables from PDF documents",
     long_description=long_description,
     long_description_content_type="text/markdown",
-    url="https://github.com/Alijanloo/TableRag",
+    url="https://github.com/Alijanloo/Pdf2Table",
     packages=find_packages(),
     classifiers=[
         "Programming Language :: Python :: 3",
diff --git a/tests/integration/test_table_extraction.py b/tests/integration/test_table_extraction.py
@@ -5,8 +5,8 @@
 
 import os
 
-from table_rag.frameworks.table_extraction_factory import TableExtractionFactory
-from table_rag.usecases.dtos import TableExtractionRequest
+from pdf2table.frameworks.table_extraction_factory import TableExtractionFactory
+from pdf2table.usecases.dtos import TableExtractionRequest
 
 
 def test_actual_table_extraction():
diff --git a/tests/unit/test_entities_and_use_cases.py b/tests/unit/test_entities_and_use_cases.py
@@ -8,14 +8,14 @@
 import numpy as np
 
 # Test imports
-from table_rag.entities.table_entities import (
+from pdf2table.entities.table_entities import (
     BoundingBox, DetectedCell, GridCell, TableGrid, DetectedTable
 )
-from table_rag.usecases.services.table_services import (
+from pdf2table.usecases.services.table_services import (
     TableValidationService, CoordinateClusteringService
 )
-from table_rag.usecases.table_extraction_use_case import TableExtractionUseCase
-from table_rag.usecases.dtos import (
+from pdf2table.usecases.table_extraction_use_case import TableExtractionUseCase
+from pdf2table.usecases.dtos import (
     TableExtractionRequest, TableExtractionResponse, TableExtractionAdapter
 )
 
diff --git a/tests/unit/usecases/test_extraction_integration.py b/tests/unit/usecases/test_extraction_integration.py
@@ -2,13 +2,13 @@
 from unittest.mock import Mock
 import numpy as np
 
-from table_rag.entities.table_entities import (
+from pdf2table.entities.table_entities import (
     PageImage,
     DetectedTable,
     DetectedCell,
     BoundingBox,
 )
-from table_rag.usecases.table_extraction_use_case import (
+from pdf2table.usecases.table_extraction_use_case import (
     TableExtractionUseCase,
 )
 
diff --git a/tests/unit/usecases/test_grid_builder.py b/tests/unit/usecases/test_grid_builder.py
@@ -2,13 +2,13 @@
 from unittest.mock import Mock
 import numpy as np
 
-from table_rag.entities.table_entities import (
+from pdf2table.entities.table_entities import (
     PageImage,
     DetectedCell,
     BoundingBox,
     TableGrid,
 )
-from table_rag.usecases.table_extraction_use_case import (
+from pdf2table.usecases.table_extraction_use_case import (
     TableGridBuilder,
 )
 
diff --git a/tests/unit/usecases/test_table_extraction.py b/tests/unit/usecases/test_table_extraction.py
@@ -2,10 +2,10 @@
 from unittest.mock import Mock
 import numpy as np
 
-from table_rag.entities.table_entities import (
+from pdf2table.entities.table_entities import (
     PageImage, DetectedTable, DetectedCell, BoundingBox
 )
-from table_rag.usecases.table_extraction_use_case import TableExtractionUseCase
+from pdf2table.usecases.table_extraction_use_case import TableExtractionUseCase
 
 
 class TestTableExtractionUseCase(unittest.TestCase):

Original file line number	Diff line number	Diff line change
`@@ -2,8 +2,8 @@`
`2`	`2`	`import numpy as np`
`3`	`3`	`import fitz`
`4`	`4`
`5`		`-from table_rag.entities.table_entities import PageImage`
`6`		`-from table_rag.usecases.interfaces.framework_interfaces import (`
	`5`	`+from pdf2table.entities.table_entities import PageImage`
	`6`	`+from pdf2table.usecases.interfaces.framework_interfaces import (`
`7`	`7`	`PDFImageExtractorInterface,`
`8`	`8`	`)`
`9`	`9`