langchain-ai
diff --git a/‎docs/docs/integrations/document_loaders/zeroxpdfloader.ipynb‎
Lines changed: 176 additions & 248 deletions b/‎docs/docs/integrations/document_loaders/zeroxpdfloader.ipynb‎
Lines changed: 176 additions & 248 deletions
diff --git a/‎libs/community/langchain_community/document_loaders/__init__.py‎
Lines changed: 0 additions & 2 deletions b/‎libs/community/langchain_community/document_loaders/__init__.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎libs/community/langchain_community/document_loaders/parsers/pdf.py‎
Lines changed: 13 additions & 11 deletions b/‎libs/community/langchain_community/document_loaders/parsers/pdf.py‎
Lines changed: 13 additions & 11 deletions
diff --git a/‎libs/community/tests/integration_tests/document_loaders/parsers/test_pdf_parsers.py‎
Lines changed: 51 additions & 60 deletions b/‎libs/community/tests/integration_tests/document_loaders/parsers/test_pdf_parsers.py‎
Lines changed: 51 additions & 60 deletions
diff --git a/‎libs/community/tests/integration_tests/document_loaders/test_pdf.py‎
Lines changed: 15 additions & 12 deletions b/‎libs/community/tests/integration_tests/document_loaders/test_pdf.py‎
Lines changed: 15 additions & 12 deletions
@@ -360,7 +360,6 @@
         PyPDFium2Loader,
         PyPDFLoader,
         UnstructuredPDFLoader,
-        ZeroxPDFLoader,
     )
     from langchain_community.document_loaders.pebblo import (
         PebbloSafeLoader,
@@ -733,7 +732,6 @@
     "YoutubeAudioLoader": "langchain_community.document_loaders.blob_loaders",
     "YoutubeLoader": "langchain_community.document_loaders.youtube",
     "YuqueLoader": "langchain_community.document_loaders.yuque",
-    "ZeroxPDFLoader": "langchain_community.document_loaders.pdf",
 }
 
 
 
@@ -10,6 +10,7 @@
 import warnings
 from asyncio import AbstractEventLoop
 from datetime import datetime
+from multiprocessing.pool import ThreadPool
 from pathlib import Path
 from tempfile import NamedTemporaryFile, TemporaryDirectory
 from typing import (
@@ -1471,6 +1472,7 @@ def _extract_images_from_page(self, page: pdfplumber.page.Page) -> str:
 
         return extract_from_images_with_rapidocr(images)
 
+
 _map_extract_tables: Dict[Literal["markdown", "html", None], str] = {
     "markdown": "",
     "html": "But, use html syntax for convert all tables. ",
@@ -1483,6 +1485,7 @@ def _extract_images_from_page(self, page: pdfplumber.page.Page) -> str:
     "describe it. ",
 }
 
+
 class ZeroxPDFParser(BaseBlobParser):
     """Parse a blob from a PDF using `py-zerox` library.
 
@@ -1532,6 +1535,9 @@ class ZeroxPDFParser(BaseBlobParser):
             print(docs[0].page_content[:100])
             print(docs[0].metadata)
     """
+
+    _pool = ThreadPool()
+
     _warn_images_to_text = False
     _warn_creator = False
     _prompt = (
@@ -1545,8 +1551,9 @@ class ZeroxPDFParser(BaseBlobParser):
 
     @staticmethod
     def _run_async_from_thread(coro, loop):
-        future = asyncio.run_coroutine_threadsafe(coro,
-                                                  loop)  # Lancer la coroutine dans la boucle existante
+        future = asyncio.run_coroutine_threadsafe(
+            coro, loop
+        )  # Lancer la coroutine dans la boucle existante
         return future.result()  # Bloque en attendant le résultat
 
     def __init__(
@@ -1686,11 +1693,7 @@ def lazy_parse(self, blob: Blob) -> Iterator[Document]:  # type: ignore[valid-ty
                 zerox_prompt = PromptTemplate.from_template(
                     self.custom_system_prompt
                 ).format(prompt_tables=prompt_tables, prompt_images=prompt_images)
-                # async def toto():
-                #     await asyncio.sleep(0)
-                #     return "hello"
-                # coro=toto()
-                coro=zerox(
+                coro = zerox(
                     file_path=str(file_path),
                     model=self.model,
                     cleanup=self.cleanup,
@@ -1703,10 +1706,9 @@ def lazy_parse(self, blob: Blob) -> Iterator[Document]:  # type: ignore[valid-ty
                 try:
                     loop = asyncio.get_running_loop()
 
-                    from multiprocessing.pool import ThreadPool
-                    pool = ThreadPool(processes=1)
-                    zerox_output = pool.apply_async(
-                        lambda : loop.run_until_complete(coro)).get()  # tuple of args for foo
+                    zerox_output = ZeroxPDFParser._pool.apply_async(
+                        lambda: loop.run_until_complete(coro)
+                    ).get()  # tuple of args for foo
 
                 except RuntimeError:
                     zerox_output = asyncio.run(coro)
 
@@ -2,48 +2,43 @@
 
 import re
 from pathlib import Path
+from typing import TYPE_CHECKING, Iterator, Type
 
 import pytest
-from typing import TYPE_CHECKING, Iterator
 
-from langchain_community.document_loaders import PDFMinerLoader, PDFPlumberLoader, \
-    PyMuPDFLoader, PyPDFium2Loader, PyPDFLoader
 from langchain_community.document_loaders.base import BaseBlobParser
 from langchain_community.document_loaders.blob_loaders import Blob
 from langchain_community.document_loaders.parsers import (
     BaseImageBlobParser,
     PDFPlumberParser,
 )
-from langchain_community.document_loaders.parsers.pdf import ZeroxPDFParser, \
-    PyMuPDFParser, PDFMinerParser, PyPDFium2Parser, PyPDFParser
+from langchain_community.document_loaders.parsers.pdf import (
+    PDFMinerParser,
+    PyMuPDFParser,
+    PyPDFium2Parser,
+    PyPDFParser,
+    ZeroxPDFParser,
+)
 
 if TYPE_CHECKING:
     from PIL.Image import Image
 
-_map_parser = {
-    'PDFMinerParser': PDFMinerParser,
-    'PDFPlumberParser': PDFPlumberParser,
-    'PyMuPDFParser': PyMuPDFParser,
-    'PyPDFium2Parser': PyPDFium2Parser,
-    'PyPDFParser': PyPDFParser,
-    'ZeroxPDFParser': ZeroxPDFParser,
-}
 
 # PDFs to test parsers on.
 HELLO_PDF = Path(__file__).parent.parent.parent / "examples" / "hello.pdf"
 
 LAYOUT_PARSER_PAPER_PDF = (
-        Path(__file__).parent.parent.parent / "examples" / "layout-parser-paper.pdf"
+    Path(__file__).parent.parent.parent / "examples" / "layout-parser-paper.pdf"
 )
 
 LAYOUT_PARSER_PAPER_PASSWORD_PDF = (
-        Path(__file__).parent.parent.parent
-        / "examples"
-        / "layout-parser-paper-password.pdf"
+    Path(__file__).parent.parent.parent
+    / "examples"
+    / "layout-parser-paper-password.pdf"
 )
 
 DUPLICATE_CHARS = (
-        Path(__file__).parent.parent.parent / "examples" / "duplicate-chars.pdf"
+    Path(__file__).parent.parent.parent / "examples" / "duplicate-chars.pdf"
 )
 
 
@@ -123,30 +118,30 @@ def _analyze_image(self, img: "Image") -> str:
     [("single", EmptyImageBlobParser()), ("page", None)],
 )
 @pytest.mark.parametrize(
-    "parser_factory,params",
+    "parser_class,params",
     [
-        ("PDFMinerParser", {}),
-        ("PyMuPDFParser", {}),
-        ("PyPDFium2Parser", {}),
-        ("PyPDFParser", {"extraction_mode": "plain"}),
-        ("PyPDFParser", {"extraction_mode": "layout"}),
-        ("ZeroxPDFParser", {}),
+        (PDFMinerParser, {}),
+        (PyMuPDFParser, {}),
+        (PyPDFium2Parser, {}),
+        (PyPDFParser, {"extraction_mode": "plain"}),
+        (PyPDFParser, {"extraction_mode": "layout"}),
+        (ZeroxPDFParser, {}),
     ],
 )
 @pytest.mark.requires("pillow")
 def test_mode_and_extract_images_variations(
-        parser_factory: str,
-        params: dict,
-        mode: str,
-        image_parser: BaseImageBlobParser,
+    parser_class: Type,
+    params: dict,
+    mode: str,
+    image_parser: BaseImageBlobParser,
 ) -> None:
-    if parser_factory == "ZeroxPDFParser":
+    if parser_class == ZeroxPDFParser:
         try:
             import pyzerox  # noqa: F401
         except ImportError:
             pytest.skip("py-zerox is valid only with Python +3.11")
     _test_matrix(
-        parser_factory,
+        parser_class,
         params,
         mode,
         image_parser,
@@ -159,23 +154,23 @@ def test_mode_and_extract_images_variations(
     ["text", "markdown-img", "html-img"],
 )
 @pytest.mark.parametrize(
-    "parser_factory,params",
+    "parser_class,params",
     [
-        ("PDFMinerParser", {}),
-        ("PyMuPDFParser", {}),
-        ("PyPDFium2Parser", {}),
-        ("PyPDFParser", {"extraction_mode": "plain"}),
-        ("PyPDFParser", {"extraction_mode": "layout"}),
-        ("ZeroxPDFParser", {}),
+        (PDFMinerParser, {}),
+        (PyMuPDFParser, {}),
+        (PyPDFium2Parser, {}),
+        (PyPDFParser, {"extraction_mode": "plain"}),
+        (PyPDFParser, {"extraction_mode": "layout"}),
+        (ZeroxPDFParser, {}),
     ],
 )
 @pytest.mark.requires("pillow")
 def test_mode_and_image_formats_variations(
-        parser_factory: str,
-        params: dict,
-        images_inner_format: str,
+    parser_class: str,
+    params: dict,
+    images_inner_format: str,
 ) -> None:
-    if parser_factory == "ZeroxPDFParser":
+    if parser_class == ZeroxPDFParser:
         try:
             import pyzerox  # noqa: F401
         except ImportError:
@@ -184,7 +179,7 @@ def test_mode_and_image_formats_variations(
     image_parser = EmptyImageBlobParser()
 
     _test_matrix(
-        parser_factory,
+        parser_class,
         params,
         mode,
         image_parser,
@@ -193,11 +188,11 @@ def test_mode_and_image_formats_variations(
 
 
 def _test_matrix(
-        parser_factory: str,
-        params: dict,
-        mode: str,
-        image_parser: BaseImageBlobParser,
-        images_inner_format: str,
+    parser_class: Type,
+    params: dict,
+    mode: str,
+    image_parser: BaseImageBlobParser,
+    images_inner_format: str,
 ) -> None:
     """Apply the same test for all *standard* PDF parsers.
 
@@ -245,8 +240,6 @@ def _std_assert_with_parser(parser: BaseBlobParser) -> None:
             assert len(docs)
             parser.password = old_password
 
-    parser_class = _map_parser[parser_factory]
-
     parser = parser_class(
         mode=mode,
         images_parser=image_parser,
@@ -266,19 +259,19 @@ def _std_assert_with_parser(parser: BaseBlobParser) -> None:
     ["markdown", "html", "csv", None],
 )
 @pytest.mark.parametrize(
-    "parser_factory,params",
+    "parser_class,params",
     [
-        ("PyMuPDFParser", {}),
-        ("ZeroxPDFParser", {"model": "gpt-4o-mini"}),
+        (PyMuPDFParser, {}),
+        (ZeroxPDFParser, {"model": "gpt-4o-mini"}),
     ],
 )
 def test_parser_with_table(
-        parser_factory: str,
-        params: dict,
-        mode: str,
-        extract_tables: str,
+    parser_class: Type,
+    params: dict,
+    mode: str,
+    extract_tables: str,
 ) -> None:
-    if parser_factory == "ZeroxPDFParser":
+    if parser_class == ZeroxPDFParser:
         try:
             import pyzerox  # noqa: F401
         except ImportError:
@@ -333,8 +326,6 @@ class EmptyImageBlobParser(BaseImageBlobParser):
         def _analyze_image(self, img: Image) -> str:
             return "![image](.)"
 
-    parser_class = _map_parser[parser_factory]
-
     parser = parser_class(
         mode=mode,
         extract_tables=extract_tables,
 
@@ -1,15 +1,19 @@
 import os
 from pathlib import Path
-from typing import Sequence, Union
+from typing import Sequence, Type, Union
 
 import pytest
 
-import langchain_community.document_loaders as pdf_loaders
-from langchain_community.document_loaders import (
+from langchain_community.document_loaders.pdf import (
     AmazonTextractPDFLoader,
     MathpixPDFLoader,
+    PDFMinerLoader,
     PDFMinerPDFasHTMLLoader,
+    PyMuPDFLoader,
+    PyPDFium2Loader,
+    PyPDFLoader,
     UnstructuredPDFLoader,
+    ZeroxPDFLoader,
 )
 
 
@@ -164,25 +168,24 @@ def test_amazontextract_loader_failures() -> None:
 
 
 @pytest.mark.parametrize(
-    "parser_factory,params",
+    "loader_class,params",
     [
-        ("PDFMinerLoader", {}),
-        ("PyMuPDFLoader", {}),
-        ("PyPDFium2Loader", {}),
-        ("PyPDFLoader", {}),
-        ("ZeroxPDFLoader", {}),
+        (PDFMinerLoader, {}),
+        (PyMuPDFLoader, {}),
+        (PyPDFium2Loader, {}),
+        (PyPDFLoader, {}),
+        (ZeroxPDFLoader, {}),
     ],
 )
 def test_standard_parameters(
-    parser_factory: str,
+    loader_class: Type,
     params: dict,
 ) -> None:
-    if parser_factory == "ZeroxPDFLoader":
+    if loader_class == ZeroxPDFLoader:
         try:
             import pyzerox  # noqa: F401
         except ImportError:
             pytest.skip("pyzerox is valid only with Python +3.11")
-    loader_class = getattr(pdf_loaders, parser_factory)
 
     file_path = Path(__file__).parent.parent / "examples/hello.pdf"
     loader = loader_class(file_path)
Original file line number	Diff line number	Diff line change
`@@ -360,7 +360,6 @@`
`360`	`360`	`PyPDFium2Loader,`
`361`	`361`	`PyPDFLoader,`
`362`	`362`	`UnstructuredPDFLoader,`
`363`		`- ZeroxPDFLoader,`
`364`	`363`	`)`
`365`	`364`	`from langchain_community.document_loaders.pebblo import (`
`366`	`365`	`PebbloSafeLoader,`
`@@ -733,7 +732,6 @@`
`733`	`732`	`"YoutubeAudioLoader": "langchain_community.document_loaders.blob_loaders",`
`734`	`733`	`"YoutubeLoader": "langchain_community.document_loaders.youtube",`
`735`	`734`	`"YuqueLoader": "langchain_community.document_loaders.yuque",`
`736`		`- "ZeroxPDFLoader": "langchain_community.document_loaders.pdf",`
`737`	`735`	`}`
`738`	`736`
`739`	`737`