BUG: Process lookup decoded as TextStringObjects (#2008)

pubpub-zz · web-flow · commit 890c93aeeec1 · 2023-07-25T18:54:50.000+02:00
Closes #1982
diff --git a/pypdf/filters.py b/pypdf/filters.py
@@ -764,9 +764,11 @@ def bits2byte(data: bytes, size: Tuple[int, int], bits: int) -> bytes:
             data = bits2byte(data, size, 4)
         img = Image.frombytes(mode, size, data)
         if color_space == "/Indexed":
-            from .generic import ByteStringObject
+            from .generic import TextStringObject
 
-            if isinstance(lookup, ByteStringObject):
+            if isinstance(lookup, TextStringObject):
+                lookup = lookup.original_bytes
+            if isinstance(lookup, bytes):
                 try:
                     nb, conv, mode = {  # type: ignore
                         "1": (0, "", ""),
diff --git a/tests/test_filters.py b/tests/test_filters.py
@@ -468,6 +468,40 @@ def test_calrgb():
     reader.pages[0].images[0]
 
 
+@pytest.mark.enable_socket()
+def test_index_lookup():
+    """The lookup is provided as an str and bytes"""
+    url = "https://github.com/py-pdf/pypdf/files/12090523/2023.USDC_Circle.Examination.Report.May.2023.pdf"
+    name = "2023USDC.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    # TextStringObject Lookup
+    url_png = "https://github.com/py-pdf/pypdf/files/12144094/im1.png.txt"
+    name_png = "iss1982_im1.png"
+    refimg = Image.open(
+        BytesIO(get_pdf_from_url(url_png, name=name_png))
+    )  # not a pdf but it works
+    data = reader.pages[0].images[-1]
+    assert data.image.mode == "RGB"
+    diff = ImageChops.difference(data.image, refimg)
+    d = sqrt(sum([(a * a + b * b + c * c) for a, b, c in diff.getdata()])) / (
+        diff.size[0] * diff.size[1]
+    )
+    assert d < 0.001
+    # ByteStringObject Lookup
+    url_png = "https://github.com/py-pdf/pypdf/files/12144093/im2.png.txt"
+    name_png = "iss1982_im2.png"
+    refimg = Image.open(
+        BytesIO(get_pdf_from_url(url_png, name=name_png))
+    )  # not a pdf but it works
+    data = reader.pages[-1].images[-1]
+    assert data.image.mode == "RGB"
+    diff = ImageChops.difference(data.image, refimg)
+    d = sqrt(sum([(a * a + b * b + c * c) for a, b, c in diff.getdata()])) / (
+        diff.size[0] * diff.size[1]
+    )
+    assert d < 0.001
+
+
 @pytest.mark.enable_socket()
 def test_2bits_image():
     """From #1954, test with 2bits image. TODO: 4bits also"""