Merge pull request #425 from seleniumbase/pdf-testing

mdmintz · web-flow · commit b478eb3eee4f · 2019-11-22T02:23:38.000-05:00
Add the assert_pdf_text() method for asserting PDF text
diff --git a/examples/test_pdf_asserts.py b/examples/test_pdf_asserts.py
@@ -0,0 +1,16 @@
+from seleniumbase import BaseCase
+
+
+class PdfTestClass(BaseCase):
+
+    def test_assert_pdf_text(self):
+
+        # Assert PDF contains the expected text on Page 1
+        self.assert_pdf_text(
+            "https://nostarch.com/download/Automate_the_Boring_Stuff_dTOC.pdf",
+            "Programming Is a Creative Activity", page=1)
+
+        # Assert PDF contains the expected text on any of the pages
+        self.assert_pdf_text(
+            "https://nostarch.com/download/Automate_the_Boring_Stuff_dTOC.pdf",
+            "Extracting Text from PDFs")
diff --git a/help_docs/method_summary.md b/help_docs/method_summary.md
@@ -211,6 +211,8 @@ self.assert_no_404_errors(multithreaded=True)
 
 self.print_unique_links_with_status_codes()
 
+self.assert_pdf_text(pdf, text, page=None)
+
 self.create_folder(folder)
 
 self.choose_file(selector, file_path, by=By.CSS_SELECTOR, timeout=None)
@@ -223,7 +225,7 @@ self.save_file_as(file_url, new_file_name, destination_folder=None)
 
 self.save_data_as(data, file_name, destination_folder=None)
 
-self.get_downloads_folder(file)
+self.get_downloads_folder()
 
 self.get_path_of_downloaded_file(file)
 
diff --git a/requirements.txt b/requirements.txt
@@ -31,6 +31,7 @@ asn1crypto>=1.2.0
 pyopenssl>=19.1.0
 colorama>=0.4.1
 pymysql>=0.9.3
+pypdf2>=1.26.0
 pyotp>=2.3.0
 boto>=2.49.0
 cffi>=1.13.2
diff --git a/seleniumbase/fixtures/base_case.py b/seleniumbase/fixtures/base_case.py
@@ -1856,6 +1856,51 @@ def print_unique_links_with_status_codes(self):
         soup = self.get_beautiful_soup(self.get_page_source())
         page_utils._print_unique_links_with_status_codes(page_url, soup)
 
+    def assert_pdf_text(self, pdf, text, page=None):
+        """ Asserts text in a PDF file.
+            PDF can be either a URL or a file path on the local file system.
+            @Params
+            pdf - The URL or file path of the PDF file.
+            text - The expected text to verify in the PDF.
+            page - The page number of the PDF to use (optional).
+                    If a page number is provided, looks only at that page.
+                        (1 is the first page, 2 is the second page, etc.)
+                    If no page number is provided, looks at all the pages. """
+        import PyPDF2
+        if not pdf.lower().endswith('.pdf'):
+            raise Exception("%s is not a PDF file! (Expecting a .pdf)" % pdf)
+        file_path = None
+        if page_utils.is_valid_url(pdf):
+            if self.get_current_url() != pdf:
+                self.open(pdf)
+            self.download_file(pdf)
+            file_name = pdf.split('/')[-1]
+            file_path = self.get_downloads_folder() + '/' + file_name
+        else:
+            if not os.path.exists(pdf):
+                raise Exception("%s is not a valid URL or file path!" % pdf)
+            file_path = os.path.abspath(pdf)
+        pdf_file_object = open(file_path, "rb")
+        pdf_reader = PyPDF2.PdfFileReader(pdf_file_object, strict=False)
+        num_pages = pdf_reader.numPages
+        if type(page) is int:
+            if page > num_pages:
+                raise Exception("Invalid page number for the PDF!")
+            page = page - 1
+            page_obj = pdf_reader.getPage(page)
+            pdf_page_text = page_obj.extractText()
+            if text not in pdf_page_text:
+                raise Exception("PDF [%s] is missing expected text [%s] on "
+                                "page [%s]!" % (file_path, text, page))
+        else:
+            for page_num in range(num_pages):
+                page_obj = pdf_reader.getPage(page_num)
+                pdf_page_text = page_obj.extractText()
+                if text in pdf_page_text:
+                    return
+            raise Exception("PDF [%s] is missing expected text [%s]!"
+                            "" % (file_path, text))
+
     def create_folder(self, folder):
         """ Creates a folder of the given name if it doesn't already exist. """
         if folder.endswith("/"):
diff --git a/setup.py b/setup.py
@@ -45,7 +45,7 @@
 
 setup(
     name='seleniumbase',
-    version='1.33.1',
+    version='1.33.2',
     description='Fast, Easy, and Reliable Browser Automation & Testing.',
     long_description=long_description,
     long_description_content_type='text/markdown',
@@ -114,6 +114,7 @@
         'pyopenssl>=19.1.0',
         'colorama>=0.4.1',
         'pymysql>=0.9.3',
+        'pypdf2>=1.26.0',
         'pyotp>=2.3.0',
         'boto>=2.49.0',
         'cffi>=1.13.2',