Use ruff

Gallaecio · Gallaecio · commit 3352cbc7fbc1 · 2025-02-25T21:40:07.000+01:00
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -0,0 +1,7 @@
+repos:
+- repo: https://github.com/astral-sh/ruff-pre-commit
+  rev: v0.9.7
+  hooks:
+    - id: ruff
+      args: [ --fix ]
+    - id: ruff-format
diff --git a/pyproject.toml b/pyproject.toml
@@ -0,0 +1,105 @@
+[tool.ruff.lint]
+extend-select = [
+    # flake8-bugbear
+    "B",
+    # flake8-comprehensions
+    "C4",
+    # pydocstyle
+    "D",
+    # flake8-future-annotations
+    "FA",
+    # flynt
+    "FLY",
+    # refurb
+    "FURB",
+    # isort
+    "I",
+    # flake8-implicit-str-concat
+    "ISC",
+    # flake8-logging
+    "LOG",
+    # Perflint
+    "PERF",
+    # pygrep-hooks
+    "PGH",
+    # flake8-pie
+    "PIE",
+    # pylint
+    "PL",
+    # flake8-pytest-style
+    "PT",
+    # flake8-use-pathlib
+    "PTH",
+    # flake8-pyi
+    "PYI",
+    # flake8-quotes
+    "Q",
+    # flake8-return
+    "RET",
+    # flake8-raise
+    "RSE",
+    # Ruff-specific rules
+    "RUF",
+    # flake8-bandit
+    "S",
+    # flake8-simplify
+    "SIM",
+    # flake8-slots
+    "SLOT",
+    # flake8-debugger
+    "T10",
+    # flake8-type-checking
+    "TC",
+    # pyupgrade
+    "UP",
+    # pycodestyle warnings
+    "W",
+    # flake8-2020
+    "YTT",
+]
+ignore = [
+    # Missing docstring in public module
+    "D100",
+    # Missing docstring in public class
+    "D101",
+    # Missing docstring in public function
+    "D103",
+    # Missing docstring in public package
+    "D104",
+    # Missing docstring in magic method
+    "D105",
+    # Missing docstring in __init__
+    "D107",
+    # One-line docstring should fit on one line with quotes
+    "D200",
+    # No blank lines allowed after function docstring
+    "D202",
+    # 1 blank line required between summary line and description
+    "D205",
+    # Multi-line docstring closing quotes should be on a separate line
+    "D209",
+    # First line should end with a period
+    "D400",
+    # First line should be in imperative mood; try rephrasing
+    "D401",
+    # First line should not be the function's "signature"
+    "D402",
+    # Too many return statements
+    "PLR0911",
+    # Too many branches
+    "PLR0912",
+    # Too many arguments in function definition
+    "PLR0913",
+    # Too many statements
+    "PLR0915",
+    # Magic value used in comparison
+    "PLR2004",
+    # Mutable class attributes should be annotated with `typing.ClassVar`
+    "RUF012",
+    # Use of `assert` detected
+    "S101",
+]
+
+[tool.ruff.lint.per-file-ignores]
+# D102: Missing docstring in public method
+"tests/**" = ["D102"]
diff --git a/scrapy_deltafetch/__init__.py b/scrapy_deltafetch/__init__.py
@@ -1,4 +1,4 @@
 from .middleware import DeltaFetch
 
-
+__all__ = ["DeltaFetch"]
 __version__ = "2.0.1"
diff --git a/scrapy_deltafetch/middleware.py b/scrapy_deltafetch/middleware.py
@@ -1,24 +1,22 @@
+import dbm
 import logging
-import os
 import time
-import dbm
+from pathlib import Path
 
+from scrapy import signals
+from scrapy.exceptions import NotConfigured
 from scrapy.http import Request
 from scrapy.item import Item
-from scrapy.utils.request import request_fingerprint
 from scrapy.utils.project import data_path
 from scrapy.utils.python import to_bytes
-from scrapy.exceptions import NotConfigured
-from scrapy import signals
-
+from scrapy.utils.request import request_fingerprint
 
 logger = logging.getLogger(__name__)
 
 
-class DeltaFetch(object):
-    """
-    This is a spider middleware to ignore requests to pages containing items
-    seen in previous crawls of the same spider, thus producing a "delta crawl"
+class DeltaFetch:
+    """Spider middleware to ignore requests to pages containing items seen in
+    previous crawls of the same spider, thus producing a "delta crawl"
     containing only new items.
 
     This also speeds up the crawl, by reducing the number of requests that need
@@ -32,56 +30,57 @@ def __init__(self, dir, reset=False, stats=None):
         self.stats = stats
 
     @classmethod
-    def from_crawler(cls, crawler):
+    def from_crawler(cls, crawler):  # noqa: D102
         s = crawler.settings
-        if not s.getbool('DELTAFETCH_ENABLED'):
+        if not s.getbool("DELTAFETCH_ENABLED"):
             raise NotConfigured
-        dir = data_path(s.get('DELTAFETCH_DIR', 'deltafetch'))
-        reset = s.getbool('DELTAFETCH_RESET')
+        dir = data_path(s.get("DELTAFETCH_DIR", "deltafetch"))
+        reset = s.getbool("DELTAFETCH_RESET")
         o = cls(dir, reset, crawler.stats)
         crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)
         crawler.signals.connect(o.spider_closed, signal=signals.spider_closed)
         return o
 
-    def spider_opened(self, spider):
-        if not os.path.exists(self.dir):
-            os.makedirs(self.dir)
+    def spider_opened(self, spider):  # noqa: D102
+        dir = Path(self.dir)
+        dir.mkdir(parents=True, exist_ok=True)
         # TODO may be tricky, as there may be different paths on systems
-        dbpath = os.path.join(self.dir, '%s.db' % spider.name)
-        reset = self.reset or getattr(spider, 'deltafetch_reset', False)
-        flag = 'n' if reset else 'c'
+        dbpath = dir / f"{spider.name}.db"
+        reset = self.reset or getattr(spider, "deltafetch_reset", False)
+        flag = "n" if reset else "c"
         try:
-            self.db = dbm.open(dbpath, flag=flag)
+            self.db = dbm.open(dbpath, flag=flag)  # noqa: SIM115
         except Exception:
-            logger.warning("Failed to open DeltaFetch database at %s, "
-                           "trying to recreate it" % dbpath)
-            if os.path.exists(dbpath):
-                os.remove(dbpath)
-            self.db = dbm.open(dbpath, 'c')
+            logger.warning(
+                f"Failed to open DeltaFetch database at {dbpath}, trying to recreate it"
+            )
+            if dbpath.exists():
+                dbpath.unlink()
+            self.db = dbm.open(dbpath, "c")  # noqa: SIM115
 
-    def spider_closed(self, spider):
+    def spider_closed(self, spider):  # noqa: D102
         self.db.close()
 
-    def process_spider_output(self, response, result, spider):
+    def process_spider_output(self, response, result, spider):  # noqa: D102
         for r in result:
             if isinstance(r, Request):
                 key = self._get_key(r)
                 if key in self.db and self._is_enabled_for_request(r):
-                    logger.info("Ignoring already visited: %s" % r)
+                    logger.info(f"Ignoring already visited: {r}")
                     if self.stats:
-                        self.stats.inc_value('deltafetch/skipped', spider=spider)
+                        self.stats.inc_value("deltafetch/skipped", spider=spider)
                     continue
             elif isinstance(r, (Item, dict)):
                 key = self._get_key(response.request)
                 self.db[key] = str(time.time())
                 if self.stats:
-                    self.stats.inc_value('deltafetch/stored', spider=spider)
+                    self.stats.inc_value("deltafetch/stored", spider=spider)
             yield r
 
     def _get_key(self, request):
-        key = request.meta.get('deltafetch_key') or request_fingerprint(request)
+        key = request.meta.get("deltafetch_key") or request_fingerprint(request)
         return to_bytes(key)
 
     def _is_enabled_for_request(self, request):
         # Gives you option to disable deltafetch for some requests
-        return request.meta.get('deltafetch_enabled', True)
+        return request.meta.get("deltafetch_enabled", True)
diff --git a/setup.py b/setup.py
@@ -1,27 +1,29 @@
+from pathlib import Path
+
 from setuptools import setup
 
 setup(
-    name='scrapy-deltafetch',
-    version='2.0.1',
-    license='BSD',
-    description='Scrapy middleware to ignore previously crawled pages',
-    long_description=open('README.rst').read(),
-    author='Zyte',
-    author_email='opensource@zyte.com',
-    url='http://github.com/scrapy-plugins/scrapy-deltafetch',
-    packages=['scrapy_deltafetch'],
-    platforms=['Any'],
+    name="scrapy-deltafetch",
+    version="2.0.1",
+    license="BSD",
+    description="Scrapy middleware to ignore previously crawled pages",
+    long_description=Path("README.rst").read_text(encoding="utf-8"),
+    author="Zyte",
+    author_email="opensource@zyte.com",
+    url="http://github.com/scrapy-plugins/scrapy-deltafetch",
+    packages=["scrapy_deltafetch"],
+    platforms=["Any"],
     classifiers=[
-        'Development Status :: 4 - Beta',
-        'License :: OSI Approved :: BSD License',
-        'Operating System :: OS Independent',
-        'Programming Language :: Python',
-        'Programming Language :: Python :: 3',
-        'Programming Language :: Python :: 3.5',
-        'Programming Language :: Python :: 3.6',
-        'Programming Language :: Python :: 3.7',
-        'Programming Language :: Python :: 3.8',
-        'Programming Language :: Python :: 3.9',
+        "Development Status :: 4 - Beta",
+        "License :: OSI Approved :: BSD License",
+        "Operating System :: OS Independent",
+        "Programming Language :: Python",
+        "Programming Language :: Python :: 3",
+        "Programming Language :: Python :: 3.5",
+        "Programming Language :: Python :: 3.6",
+        "Programming Language :: Python :: 3.7",
+        "Programming Language :: Python :: 3.8",
+        "Programming Language :: Python :: 3.9",
     ],
-    install_requires=['Scrapy>=1.1.0']
+    install_requires=["Scrapy>=1.1.0"],
 )
diff --git a/tests/benchmark.py b/tests/benchmark.py
@@ -1,6 +1,6 @@
 import tempfile
+from unittest import mock
 
-import mock
 from scrapy import Request, Spider
 from scrapy.statscollectors import StatsCollector
 from scrapy.utils.test import get_crawler
@@ -9,23 +9,23 @@
 
 
 def benchmark_middleware(result):
-    spider_name = 'df_tests'
+    spider_name = "df_tests"
     spider = Spider(spider_name)
     temp_dir = tempfile.gettempdir()
     crawler = get_crawler(Spider)
     stats = StatsCollector(crawler)
     mw = DeltaFetch(temp_dir, reset=False, stats=stats)
     mw.spider_opened(spider)
     response = mock.Mock()
-    response.request = Request('http://url',
-                               meta={'deltafetch_key': 'key'})
+    response.request = Request("http://url", meta={"deltafetch_key": "key"})
 
-    for x in mw.process_spider_output(response, result, spider):
+    for _x in mw.process_spider_output(response, result, spider):
         pass
 
+
 def test_middleware(benchmark):
     result = []
     for x in range(50000):
-        request = Request(f'https://{x}')
+        request = Request(f"https://{x}")
         result.append(request)
     result = benchmark(benchmark_middleware, result)
diff --git a/tests/test_deltafetch.py b/tests/test_deltafetch.py