MDverse · pierrepo · Jan 27, 2026 · Jan 27, 2026 · Jan 27, 2026 · Jan 27, 2026
diff --git a/src/mdverse_scrapers/core/toolbox.py b/src/mdverse_scrapers/core/toolbox.py
@@ -511,6 +511,26 @@ def format_date(date: datetime | str) -> str:
     raise TypeError(msg)
 
 
+def convert_file_size_in_bytes_to_human_readable_format(size_in_bytes: float) -> str:
+    """Convert file size in bytes to a human-readable format.
+
+    Parameters
+    ----------
+    size_in_bytes : float
+        File size in bytes.
+
+    Returns
+    -------
+    str
+        File size in a human-readable format (e.g., '10.5 MB').
+    """
+    for unit in ["B", "KB", "MB", "GB", "TB"]:
+        if size_in_bytes < 1024.0:
+            return f"{size_in_bytes:.2f} {unit}"
+        size_in_bytes /= 1024.0
-        if size_in_bytes < 1024.0:
-            return f"{size_in_bytes:.2f} {unit}"
-        size_in_bytes /= 1024.0
+        if size_in_bytes < 1000.0:
+            return f"{size_in_bytes:.2f} {unit}"
+        size_in_bytes /= 1000.0
-        if size_in_bytes < 1024.0:
-            return f"{size_in_bytes:.2f} {unit}"
-        size_in_bytes /= 1024.0
+        if size_in_bytes < 1000.0:
+            return f"{size_in_bytes:.2f} {unit}"
+        size_in_bytes /= 1000.0
+    return "File too big!"
+
+
 def print_statistics(
     scraper: ScraperContext, logger: "loguru.Logger" = loguru.logger
 ) -> None:
@@ -527,9 +547,15 @@ def print_statistics(
     logger.success(
         f"Number of datasets scraped: {scraper.number_of_datasets_scraped:,}"
     )
-    logger.info(f"Saved in: {scraper.datasets_parquet_file_path}")
+    file_size = convert_file_size_in_bytes_to_human_readable_format(
+        scraper.datasets_parquet_file_path.stat().st_size
+    )
+    logger.info(f"Saved in: {scraper.datasets_parquet_file_path} ({file_size})")
+    file_size = convert_file_size_in_bytes_to_human_readable_format(
+        scraper.files_parquet_file_path.stat().st_size
+    )
-    file_size = convert_file_size_in_bytes_to_human_readable_format(
-        scraper.datasets_parquet_file_path.stat().st_size
-    )
-    logger.info(f"Saved in: {scraper.datasets_parquet_file_path} ({file_size})")
-    file_size = convert_file_size_in_bytes_to_human_readable_format(
-        scraper.files_parquet_file_path.stat().st_size
-    )
+    if scraper.datasets_parquet_file_path.is_file():
+        file_size = convert_file_size_in_bytes_to_human_readable_format(
+            scraper.datasets_parquet_file_path.stat().st_size
+        )
+        logger.info(
+            f"Saved in: {scraper.datasets_parquet_file_path} ({file_size})"
+        )
+    else:
+        logger.warning(
+            f"Datasets parquet file not found at: {scraper.datasets_parquet_file_path}"
+        )
+        logger.info(
+            f"Saved in: {scraper.datasets_parquet_file_path} (size unknown)"
+        )
+    if scraper.files_parquet_file_path.is_file():
+        file_size = convert_file_size_in_bytes_to_human_readable_format(
+            scraper.files_parquet_file_path.stat().st_size
+        )
+    else:
+        logger.warning(
+            f"Files parquet file not found at: {scraper.files_parquet_file_path}"
+        )
+        file_size = "size unknown"
-    file_size = convert_file_size_in_bytes_to_human_readable_format(
-        scraper.datasets_parquet_file_path.stat().st_size
-    )
-    logger.info(f"Saved in: {scraper.datasets_parquet_file_path} ({file_size})")
-    file_size = convert_file_size_in_bytes_to_human_readable_format(
-        scraper.files_parquet_file_path.stat().st_size
-    )
+    if scraper.datasets_parquet_file_path.is_file():
+        file_size = convert_file_size_in_bytes_to_human_readable_format(
+            scraper.datasets_parquet_file_path.stat().st_size
+        )
+        logger.info(
+            f"Saved in: {scraper.datasets_parquet_file_path} ({file_size})"
+        )
+    else:
+        logger.warning(
+            f"Datasets parquet file not found at: {scraper.datasets_parquet_file_path}"
+        )
+        logger.info(
+            f"Saved in: {scraper.datasets_parquet_file_path} (size unknown)"
+        )
+    if scraper.files_parquet_file_path.is_file():
+        file_size = convert_file_size_in_bytes_to_human_readable_format(
+            scraper.files_parquet_file_path.stat().st_size
+        )
+    else:
+        logger.warning(
+            f"Files parquet file not found at: {scraper.files_parquet_file_path}"
+        )
+        file_size = "size unknown"
     logger.success(f"Number of files scraped: {scraper.number_of_files_scraped:,}")
-    logger.info(f"Saved in: {scraper.files_parquet_file_path}")
+    logger.info(f"Saved in: {scraper.files_parquet_file_path} ({file_size})")
     elapsed_time = int((datetime.now() - scraper.start_time).total_seconds())
     logger.success(
         f"Scraped {scraper.data_source_name} in: {timedelta(seconds=elapsed_time)} 🎉"

diff --git a/tests/core/test_toolbox.py b/tests/core/test_toolbox.py
@@ -0,0 +1,82 @@
+"""Tests for the toolbox module."""
+
+from mdverse_scrapers.core.toolbox import (
+    convert_file_size_in_bytes_to_human_readable_format,
+)
+
+
+class TestConvertFileSizeInBytesToHumanReadableFormat:
+    """Tests for convert_file_size_in_bytes_to_human_readable_format function."""
-class TestConvertFileSizeInBytesToHumanReadableFormat:
-    """Tests for convert_file_size_in_bytes_to_human_readable_format function."""
+class TestConvertFileSizeToHumanReadable:
+    """Tests for convert_file_size_to_human_readable function."""
-    """Tests for convert_file_size_in_bytes_to_human_readable_format function."""
+    """Tests for convert_file_size_to_human_readable function."""
-class TestConvertFileSizeInBytesToHumanReadableFormat:
-    """Tests for convert_file_size_in_bytes_to_human_readable_format function."""
+class TestConvertFileSizeToHumanReadable:
+    """Tests for convert_file_size_to_human_readable function."""
-    """Tests for convert_file_size_in_bytes_to_human_readable_format function."""
+    """Tests for convert_file_size_to_human_readable function."""
+
+    def test_bytes(self):
+        """Test conversion for values in bytes range."""
+        assert convert_file_size_in_bytes_to_human_readable_format(0) == "0.00 B"
+        assert convert_file_size_in_bytes_to_human_readable_format(1) == "1.00 B"
+        assert convert_file_size_in_bytes_to_human_readable_format(512) == "512.00 B"
+        assert convert_file_size_in_bytes_to_human_readable_format(1023) == "1023.00 B"
+
+    def test_kilobytes(self):
+        """Test conversion for values in kilobytes range."""
+        assert convert_file_size_in_bytes_to_human_readable_format(1024) == "1.00 KB"
+        assert convert_file_size_in_bytes_to_human_readable_format(1536) == "1.50 KB"
+        assert convert_file_size_in_bytes_to_human_readable_format(10240) == "10.00 KB"
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(127560) == "124.57 KB"
+        )
+
+    def test_megabytes(self):
+        """Test conversion for values in megabytes range."""
+        assert convert_file_size_in_bytes_to_human_readable_format(1048576) == "1.00 MB"
+        assert convert_file_size_in_bytes_to_human_readable_format(1289748) == "1.23 MB"
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(10485760) == "10.00 MB"
+        )
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(104857600)
+            == "100.00 MB"
+        )
+
+    def test_gigabytes(self):
+        """Test conversion for values in gigabytes range."""
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(1073741824) == "1.00 GB"
+        )
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(2147483648) == "2.00 GB"
+        )
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(132553428173)
+            == "123.45 GB"
+        )
+
+    def test_terabytes(self):
+        """Test conversion for values in terabytes range."""
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(1099511627776)
+            == "1.00 TB"
+        )  # 1 TB
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(5497558138880)
+            == "5.00 TB"
+        )  # 5 TB
+
+    def test_very_large_file(self):
+        """Test conversion for files larger than terabytes."""
+        # 1 PB (petabyte)
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(1125899906842624)
+            == "File too big!"
+        )
+
+    def test_edge_cases(self):
+        """Test edge cases between unit boundaries."""
+        # Just at the boundary
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(1024**2) == "1.00 MB"
+        )  # Exactly 1 MB
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(1024**3) == "1.00 GB"
+        )  # Exactly 1 GB
+        assert (
+            convert_file_size_in_bytes_to_human_readable_format(1024**4) == "1.00 TB"
+        )  # Exactly 1 TB