chore: remove structlog

cevian · cevian · commit 785820fafd7a · 2025-04-21T17:11:36.000-04:00
It is considered best practice for Python libraries
to use the standard logger package.
diff --git a/projects/pgai/pgai/__init__.py b/projects/pgai/pgai/__init__.py
@@ -1,5 +1,6 @@
 __version__ = "0.10.0-dev"
 
 from pgai._install.install import ainstall, install
+from pgai.logger import get_logger, set_level
 
-__all__ = ["ainstall", "install"]
+__all__ = ["ainstall", "install", "get_logger", "set_level"]
diff --git a/projects/pgai/pgai/_install/install.py b/projects/pgai/pgai/_install/install.py
@@ -2,14 +2,14 @@
 
 import psycopg
 import semver
-import structlog
 from psycopg import sql as sql_lib
 
 from .. import __version__
+from ..logger import get_logger
 
 GUC_VECTORIZER_URL = "ai.external_functions_executor_url"
 
-log = structlog.get_logger()
+log = get_logger(__name__)
 
 
 def _get_sql(vector_extension_schema: str) -> str:
diff --git a/projects/pgai/pgai/cli.py b/projects/pgai/pgai/cli.py
@@ -8,17 +8,16 @@
 from typing import Any
 
 import click
-import structlog
 from ddtrace import tracer
 from dotenv import load_dotenv
 from pytimeparse import parse  # type: ignore
 
 from .__init__ import __version__
+from .logger import get_logger, set_level
 
 load_dotenv()
 
-structlog.configure(wrapper_class=structlog.make_filtering_bound_logger(logging.INFO))
-log = structlog.get_logger()
+log = get_logger()
 
 
 def asbool(value: str | None):
@@ -189,9 +188,8 @@ async def async_run_vectorizer_worker(
     signal.signal(signal.SIGINT, shutdown_handler)
     signal.signal(signal.SIGTERM, shutdown_handler)
 
-    structlog.configure(
-        wrapper_class=structlog.make_filtering_bound_logger(get_log_level(log_level))
-    )
+    # Configure the logging level for pgai loggers
+    set_level(get_log_level(log_level))
 
     worker = Worker(
         db_url,
diff --git a/projects/pgai/pgai/logger.py b/projects/pgai/pgai/logger.py
@@ -0,0 +1,71 @@
+import json
+import logging
+from collections.abc import Callable
+from typing import Any, TypeVar
+
+from typing_extensions import override
+
+T = TypeVar("T", bound="StructuredMessage")
+
+# Type for the renderer function
+RendererType = Callable[[str, dict[str, Any]], str]
+
+
+class StructuredMessage:
+    _renderer: RendererType | None = None
+
+    def __init__(self, message: str, /, **kwargs: Any) -> None:
+        self.message: str = message
+        self.kwargs: dict[str, Any] = kwargs
+
+    @override
+    def __str__(self) -> str:
+        renderer: RendererType = self._renderer or self.default_renderer
+        return renderer(self.message, self.kwargs)
+
+    @staticmethod
+    def default_renderer(msg: str, kwargs: dict[str, Any]) -> str:
+        return f"{msg} >>> {json.dumps(kwargs)}"
+
+    @classmethod
+    def set_renderer(cls: type[T], renderer_func: RendererType) -> None:
+        cls._renderer = renderer_func
+
+
+def set_renderer(renderer_func: RendererType) -> None:
+    StructuredMessage.set_renderer(renderer_func)
+
+
+def get_logger(name: str = "") -> logging.Logger:
+    """Get a logger instance with the pgai namespace.
+
+    Args:
+        name: The logger name, which will be prefixed with 'pgai.'
+
+    Returns:
+        A Logger instance with the appropriate namespace
+    """
+    if name:
+        logger_name: str = f"pgai.{name}"
+    else:
+        logger_name: str = "pgai"
+
+    return logging.getLogger(logger_name)
+
+
+def set_level(level: int | str) -> None:
+    """Set the log level for all pgai loggers.
+
+    This does not affect the root logger or any other loggers outside
+    the pgai namespace.
+
+    Args:
+        level: The logging level (e.g., logging.INFO, logging.DEBUG)
+              or a string level name ('INFO', 'DEBUG', etc.)
+    """
+    if isinstance(level, str):
+        numeric_level: int = getattr(logging, level.upper(), logging.INFO)
+    else:
+        numeric_level = level
+
+    logging.getLogger("pgai").setLevel(numeric_level)
diff --git a/projects/pgai/pgai/vectorizer/embedders/litellm.py b/projects/pgai/pgai/vectorizer/embedders/litellm.py
@@ -4,6 +4,7 @@
 from pydantic import BaseModel
 from typing_extensions import override
 
+from ...logger import StructuredMessage
 from ..embeddings import (
     ApiKeyMixin,
     Embedder,
@@ -43,7 +44,11 @@ async def embed(
         Returns:
             Sequence[EmbeddingVector]: The embeddings for each document.
         """
-        await logger.adebug(f"Chunks produced: {len(documents)}")
+        logger.debug(
+            StructuredMessage(
+                f"Chunks produced: {len(documents)}", chunks=len(documents)
+            )
+        )
         chunk_lengths = [0 for _ in documents]
         async for embeddings in self.batch_chunks_and_embed(documents, chunk_lengths):
             yield embeddings
@@ -72,7 +77,7 @@ def _max_chunks_per_batch(self) -> int:
             case "voyage":
                 return 128  # see https://docs.voyageai.com/reference/embeddings-api
             case _:
-                logger.warn(
+                logger.warning(
                     f"unknown provider '{custom_llm_provider}', falling back to conservative max chunks per batch"  # noqa: E501
                 )
                 return 5
diff --git a/projects/pgai/pgai/vectorizer/embedders/ollama.py b/projects/pgai/pgai/vectorizer/embedders/ollama.py
@@ -5,6 +5,7 @@
 from pydantic import BaseModel
 from typing_extensions import TypedDict, override
 
+from ...logger import StructuredMessage
 from ..embeddings import (
     BaseURLMixin,
     Embedder,
@@ -84,7 +85,11 @@ async def embed(
         Returns:
             Sequence[EmbeddingVector]: The embeddings for each document.
         """
-        await logger.adebug(f"Chunks produced: {len(documents)}")
+        logger.debug(
+            StructuredMessage(
+                f"Chunks produced: {len(documents)}", chunks=len(documents)
+            )
+        )
         chunk_lengths = [0 for _ in documents]
         async for embeddings in self.batch_chunks_and_embed(documents, chunk_lengths):
             yield embeddings
@@ -106,7 +111,7 @@ async def setup(self):
             await client.show(self.model)
         except ollama.ResponseError as e:
             if f"model '{self.model}' not found" in e.error:
-                logger.warn(
+                logger.warning(
                     f"pulling ollama model '{self.model}', this may take a while"
                 )
                 await client.pull(self.model)
@@ -138,7 +143,7 @@ async def _context_length(self) -> int | None:
         model = await ollama.AsyncClient(host=self.base_url).show(self.model)
         architecture = model["model_info"].get("general.architecture", None)
         if architecture is None:
-            logger.warn(f"unable to determine architecture for model '{self.model}'")
+            logger.warning(f"unable to determine architecture for model '{self.model}'")
             return None
         context_key = f"{architecture}.context_length"
         # see https://github.com/ollama/ollama/blob/712d63c3f06f297e22b1ae32678349187dccd2e4/llm/ggml.go#L116-L118 # noqa
diff --git a/projects/pgai/pgai/vectorizer/embedders/openai.py b/projects/pgai/pgai/vectorizer/embedders/openai.py
@@ -7,6 +7,8 @@
 from pydantic import BaseModel
 from typing_extensions import override
 
+from ...logger import StructuredMessage
+
 if TYPE_CHECKING:
     import openai
     import tiktoken
@@ -166,7 +168,11 @@ async def embed(
             AsyncGenerator[list[EmbeddingVector], None]: The embeddings for
             each document.
         """
-        await logger.adebug(f"Chunks produced: {len(documents)}")
+        logger.debug(
+            StructuredMessage(
+                f"Chunks produced: {len(documents)}", chunks=len(documents)
+            )
+        )
         encoder = self._encoder
         context_length = self._context_length
         if encoder is not None and context_length is not None:
@@ -176,8 +182,12 @@ async def embed(
                 tokenized = encoder.encode(document)
                 tokenized_length = len(tokenized)
                 if tokenized_length > context_length:
-                    await logger.awarning(
-                        f"chunk truncated from {len(tokenized)} to {context_length} tokens"  # noqa
+                    logger.warning(
+                        StructuredMessage(
+                            f"chunk truncated from {len(tokenized)} to {context_length} tokens",  # noqa
+                            original_length=len(tokenized),
+                            truncated_length=context_length,
+                        )
                     )
                     documents[i] = encoder.decode(tokenized[:context_length])
                 token_counts.append(min(context_length, tokenized_length))
diff --git a/projects/pgai/pgai/vectorizer/embedders/voyageai.py b/projects/pgai/pgai/vectorizer/embedders/voyageai.py
@@ -4,6 +4,7 @@
 from pydantic import BaseModel
 from typing_extensions import override
 
+from ...logger import StructuredMessage
 from ..embeddings import (
     ApiKeyMixin,
     Embedder,
@@ -44,7 +45,11 @@ async def embed(
         Returns:
             Sequence[EmbeddingVector]: The embeddings for each document.
         """
-        await logger.adebug(f"Chunks produced: {len(documents)}")
+        logger.debug(
+            StructuredMessage(
+                f"Chunks produced: {len(documents)}", chunks=len(documents)
+            )
+        )
         chunk_lengths = [0 for _ in documents]
         async for embeddings in self.batch_chunks_and_embed(documents, chunk_lengths):
             yield embeddings
diff --git a/projects/pgai/pgai/vectorizer/embeddings.py b/projects/pgai/pgai/vectorizer/embeddings.py
@@ -4,10 +4,11 @@
 from dataclasses import dataclass
 from typing import TypeAlias
 
-import structlog
 from ddtrace import tracer
 
-logger = structlog.get_logger()
+from ..logger import StructuredMessage, get_logger
+
+logger = get_logger(__name__)
 
 EmbeddingVector: TypeAlias = list[float]
 
@@ -161,9 +162,9 @@ async def batch_chunks_and_embed(
                 batch_num = i + 1
                 batch = documents[start:end]
 
-                await logger.adebug(f"Batch {batch_num} of {num_batches}")
-                await logger.adebug(f"Chunks for this batch: {len(batch)}")
-                await logger.adebug(f"Request {batch_num} of {num_batches} initiated")
+                logger.debug(f"Batch {batch_num} of {num_batches}")
+                logger.debug(f"Chunks for this batch: {len(batch)}")
+                logger.debug(f"Request {batch_num} of {num_batches} initiated")
                 with tracer.trace("embeddings.do.embedder.create"):
                     current_span = tracer.current_span()
                     if current_span:
@@ -181,7 +182,7 @@ async def batch_chunks_and_embed(
                             request_duration,
                         )
 
-                    await logger.adebug(
+                    logger.debug(
                         f"Request {batch_num} of {num_batches} "
                         f"ended after: {request_duration} seconds. "
                         f"Tokens usage: {response_.usage}"
@@ -327,10 +328,12 @@ async def print_stats(self):
         chunks per second.
         """
         self.wall_time = time.perf_counter() - self.wall_start
-        await logger.adebug(
-            "Embedding stats",
-            total_request_time=self.total_request_time,
-            wall_time=self.wall_time,
-            total_chunks=self.total_chunks,
-            chunks_per_second=self.chunks_per_second(),
+        logger.debug(
+            StructuredMessage(
+                "Embedding stats",
+                total_request_time=self.total_request_time,
+                wall_time=self.wall_time,
+                total_chunks=self.total_chunks,
+                chunks_per_second=self.chunks_per_second(),
+            )
         )
diff --git a/projects/pgai/pgai/vectorizer/migrations/__init__.py b/projects/pgai/pgai/vectorizer/migrations/__init__.py
@@ -6,9 +6,10 @@
 from typing import Any, Generic, TypeVar
 
 import semver
-import structlog
 
-logger = structlog.get_logger()
+from ...logger import get_logger
+
+logger = get_logger(__name__)
 
 # config generic type
 C = TypeVar("C")
diff --git a/projects/pgai/pgai/vectorizer/vectorizer.py b/projects/pgai/pgai/vectorizer/vectorizer.py
diff --git a/projects/pgai/pgai/vectorizer/worker.py b/projects/pgai/pgai/vectorizer/worker.py
diff --git a/projects/pgai/pgai/vectorizer/worker_tracking/worker_tracking.py b/projects/pgai/pgai/vectorizer/worker_tracking/worker_tracking.py
diff --git a/projects/pgai/pyproject.toml b/projects/pgai/pyproject.toml
diff --git a/projects/pgai/uv.lock b/projects/pgai/uv.lock