Split dependency group to reduce size

slinjhu · slinjhu · commit 2ac5ef57d76c · 2025-12-15T11:11:30.000-08:00
diff --git a/smoosense-py/pyproject.toml b/smoosense-py/pyproject.toml
@@ -29,16 +29,12 @@ dependencies = [
     "click>=8.1.8",
     "duckdb>=1.2.1",
     "flask>=3.1.0",
-    "hdbscan>=0.8.40",
     "lancedb>=0.25.2",
     "pyarrow>=20.0.0",
     "pydantic>=2.11.7",
     "pytz>=2025.2",
     "requests>=2.32.3",
     "rich>=14.0.0",
-    "tqdm>=4.67.1",
-    "transformers>=4.57.3",
-    "umap-learn>=0.5.9.post2",
 ]
 
 [project.urls]
@@ -63,6 +59,12 @@ images = [
     "torch>=2.0.0",
     "pillow>=10.0.0",
 ]
+emb = [
+    "hdbscan>=0.8.40",
+    "tqdm>=4.67.1",
+    "transformers>=4.57.3",
+    "umap-learn>=0.5.9.post2",
+]
 
 [dependency-groups]
 dev = [
diff --git a/smoosense-py/smoosense/handlers/umap.py b/smoosense-py/smoosense/handlers/umap.py
@@ -2,7 +2,6 @@
 from timeit import default_timer
 
 import numpy as np
-import umap
 from flask import Blueprint, Response, current_app, jsonify, request
 
 from smoosense.handlers.auth import requires_auth_api
@@ -16,6 +15,7 @@
 # Maximum number of rows to compute UMAP on (random sample if exceeded)
 UMAP_MAX_ROWS = 1_000
 
+
 @umap_bp.post("/umap")
 @requires_auth_api
 @handle_api_errors
@@ -107,6 +107,9 @@ def compute_umap() -> Response:
     # Adjust n_neighbors if larger than dataset
     actual_n_neighbors = min(n_neighbors, len(embeddings) - 1)
 
+    # Lazily import umap since it is only available in some cases
+    import umap
+
     # Compute UMAP with performance optimizations
     reducer = umap.UMAP(
         n_neighbors=actual_n_neighbors,
diff --git a/smoosense-py/smoosense/images/ingest.py b/smoosense-py/smoosense/images/ingest.py
@@ -73,9 +73,9 @@ def compute_dinov2_embeddings_batch(
     device: str,
 ) -> list[list[float]]:
     """Compute DINOv2 embeddings for a batch of images (L2-normalized)."""
-    inputs = processor(images=images, return_tensors="pt").to(device)  # type: ignore[operator]
+    inputs = processor(images=images, return_tensors="pt").to(device)
     with torch.no_grad():
-        outputs = model(**inputs)  # type: ignore[operator]
+        outputs = model(**inputs)
         # Use CLS token from last hidden state
         embs = outputs.last_hidden_state[:, 0, :]
         # L2 normalize
diff --git a/smoosense-py/smoosense/lance/parquet_to_lance.py b/smoosense-py/smoosense/lance/parquet_to_lance.py
@@ -72,7 +72,7 @@ def is_float_or_double_list(col_type: pa.DataType) -> bool:
     if not pa.types.is_list(col_type):
         return False
     element_type = col_type.value_type
-    return pa.types.is_floating(element_type)
+    return bool(pa.types.is_floating(element_type))
 
 
 def get_embedding_columns(schema: pa.Schema, min_dim: int = 10) -> list[str]:
diff --git a/smoosense-py/uv.lock b/smoosense-py/uv.lock