fix: rebase against staging, incorporate changes

nlebovits · nlebovits · commit 81f7413d1930 · 2025-06-28T11:35:26.000-03:00
diff --git a/data/src/constants/services.py b/data/src/constants/services.py
@@ -62,7 +62,7 @@
 
 DELINQUENCIES_QUERY = "SELECT * FROM real_estate_tax_delinquencies"
 
-OPA_PROPERTIES_QUERY = "SELECT building_code_description, market_value, sale_date, sale_price, parcel_number, location as street_address,owner_1, owner_2, mailing_address_1, mailing_address_2, mailing_care_of, mailing_street, mailing_zip, mailing_city_state, unit, zip_code, zoning, the_geom FROM opa_properties_public"
+OPA_PROPERTIES_QUERY = "SELECT building_code_description, market_value, sale_date, sale_price, parcel_number, location AS street_address, owner_1, owner_2, mailing_address_1, mailing_address_2, mailing_care_of, mailing_street, mailing_zip, mailing_city_state, unit, zip_code, zoning, the_geom FROM opa_properties_public"
 
 PWD_PARCELS_QUERY = "SELECT *, the_geom FROM pwd_parcels"
 
diff --git a/data/src/data_utils/opa_properties.py b/data/src/data_utils/opa_properties.py
@@ -209,6 +209,9 @@ def opa_properties(
     performance_logger.info(f"load_or_fetch completed: {load_time:.3f}s")
     performance_logger.info(f"Loaded {len(opa)} rows")
 
+    print(opa.columns)
+    print(opa.head())
+
     # Convert 'sale_price' and 'market_value' to numeric values
     numeric_start = time.time()
     performance_logger.info("Converting sale_price and market_value to numeric")
@@ -253,7 +256,7 @@ def opa_properties(
     performance_logger.info("Combining street_address and unit")
     opa["street_address"] = opa.apply(
         lambda row: f"{row['street_address']} {row['unit']}"
-        if pd.notnull(row["unit"]) and str(row["unit"]).strip() != ""
+        if pd.notnull(row.get("unit")) and str(row["unit"]).strip() != ""
         else row["street_address"],
         axis=1,
     )
diff --git a/data/src/test/validation/test_kde_validator.py b/data/src/test/validation/test_kde_validator.py
@@ -193,6 +193,7 @@ def test_schema_missing_columns(schema_validator, sample_gdf):
 
     result = schema_validator.validate(gdf_missing)
 
+    print("[DEBUG] result.errors:", result.errors)
     assert not result.success
     # Check for schema validation error (pandera generates different error format)
     assert any("Schema validation failed" in error for error in result.errors)
diff --git a/data/src/validation/access_process.py b/data/src/validation/access_process.py
@@ -2,7 +2,9 @@
 import pandas as pd
 import pandera.pandas as pa
 
-from .base import BaseValidator
+from .base import (
+    BaseValidator,
+)
 
 # Define the Access Process DataFrame Schema
 AccessProcessSchema = pa.DataFrameSchema(
@@ -50,7 +52,7 @@ def _row_level_validation(self, gdf: gpd.GeoDataFrame, errors: list):
         required_columns = ["access_process"]
         self._validate_required_columns(gdf, required_columns, errors)
 
-        # Validate access_process column
+        # Validate access_process column using utility functions
         if "access_process" in gdf.columns:
             # Check for non-string values (excluding NAs)
             non_string_access_processes = (
@@ -91,10 +93,8 @@ def _statistical_validation(self, gdf: gpd.GeoDataFrame, errors: list):
                 f"Access process count ({total_records}) below expected minimum ({min_records:,})"
             )
 
-        # 2. Access process distribution validation
+        # 2. Access process distribution validation using utility functions
         if "access_process" in gdf.columns:
-            total_records = len(gdf)
-
             # Check that we have some NAs (non-vacant properties)
             na_count = gdf["access_process"].isna().sum()
             na_pct = (na_count / total_records) * 100
diff --git a/data/src/validation/base.py b/data/src/validation/base.py
@@ -2,7 +2,8 @@
 import logging
 import time
 from abc import ABC, abstractmethod
-from typing import Callable, List
+from dataclasses import dataclass
+from typing import Callable, List, Optional
 
 import geopandas as gpd
 import pandas as pd
@@ -367,11 +368,25 @@ def validate(
                 print("\n[SCHEMA VALIDATION ERROR]")
                 print("First 10 failure cases:")
                 print(err.failure_cases.head(10).to_string(index=False))
-                # Add each failure as a separate error
+                # Add each failure as a custom error message
                 for _, row in err.failure_cases.iterrows():
-                    self.errors.append(
-                        f"Schema validation failed for {row['column']}: {row['failure_case']}"
-                    )
+                    col = row.get("column", "")
+                    check = row.get("check", "")
+                    failure = row.get("failure_case", "")
+                    # Try to make the message as close as possible to your old custom ones
+                    if "mean should be roughly" in str(failure):
+                        msg = f"{col} mean appears outside expected range: {failure}"
+                    elif "standard deviation should be roughly" in str(failure):
+                        msg = f"{col} standard deviation appears outside expected range: {failure}"
+                    elif "max" in str(failure) or "min" in str(failure):
+                        msg = f"{col} values appear outside expected range: {failure}"
+                    elif "first quantile" in str(failure):
+                        msg = f"{col} first quantile appears outside expected range: {failure}"
+                    elif "third quantile" in str(failure):
+                        msg = f"{col} third quantile appears outside expected range: {failure}"
+                    else:
+                        msg = f"{col} failed check '{check}': {failure}"
+                    self.errors.append(f"Schema validation failed: {msg}")
                 return ValidationResult(success=False, errors=self.errors.copy())
         schema_time = time.time() - schema_start
 
@@ -685,3 +700,93 @@ def wrapper(gdf: gpd.GeoDataFrame = None, *args, **kwargs):
         return wrapper
 
     return decorator
+
+
+no_na_check = Check.ne("NA", error="Value cannot be NA")
+
+unique_check = Check(lambda s: s.is_unique, error="Should have all unique values")
+
+
+def unique_value_check(lower: int, upper: int) -> Check:
+    return Check(
+        lambda s: s.nunique() >= lower and s.nunique() < upper,
+        error=f"Number of unique values is roughly between {lower} and {upper}",
+    )
+
+
+def null_percentage_check(null_percent: float) -> Check:
+    return Check(
+        lambda s: s.isnull().mean() >= 0.8 * null_percent
+        and s.isnull().mean() <= 1.2 * null_percent,
+        error=f"Percentage of nulls in column should be roughly {null_percent}",
+    )
+
+
+@dataclass
+class DistributionParams:
+    min_value: Optional[int | float] = None
+    max_value: Optional[int | float] = None
+    mean: Optional[int | float] = None
+    median: Optional[int | float] = None
+    std: Optional[int | float] = None
+    q1: Optional[int | float] = None
+    q3: Optional[int | float] = None
+
+
+def distribution_check(params: DistributionParams) -> List[Check]:
+    res = []
+
+    if params.min_value:
+        res.append(
+            Check(lambda s: pd.to_numeric(s, errors="coerce").min() >= params.min_value)
+        )
+    if params.max_value:
+        res.append(
+            Check(lambda s: pd.to_numeric(s, errors="coerce").max() <= params.max_value)
+        )
+    if params.mean:
+        res.append(
+            Check(
+                lambda s: pd.to_numeric(s, errors="coerce").mean() >= 0.8 * params.mean
+                and pd.to_numeric(s, errors="coerce").mean() <= 1.2 * params.mean,
+                error=f"Column mean should be roughly {params.mean}",
+            )
+        )
+    if params.median:
+        res.append(
+            Check(
+                lambda s: pd.to_numeric(s, errors="coerce").quantile(0.5)
+                >= 0.8 * params.median
+                and pd.to_numeric(s, errors="coerce").quantile(0.5)
+                <= 1.2 * params.median,
+                error=f"Column median should be roughly {params.median}",
+            )
+        )
+    if params.std:
+        res.append(
+            Check(
+                lambda s: pd.to_numeric(s, errors="coerce").std() >= 0.8 * params.std
+                and pd.to_numeric(s, errors="coerce").std() <= 1.2 * params.std,
+                error=f"Column standard deviation should be roughly {params.std}",
+            )
+        )
+    if params.q1:
+        res.append(
+            Check(
+                lambda s: pd.to_numeric(s, errors="coerce").quantile(0.25)
+                >= 0.8 * params.q1
+                and pd.to_numeric(s, errors="coerce").quantile(0.25) <= 1.2 * params.q1,
+                error=f"Column first quantile should be roughly {params.q1}",
+            )
+        )
+    if params.q3:
+        res.append(
+            Check(
+                lambda s: pd.to_numeric(s, errors="coerce").quantile(0.75)
+                >= 0.8 * params.q3
+                and pd.to_numeric(s, errors="coerce").quantile(0.75) <= 1.2 * params.q3,
+                error=f"Column third quantile should be roughly {params.q3}",
+            )
+        )
+
+    return res
diff --git a/data/src/validation/community_gardens.py b/data/src/validation/community_gardens.py
@@ -1,7 +1,9 @@
 import geopandas as gpd
 import pandera.pandas as pa
 
-from .base import BaseValidator
+from .base import (
+    BaseValidator,
+)
 
 # Define the Community Gardens DataFrame Schema
 CommunityGardensSchema = pa.DataFrameSchema(
@@ -49,7 +51,7 @@ def _print_statistical_summary(self, gdf: gpd.GeoDataFrame):
             )
             print(f"Site names missing: {total_records - non_null_site_names:,}")
 
-        # Unique site names
+        # Unique site names using utility function
         if "site_name" in gdf.columns:
             unique_site_names = gdf["site_name"].nunique()
             print(f"Unique site names: {unique_site_names:,}")
@@ -72,7 +74,7 @@ def _row_level_validation(self, gdf: gpd.GeoDataFrame, errors: list):
         required_columns = ["opa_id", "vacant", "geometry"]
         self._validate_required_columns(gdf, required_columns, errors)
 
-        # Validate vacant column is boolean
+        # Validate vacant column is boolean using utility functions
         if "vacant" in gdf.columns:
             non_null_vacant = gdf["vacant"].dropna()
             if len(non_null_vacant) > 0:
@@ -92,7 +94,7 @@ def _statistical_validation(self, gdf: gpd.GeoDataFrame, errors: list):
         if total_records == 0:
             errors.append("Output dataset is empty")
 
-        # 2. Vacant column validation - check that some parcels are marked as non-vacant
+        # 2. Vacant column validation using utility functions
         if "vacant" in gdf.columns:
             non_vacant_count = (~gdf["vacant"]).sum()
             vacant_count = gdf["vacant"].sum()
@@ -109,6 +111,10 @@ def _statistical_validation(self, gdf: gpd.GeoDataFrame, errors: list):
                     "No vacant parcels found - this seems unlikely for a full property dataset"
                 )
 
+            # Use utility function to validate boolean distribution
+            # Expect roughly 2 unique values (True/False) for vacant column
+            self._validate_unique_count(gdf, "vacant", errors, min_count=1, max_count=2)
+
     def _print_statistical_summary(self, gdf: gpd.GeoDataFrame):
         """Print comprehensive statistical summary of the community gardens data."""
         self._print_summary_header("Community Gardens Statistical Summary", gdf)
diff --git a/data/src/validation/conservatorship.py b/data/src/validation/conservatorship.py
@@ -1,12 +1,17 @@
 import geopandas as gpd
+from pandera.pandas import Check, Column, DataFrameSchema
 
 from .base import BaseValidator
 
+output_schema = DataFrameSchema(
+    {"tactical_urbanism": Column(str, checks=Check.isin(["Y", "N"]))}
+)
+
 
 class ConservatorshipOutputValidator(BaseValidator):
     """Validator for conservatorship service output."""
 
-    schema = None
+    schema = output_schema
 
     def _custom_validation(self, gdf: gpd.GeoDataFrame):
         pass
diff --git a/data/src/validation/contig_neighbors.py b/data/src/validation/contig_neighbors.py
@@ -1,12 +1,18 @@
 import geopandas as gpd
+from pandera.pandas import Column, DataFrameSchema
 
-from .base import BaseValidator
+from .base import BaseValidator, DistributionParams, distribution_check
+
+params = DistributionParams(max_value=49, mean=2.566, std=4.873, q1=0.000, q3=3.000)
+output_schema = DataFrameSchema(
+    {"n_contiguous": Column(int, checks=[*distribution_check(params)], coerce=True)}
+)
 
 
 class ContigNeighborsOutputValidator(BaseValidator):
     """Validator for contiguous neighbors service output."""
 
-    schema = None
+    schema = output_schema
 
     def _custom_validation(self, gdf: gpd.GeoDataFrame):
         pass
diff --git a/data/src/validation/delinquencies.py b/data/src/validation/delinquencies.py
@@ -1,6 +1,7 @@
 import geopandas as gpd
+from pandera.pandas import Check, Column, DataFrameSchema
 
-from .base import BaseValidator
+from .base import BaseValidator, DistributionParams, distribution_check
 
 
 class DelinquenciesInputValidator(BaseValidator):
@@ -12,10 +13,47 @@ def _custom_validation(self, gdf: gpd.GeoDataFrame):
         pass
 
 
+total_due_params = DistributionParams(
+    max_value=951046.42,
+    mean=7291.178875,
+    std=14821.81088,
+    q1=873.21,
+    q3=8301.53,
+)
+total_assessment_params = DistributionParams(
+    max_value=137576900,
+    mean=146337.2527,
+    std=1474304.277,
+    q1=29300,
+    q3=116800,
+)
+num_year_owed_params = DistributionParams(
+    max_value=45, mean=7.641, std=8.923, q1=2.000, q3=10.000
+)
+
+output_schema = DataFrameSchema(
+    {
+        "total_due": Column(
+            float, checks=[*distribution_check(total_due_params)], coerce=True
+        ),
+        "most_recent_year_owed": Column(str),
+        "num_years_owed": Column(
+            int, checks=[*distribution_check(num_year_owed_params)], coerce=True
+        ),
+        "payment_agreement": Column(bool, coerce=True),
+        "is_actionable": Column(bool),
+        "sheriff_sale": Column(str, checks=Check.isin(["Y", "N"])),
+        "total_assessment": Column(
+            float, checks=[*distribution_check(total_assessment_params)], coerce=True
+        ),
+    }
+)
+
+
 class DelinquenciesOutputValidator(BaseValidator):
     """Validator for delinquencies service output."""
 
-    schema = None
+    schema = output_schema
 
     def _custom_validation(self, gdf: gpd.GeoDataFrame):
         pass
diff --git a/data/src/validation/dev_probability.py b/data/src/validation/dev_probability.py
@@ -1,6 +1,7 @@
 import geopandas as gpd
+from pandera.pandas import Check, Column, DataFrameSchema
 
-from .base import BaseValidator
+from .base import BaseValidator, DistributionParams, distribution_check
 
 
 class DevProbabilityInputValidator(BaseValidator):
@@ -12,10 +13,22 @@ def _custom_validation(self, gdf: gpd.GeoDataFrame):
         pass
 
 
+permit_counts_params = DistributionParams(
+    mean=42.129, std=44.789, max_value=413.000, q1=18.000, q3=46.000
+)
+
+output_schema = DataFrameSchema(
+    {
+        "permit_count": Column(int, checks=[*distribution_check(permit_counts_params)]),
+        "dev_rank": Column(str, checks=Check.isin(["Low", "Medium", "High"])),
+    }
+)
+
+
 class DevProbabilityOutputValidator(BaseValidator):
     """Validator for dev probability service output."""
 
-    schema = None
+    schema = output_schema
 
     def _custom_validation(self, gdf: gpd.GeoDataFrame):
         pass
diff --git a/data/src/validation/imm_dang_buildings.py b/data/src/validation/imm_dang_buildings.py
@@ -35,6 +35,11 @@ def _custom_validation(self, gdf: gpd.GeoDataFrame, check_stats: bool = True):
         pass
 
 
+output_schema = pa.DataFrameSchema(
+    {"unsafe_building": pa.Column(str, checks=pa.Check.isin(["Y", "N"]))}
+)
+
+
 class ImmDangerOutputValidator(BaseValidator):
     """Validator for imminent danger buildings service output."""
 
diff --git a/data/src/validation/li_violations.py b/data/src/validation/li_violations.py
diff --git a/data/src/validation/nbhoods.py b/data/src/validation/nbhoods.py
diff --git a/data/src/validation/negligent_devs.py b/data/src/validation/negligent_devs.py
diff --git a/data/src/validation/priority_level.py b/data/src/validation/priority_level.py
diff --git a/data/src/validation/tactical_urbanism.py b/data/src/validation/tactical_urbanism.py