Promote crime and voter overlays to base; remove social alignment from core

iandorsey00 · iandorsey00 · commit 289d836aeac9 · 2026-03-07T19:58:32.000-08:00
diff --git a/README.md b/README.md
@@ -51,13 +51,22 @@ directory.
 
 Optional overlays can be placed in the same data directory:
 
-- `overlays/crime_data.csv` (or `crime_data.csv`)
-- `overlays/project_data.csv` (or `project_data.csv`)
-- `overlays/social_alignment.csv`
+- `overlays/crime_data.csv`
+- `overlays/voter_data.csv`
+- `overlays/project_data.csv`
 
 Overlay files should include a `GEOID` column plus numeric metric columns.
-Crime metrics (column names containing `crime`) appear under a `CRIME` section
-in demographic profiles. Other overlay metrics appear under `PROJECT DATA`.
+You can also normalize sources into canonical overlays automatically:
+
+```bash
+python3 scripts/fetch_overlays.py \
+  --out-dir /path/to/data \
+  --crime-source /path/or/url/to/crime.csv \
+  --voter-source /path/or/url/to/voter.csv
+```
+
+Crime metrics appear under `CRIME`, voter metrics under `CIVICS`, and other
+private/custom metrics in `project_data.csv` appear under `PROJECT DATA`.
 
 Query workflows:
 
diff --git a/geocompare/database/Database.py b/geocompare/database/Database.py
@@ -57,6 +57,12 @@ class Database:
         ('total_crime_rate', 'Total crime rate', '/100k'),
     ]
 
+    VOTER_PERCENT_METRIC_DEFS = [
+        ('percent_democratic', 'Percent Democratic'),
+        ('percent_republican', 'Percent Republican'),
+        ('percent_other', 'Percent Other'),
+    ]
+
     ###########################################################################
     # Helper methods for __init__
 
@@ -195,13 +201,9 @@ def _normalize_geoid_keys(self, geoid):
     def _iter_overlay_candidates(self, path):
         overlay_dir = path / 'overlays'
         candidates = [
-            path / 'crime_data.csv',
-            path / 'crime.csv',
             overlay_dir / 'crime_data.csv',
-            overlay_dir / 'crime.csv',
-            path / 'project_data.csv',
             overlay_dir / 'project_data.csv',
-            overlay_dir / 'social_alignment.csv',
+            overlay_dir / 'voter_data.csv',
         ]
         for candidate in candidates:
             if candidate.exists():
@@ -311,11 +313,17 @@ def _add_overlay_metric(self, dp, section_title, metric_key, metric_value):
                 else:
                     value_display = f'{metric_value:,.0f}'
                 break
+        for known_key, known_label in self.VOTER_PERCENT_METRIC_DEFS:
+            if key == known_key:
+                label = known_label
+                value_display = f'{metric_value:,.1f}%'
+                break
 
-        if key.endswith('social_alignment_index'):
-            label = 'Social alignment index'
-            value_display = f'{metric_value:,.3f}'
-        elif value_display is None:
+        if key == 'registered_voters':
+            label = 'Registered voters'
+            value_display = f'{metric_value:,.0f}'
+
+        if value_display is None:
             if float(metric_value).is_integer():
                 value_display = f'{metric_value:,.0f}'
             else:
@@ -337,6 +345,70 @@ def _add_overlay_metric(self, dp, section_title, metric_key, metric_value):
             compound_suffix=compound_suffix,
         )
 
+    def _derive_crime_rate_metrics(self, metrics, population):
+        if not population:
+            return {}
+
+        derived = {}
+        for count_key in (
+            'violent_crime_count',
+            'property_crime_count',
+            'total_crime_count',
+        ):
+            rate_key = count_key.replace('_count', '_rate')
+            if rate_key in metrics:
+                continue
+
+            count_value = metrics.get(count_key)
+            if count_value is None:
+                continue
+            try:
+                count_value = float(count_value)
+            except (TypeError, ValueError):
+                continue
+
+            derived[rate_key] = count_value / population * 100000.0
+
+        return derived
+
+    def _derive_voter_share_metrics(self, metrics):
+        registered = metrics.get('registered_voters')
+        if not registered:
+            return {}
+        try:
+            registered = float(registered)
+        except (TypeError, ValueError):
+            return {}
+        if registered <= 0:
+            return {}
+
+        derived = {}
+        for party in ('democratic', 'republican', 'other'):
+            percent_key = f'percent_{party}'
+            if percent_key in metrics:
+                continue
+
+            count_key = f'{party}_voters'
+            count_value = metrics.get(count_key)
+            if count_value is None:
+                continue
+            try:
+                count_value = float(count_value)
+            except (TypeError, ValueError):
+                continue
+
+            derived[percent_key] = count_value / registered * 100.0
+
+        return derived
+
+    def _overlay_section(self, metric_key):
+        lowered = metric_key.lower()
+        if 'crime' in lowered:
+            return 'CRIME'
+        if 'voter' in lowered or lowered.startswith('percent_'):
+            return 'CIVICS'
+        return 'PROJECT DATA'
+
     def apply_overlays(self):
         if not self.overlays:
             return
@@ -354,8 +426,19 @@ def apply_overlays(self):
                 continue
 
             for dp in matches:
-                for metric_key, metric_value in metrics.items():
-                    section = 'CRIME' if 'crime' in metric_key.lower() else 'PROJECT DATA'
+                effective_metrics = dict(metrics)
+                effective_metrics.update(
+                    self._derive_crime_rate_metrics(
+                        effective_metrics,
+                        dp.rc.get('population', 0),
+                    )
+                )
+                effective_metrics.update(
+                    self._derive_voter_share_metrics(effective_metrics)
+                )
+
+                for metric_key, metric_value in effective_metrics.items():
+                    section = self._overlay_section(metric_key)
                     self._add_overlay_metric(dp, section, metric_key, metric_value)
 
     def dbapi_qm_substr(self, columns_len):
diff --git a/scripts/fetch_overlays.py b/scripts/fetch_overlays.py
@@ -0,0 +1,198 @@
+#!/usr/bin/env python3
+"""Fetch and normalize optional overlay files for geocompare.
+
+Writes canonical overlay CSVs under:
+  <out-dir>/overlays/{crime_data.csv,voter_data.csv}
+"""
+
+from __future__ import annotations
+
+import argparse
+import csv
+import json
+import sys
+import urllib.request
+from pathlib import Path
+from typing import Dict, Iterable, List, Optional
+
+CANONICAL_FILES = {
+    "crime": "crime_data.csv",
+    "voter": "voter_data.csv",
+}
+
+
+def _read_text_from_source(source: str) -> str:
+    if source.startswith("http://") or source.startswith("https://"):
+        with urllib.request.urlopen(source) as response:  # nosec - user-provided source
+            return response.read().decode("utf-8")
+    return Path(source).read_text(encoding="utf-8")
+
+
+def _normalize_key(value: str) -> str:
+    return value.strip().lower().replace(" ", "_")
+
+
+def _parse_records(source: str) -> List[Dict[str, str]]:
+    text = _read_text_from_source(source)
+    stripped = text.lstrip()
+    if stripped.startswith("[") or stripped.startswith("{"):
+        payload = json.loads(text)
+        if isinstance(payload, dict):
+            payload = payload.get("rows", [])
+        if not isinstance(payload, list):
+            raise ValueError("JSON payload must be a list or object with 'rows'.")
+        out = []
+        for row in payload:
+            if isinstance(row, dict):
+                out.append({str(k): str(v) for k, v in row.items() if v is not None})
+        return out
+
+    reader = csv.DictReader(text.splitlines())
+    rows = []
+    for row in reader:
+        rows.append({str(k): ("" if v is None else str(v)) for k, v in row.items() if k})
+    return rows
+
+
+def _find_col(record: Dict[str, str], aliases: Iterable[str]) -> Optional[str]:
+    key_map = {_normalize_key(k): k for k in record.keys()}
+    for alias in aliases:
+        if alias in key_map:
+            return key_map[alias]
+    return None
+
+
+def _as_float(value: str) -> Optional[float]:
+    text = value.strip()
+    if not text:
+        return None
+    text = text.replace(",", "")
+    if text.endswith("%"):
+        text = text[:-1]
+    try:
+        return float(text)
+    except ValueError:
+        return None
+
+
+def _canonicalize_crime(rows: List[Dict[str, str]]) -> List[Dict[str, object]]:
+    out = []
+    for row in rows:
+        geoid_col = _find_col(row, ("geoid", "geoid20", "geoid10"))
+        if not geoid_col:
+            continue
+        geoid = row.get(geoid_col, "").strip()
+        if not geoid:
+            continue
+        item: Dict[str, object] = {"GEOID": geoid}
+        mappings = {
+            "violent_crime_count": ("violent_crime_count", "violent_crime", "violent"),
+            "property_crime_count": ("property_crime_count", "property_crime", "property"),
+            "total_crime_count": ("total_crime_count", "total_crime", "crime_total"),
+        }
+        has_metric = False
+        for canonical, aliases in mappings.items():
+            col = _find_col(row, aliases)
+            if not col:
+                continue
+            value = _as_float(row.get(col, ""))
+            if value is None:
+                continue
+            item[canonical] = value
+            has_metric = True
+        if has_metric:
+            out.append(item)
+    return out
+
+
+def _canonicalize_voter(rows: List[Dict[str, str]]) -> List[Dict[str, object]]:
+    out = []
+    for row in rows:
+        geoid_col = _find_col(row, ("geoid", "geoid20", "geoid10"))
+        if not geoid_col:
+            continue
+        geoid = row.get(geoid_col, "").strip()
+        if not geoid:
+            continue
+        item: Dict[str, object] = {"GEOID": geoid}
+        mappings = {
+            "registered_voters": ("registered_voters", "total_registered", "registered"),
+            "democratic_voters": ("democratic_voters", "dem_voters", "democratic"),
+            "republican_voters": ("republican_voters", "rep_voters", "republican"),
+            "other_voters": ("other_voters", "oth_voters", "other"),
+        }
+        has_metric = False
+        for canonical, aliases in mappings.items():
+            col = _find_col(row, aliases)
+            if not col:
+                continue
+            value = _as_float(row.get(col, ""))
+            if value is None:
+                continue
+            item[canonical] = value
+            has_metric = True
+        if has_metric:
+            out.append(item)
+    return out
+
+
+def _write_csv(path: Path, rows: List[Dict[str, object]], fieldnames: List[str]) -> None:
+    path.parent.mkdir(parents=True, exist_ok=True)
+    with path.open("w", newline="", encoding="utf-8") as f:
+        writer = csv.DictWriter(f, fieldnames=fieldnames)
+        writer.writeheader()
+        for row in rows:
+            writer.writerow(row)
+
+
+def _run_one(kind: str, source: str, out_dir: Path) -> None:
+    rows = _parse_records(source)
+    if kind == "crime":
+        normalized = _canonicalize_crime(rows)
+        fieldnames = ["GEOID", "violent_crime_count", "property_crime_count", "total_crime_count"]
+    elif kind == "voter":
+        normalized = _canonicalize_voter(rows)
+        fieldnames = [
+            "GEOID",
+            "registered_voters",
+            "democratic_voters",
+            "republican_voters",
+            "other_voters",
+        ]
+    else:
+        raise ValueError(f"unsupported overlay kind: {kind}")
+    destination = out_dir / "overlays" / CANONICAL_FILES[kind]
+    _write_csv(destination, normalized, fieldnames)
+    print(f"{kind}: wrote {len(normalized)} rows -> {destination}")
+
+
+def main() -> int:
+    parser = argparse.ArgumentParser(
+        description="Fetch and normalize private overlay datasets for geocompare.",
+    )
+    parser.add_argument(
+        "--out-dir",
+        default="../000-data",
+        help="data root where overlays/ will be written (default: ../000-data)",
+    )
+    parser.add_argument("--crime-source", help="crime source CSV/JSON path or URL")
+    parser.add_argument("--voter-source", help="voter source CSV/JSON path or URL")
+    args = parser.parse_args()
+
+    if not any([args.crime_source, args.voter_source]):
+        parser.error("Provide at least one source: --crime-source / --voter-source")
+
+    out_dir = Path(args.out_dir).resolve()
+    try:
+        if args.crime_source:
+            _run_one("crime", args.crime_source, out_dir)
+        if args.voter_source:
+            _run_one("voter", args.voter_source, out_dir)
+    except Exception as exc:  # noqa: BLE001
+        print(f"error: {exc}", file=sys.stderr)
+        return 1
+    return 0
+
+
+if __name__ == "__main__":
+    raise SystemExit(main())
diff --git a/tests/test_database_overlays.py b/tests/test_database_overlays.py