Phase 2

antonrasmussen · antonrasmussen · commit 6618a4986940 · 2026-02-26T00:19:06.000-05:00
diff --git a/alert_historian/.env.example b/alert_historian/.env.example
@@ -20,3 +20,10 @@ ALERT_HISTORIAN_FINDFIRST_USERNAME=jsmith
 ALERT_HISTORIAN_FINDFIRST_PASSWORD=test
 ALERT_HISTORIAN_SYNC_BATCH_SIZE=100
 ALERT_HISTORIAN_USE_DOMAIN_TAGS=true
+
+# Narrative engine (Phase 2). If ALERT_HISTORIAN_OPENAI_API_KEY is unset, narrative is skipped.
+ALERT_HISTORIAN_CHROMA_PATH=./artifacts/chroma
+ALERT_HISTORIAN_EMBEDDING_MODEL=text-embedding-3-small
+ALERT_HISTORIAN_OPENAI_API_KEY=
+ALERT_HISTORIAN_LLM_MODEL=gpt-4o-mini
+ALERT_HISTORIAN_CHRONICLE_PATH=./artifacts/chronicle.md
diff --git a/alert_historian/README.md b/alert_historian/README.md
@@ -10,6 +10,13 @@
 - Retry and classification policy for transient/permanent failures
 - Daily markdown report output
 
+## Phase 2: Narrative Engine
+
+- ChromaDB vector store for semantic retrieval of alert items
+- Evolving Chronicle (markdown timeline) maintained by LLM
+- Narrative Delta: links today's alerts to historical context in daily reports
+- Use `ALERT_HISTORIAN_OPENAI_API_KEY` to enable; `--no-narrative` to skip
+
 ## Quick start
 
 ```bash
@@ -28,6 +35,7 @@ python -m alert_historian ingest
 python -m alert_historian sync
 python -m alert_historian report
 python -m alert_historian run-once
+python -m alert_historian run-once --no-narrative   # skip narrative engine
 ```
 
 ## SonarQube local prep
@@ -47,12 +55,15 @@ Copy `.env.example` to `.env` and set:
 - `ALERT_HISTORIAN_FINDFIRST_BASE_URL`
 - `ALERT_HISTORIAN_FINDFIRST_USERNAME`
 - `ALERT_HISTORIAN_FINDFIRST_PASSWORD`
+- `ALERT_HISTORIAN_OPENAI_API_KEY` (optional) for narrative engine; when set, run-once produces enriched reports with Narrative Delta
 
 ## Output locations
 
 - Canonical artifacts: `./artifacts/canonical-<run_id>.json`
 - State DB: `./state/alert_historian.db`
 - Daily reports: `./reports/daily/YYYY-MM-DD.md`
+- Chronicle: `./artifacts/chronicle.md` (when narrative enabled)
+- ChromaDB: `./artifacts/chroma/` (when narrative enabled)
 
 ## Smoke test against local FindFirst
 
diff --git a/alert_historian/pyproject.toml b/alert_historian/pyproject.toml
@@ -9,9 +9,12 @@ description = "Google Alerts narrative and FindFirst sync engine"
 readme = "README.md"
 requires-python = ">=3.11"
 dependencies = [
+  "chromadb>=0.4.0",
+  "openai>=1.0.0",
   "pydantic>=2.7.0",
   "pydantic-settings>=2.2.1",
   "requests>=2.32.0",
+  "tiktoken>=0.5.0",
 ]
 
 [project.optional-dependencies]
diff --git a/alert_historian/src/alert_historian.egg-info/PKG-INFO b/alert_historian/src/alert_historian.egg-info/PKG-INFO
@@ -0,0 +1,83 @@
+Metadata-Version: 2.4
+Name: alert-historian
+Version: 0.1.0
+Summary: Google Alerts narrative and FindFirst sync engine
+Requires-Python: >=3.11
+Description-Content-Type: text/markdown
+Requires-Dist: chromadb>=0.4.0
+Requires-Dist: openai>=1.0.0
+Requires-Dist: pydantic>=2.7.0
+Requires-Dist: pydantic-settings>=2.2.1
+Requires-Dist: requests>=2.32.0
+Requires-Dist: tiktoken>=0.5.0
+Provides-Extra: dev
+Requires-Dist: pytest>=8.2.0; extra == "dev"
+Requires-Dist: pytest-cov>=5.0.0; extra == "dev"
+
+# alert_historian
+
+`alert_historian` ingests Google Alerts, normalizes and deduplicates events, syncs links into FindFirst as bookmarks, and produces daily narrative reports.
+
+## MVP v0.1
+
+- Canonical payload schema for IMAP or JSON export ingestion
+- SQLite-backed checkpoints and sync attempt tracking
+- FindFirst sync client using existing auth, tag, and bookmark APIs
+- Retry and classification policy for transient/permanent failures
+- Daily markdown report output
+
+## Quick start
+
+```bash
+cd alert_historian
+python -m venv .venv
+source .venv/bin/activate
+pip install -e ".[dev]"
+cp .env.example .env
+python -m alert_historian run-once
+```
+
+## Commands
+
+```bash
+python -m alert_historian ingest
+python -m alert_historian sync
+python -m alert_historian report
+python -m alert_historian run-once
+```
+
+## SonarQube local prep
+
+Generate the coverage report used by SonarQube:
+
+```bash
+pytest --cov=src/alert_historian --cov-report=xml:coverage.xml
+```
+
+## Configuration
+
+Copy `.env.example` to `.env` and set:
+
+- `ALERT_HISTORIAN_INPUT_MODE=json|imap`
+- `ALERT_HISTORIAN_JSON_INPUT` when using JSON mode
+- `ALERT_HISTORIAN_FINDFIRST_BASE_URL`
+- `ALERT_HISTORIAN_FINDFIRST_USERNAME`
+- `ALERT_HISTORIAN_FINDFIRST_PASSWORD`
+
+## Output locations
+
+- Canonical artifacts: `./artifacts/canonical-<run_id>.json`
+- State DB: `./state/alert_historian.db`
+- Daily reports: `./reports/daily/YYYY-MM-DD.md`
+
+## Smoke test against local FindFirst
+
+1. Start FindFirst stack and ensure server is reachable.
+2. Set `.env` credentials to the local test user.
+3. Run:
+
+```bash
+python -m alert_historian run-once
+```
+
+If sync succeeds, bookmarks and tags appear in FindFirst, and report output is written to `reports/daily`.
diff --git a/alert_historian/src/alert_historian.egg-info/SOURCES.txt b/alert_historian/src/alert_historian.egg-info/SOURCES.txt
@@ -0,0 +1,32 @@
+README.md
+pyproject.toml
+src/alert_historian/__init__.py
+src/alert_historian/__main__.py
+src/alert_historian.egg-info/PKG-INFO
+src/alert_historian.egg-info/SOURCES.txt
+src/alert_historian.egg-info/dependency_links.txt
+src/alert_historian.egg-info/requires.txt
+src/alert_historian.egg-info/top_level.txt
+src/alert_historian/cli/__init__.py
+src/alert_historian/cli/main.py
+src/alert_historian/config/__init__.py
+src/alert_historian/config/settings.py
+src/alert_historian/ingestion/__init__.py
+src/alert_historian/ingestion/imap_adapter.py
+src/alert_historian/ingestion/json_export_adapter.py
+src/alert_historian/ingestion/normalize.py
+src/alert_historian/ingestion/pipeline.py
+src/alert_historian/ingestion/schema.py
+src/alert_historian/narrative/__init__.py
+src/alert_historian/narrative/chronicle.py
+src/alert_historian/narrative/delta.py
+src/alert_historian/narrative/vector_store.py
+src/alert_historian/reporting/__init__.py
+src/alert_historian/reporting/daily_report.py
+src/alert_historian/state/__init__.py
+src/alert_historian/state/store.py
+src/alert_historian/sync/__init__.py
+src/alert_historian/sync/engine.py
+src/alert_historian/sync/findfirst_client.py
+src/alert_historian/sync/mappers.py
+src/alert_historian/sync/retry.py
diff --git a/alert_historian/src/alert_historian.egg-info/dependency_links.txt b/alert_historian/src/alert_historian.egg-info/dependency_links.txt
@@ -0,0 +1 @@
+
diff --git a/alert_historian/src/alert_historian.egg-info/requires.txt b/alert_historian/src/alert_historian.egg-info/requires.txt
@@ -0,0 +1,10 @@
+chromadb>=0.4.0
+openai>=1.0.0
+pydantic>=2.7.0
+pydantic-settings>=2.2.1
+requests>=2.32.0
+tiktoken>=0.5.0
+
+[dev]
+pytest>=8.2.0
+pytest-cov>=5.0.0
diff --git a/alert_historian/src/alert_historian.egg-info/top_level.txt b/alert_historian/src/alert_historian.egg-info/top_level.txt
@@ -0,0 +1 @@
+alert_historian
diff --git a/alert_historian/src/alert_historian/cli/main.py b/alert_historian/src/alert_historian/cli/main.py
@@ -2,7 +2,18 @@
 from datetime import datetime
 
 from alert_historian.config.settings import get_settings
+from alert_historian.ingestion.pipeline import (
+    load_canonical_from_artifact,
+    payloads_to_pending_items,
+)
 from alert_historian.ingestion.pipeline import ingest
+from alert_historian.narrative.chronicle import (
+    create_openai_llm_client,
+    load_chronicle,
+    update_chronicle,
+)
+from alert_historian.narrative.delta import generate_delta
+from alert_historian.narrative.vector_store import AlertVectorStore
 from alert_historian.reporting.daily_report import build_daily_report
 from alert_historian.state.store import StateStore
 from alert_historian.sync.engine import sync_pending_items
@@ -31,21 +42,91 @@ def run_sync(run_id: str | None = None) -> dict[str, int]:
     store.close()
 
 
-def run_report(run_id: str, inserted_count: int, sync_stats: dict[str, int]) -> str:
+def run_report(
+    run_id: str,
+    inserted_count: int,
+    sync_stats: dict[str, int],
+    narrative_delta: str | None = None,
+) -> str:
   settings = get_settings()
   store = StateStore(settings.state_db)
   try:
-    path = build_daily_report(store, settings.reports_dir, run_id, inserted_count, sync_stats)
+    path = build_daily_report(
+        store,
+        settings.reports_dir,
+        run_id,
+        inserted_count,
+        sync_stats,
+        narrative_delta=narrative_delta,
+    )
     print(f"[report] path={path}")
     return str(path)
   finally:
     store.close()
 
 
-def run_once() -> int:
+def _run_narrative_pipeline(
+    settings,
+    run_id: str,
+    today_items: list,
+) -> str:
+  """Run Chronicle update and Narrative Delta generation. Returns delta markdown."""
+  artifact_path = settings.artifacts_dir / f"canonical-{run_id}.json"
+  if not artifact_path.exists():
+    return ""
+
+  vector_store = AlertVectorStore(
+      persist_path=settings.chroma_path,
+      api_key=settings.openai_api_key,
+      embedding_model=settings.embedding_model,
+  )
+  vector_store.upsert_items(today_items)
+
+  query_text = " ".join(
+      f"{item.title} {item.snippet}" for item in today_items[:10]
+  ).strip() or "recent alerts"
+  past_context = vector_store.query(query_text, n_results=10)
+
+  chronicle_path = settings.chronicle_path
+  llm_client = create_openai_llm_client(
+      api_key=settings.openai_api_key,
+      model=settings.llm_model,
+  )
+
+  new_context = "\n\n".join(
+      f"[{item.day}] {item.topic}: {item.title}\n{item.snippet[:200]}"
+      for item in today_items[:15]
+  )
+  update_chronicle(chronicle_path, new_context, llm_client)
+  chronicle_content = load_chronicle(chronicle_path)
+
+  return generate_delta(
+      today_items,
+      past_context,
+      chronicle_content,
+      llm_client,
+  )
+
+
+def run_once(no_narrative: bool = False) -> int:
   run_id, inserted = run_ingest()
   stats = run_sync(run_id)
-  run_report(run_id, inserted, stats)
+
+  narrative_delta: str | None = None
+  if not no_narrative:
+    settings = get_settings()
+    if settings.openai_api_key:
+      artifact_path = settings.artifacts_dir / f"canonical-{run_id}.json"
+      if artifact_path.exists():
+        payloads = load_canonical_from_artifact(artifact_path)
+        today_items = payloads_to_pending_items(payloads)
+        if today_items:
+          try:
+            narrative_delta = _run_narrative_pipeline(settings, run_id, today_items)
+          except Exception as e:
+            print(f"[narrative] skipped: {e}")
+
+  run_report(run_id, inserted, stats, narrative_delta=narrative_delta)
   return 0
 
 
@@ -55,7 +136,12 @@ def main() -> int:
   sub.add_parser("ingest")
   sub.add_parser("sync")
   sub.add_parser("report")
-  sub.add_parser("run-once")
+  run_once_parser = sub.add_parser("run-once")
+  run_once_parser.add_argument(
+      "--no-narrative",
+      action="store_true",
+      help="Skip narrative engine (Chronicle, Delta) even when API key is set",
+  )
   args = parser.parse_args()
 
   if args.command == "ingest":
@@ -69,5 +155,6 @@ def main() -> int:
     run_report(run_id, inserted_count=0, sync_stats={})
     return 0
   if args.command in ("run-once", None):
-    return run_once()
+    no_narrative = getattr(args, "no_narrative", False)
+    return run_once(no_narrative=no_narrative)
   return 0
diff --git a/alert_historian/src/alert_historian/config/settings.py b/alert_historian/src/alert_historian/config/settings.py
@@ -36,6 +36,12 @@ class Settings(BaseSettings):
   sync_batch_size: int = Field(default=100, alias="ALERT_HISTORIAN_SYNC_BATCH_SIZE")
   use_domain_tags: bool = Field(default=True, alias="ALERT_HISTORIAN_USE_DOMAIN_TAGS")
 
+  chroma_path: Path = Field(default=Path("./artifacts/chroma"), alias="ALERT_HISTORIAN_CHROMA_PATH")
+  embedding_model: str = Field(default="text-embedding-3-small", alias="ALERT_HISTORIAN_EMBEDDING_MODEL")
+  openai_api_key: str = Field(default="", alias="ALERT_HISTORIAN_OPENAI_API_KEY")
+  llm_model: str = Field(default="gpt-4o-mini", alias="ALERT_HISTORIAN_LLM_MODEL")
+  chronicle_path: Path = Field(default=Path("./artifacts/chronicle.md"), alias="ALERT_HISTORIAN_CHRONICLE_PATH")
+
 
 @lru_cache
 def get_settings() -> Settings:
diff --git a/alert_historian/src/alert_historian/ingestion/pipeline.py b/alert_historian/src/alert_historian/ingestion/pipeline.py
@@ -6,7 +6,7 @@
 from alert_historian.ingestion.imap_adapter import fetch_from_imap
 from alert_historian.ingestion.json_export_adapter import load_json_export
 from alert_historian.ingestion.schema import CanonicalAlertPayload
-from alert_historian.state.store import StateStore
+from alert_historian.state.store import PendingSyncItem, StateStore, make_item_key, make_message_key
 
 
 def _artifact_path(root: Path, run_id: str) -> Path:
@@ -32,3 +32,26 @@ def ingest(settings: Settings, store: StateStore, run_id: str | None = None) ->
 def load_canonical_from_artifact(path: Path) -> list[CanonicalAlertPayload]:
   data = json.loads(path.read_text(encoding="utf-8"))
   return [CanonicalAlertPayload.model_validate(item) for item in data]
+
+
+def payloads_to_pending_items(payloads: list[CanonicalAlertPayload]) -> list[PendingSyncItem]:
+  """Convert canonical payloads to PendingSyncItems for vector store upsert."""
+  items: list[PendingSyncItem] = []
+  for p in payloads:
+    msg_key = make_message_key(p.source_account, p.source_message_id)
+    day = p.received_at.date().isoformat()
+    for it in p.items:
+      item_key = make_item_key(it.url_normalized, p.alert_topic)
+      items.append(PendingSyncItem(
+          item_key=item_key,
+          message_key=msg_key,
+          topic=p.alert_topic,
+          day=day,
+          url=it.url,
+          url_normalized=it.url_normalized,
+          title=it.title,
+          snippet=it.snippet,
+          source_domain=it.source_domain,
+          source_message_id=p.source_message_id,
+      ))
+  return items
diff --git a/alert_historian/src/alert_historian/narrative/__init__.py b/alert_historian/src/alert_historian/narrative/__init__.py
@@ -1 +1,17 @@
-"""Narrative package for future timeline intelligence."""
+"""Narrative package for timeline intelligence: vector store, Chronicle, and Narrative Delta."""
+
+from alert_historian.narrative.chronicle import (
+  create_openai_llm_client,
+  load_chronicle,
+  update_chronicle,
+)
+from alert_historian.narrative.delta import generate_delta
+from alert_historian.narrative.vector_store import AlertVectorStore
+
+__all__ = [
+  "AlertVectorStore",
+  "create_openai_llm_client",
+  "generate_delta",
+  "load_chronicle",
+  "update_chronicle",
+]
diff --git a/alert_historian/src/alert_historian/narrative/chronicle.py b/alert_historian/src/alert_historian/narrative/chronicle.py
diff --git a/alert_historian/src/alert_historian/narrative/delta.py b/alert_historian/src/alert_historian/narrative/delta.py
diff --git a/alert_historian/src/alert_historian/narrative/vector_store.py b/alert_historian/src/alert_historian/narrative/vector_store.py
diff --git a/alert_historian/src/alert_historian/reporting/daily_report.py b/alert_historian/src/alert_historian/reporting/daily_report.py
diff --git a/alert_historian/tests/integration/test_narrative_pipeline.py b/alert_historian/tests/integration/test_narrative_pipeline.py
diff --git a/alert_historian/tests/unit/test_narrative.py b/alert_historian/tests/unit/test_narrative.py