fix: shared model server + tier switch bug fixes by buildingjoshbetter · Pull Request #343 · buildingjoshbetter/TrueMemory

buildingjoshbetter · 2026-05-16T21:17:28Z

Summary

Shared model server (model_server.py + model_client.py): Loads embedding model and reranker ONCE, serves all processes over Unix domain socket. Reduces memory from ~10GB (5 processes × 2GB each) to ~2.5GB (1 server + 5 lightweight clients). Auto-starts on MCP server launch, auto-stops after idle timeout (300s). Falls back to local loading if server unavailable.
Fix _finalize_rebuild resetting last_embedded_id (basepro last_embedded_id=0 after rebuild: _finalize_rebuild overwrites progress #332): Was zeroing out progress after every successful rebuild, breaking delta rebuilds. Now queries the actual vec table for correct values.
Fix legacy migration registering wrong tier group (Cache registry bug: edge vectors never registered, switch-back always full rebuild #331): Was using currently-active tier regardless of what model created the vectors. Now detects from metadata, defaults to edge for pre-tier-switch DBs.
Simplify throttler (Throttler overhead: 30+ minutes of pure sampling/sleep per tier switch #330, Replace DynamicThrottler with fixed batch + OOM retry (100x faster tier switch) #334): Removed triple-sampling (7s overhead per batch for 1s of work). Now: single RAM check, 0.2s inter-batch pause, 5s pause only if RAM < 2GB. Reduces rebuild time from 65 min to ~10 min.
Fix preload/idle race (Preload vs idle timer race condition — preloaded models wasted then reloaded #341): Models preloaded eagerly, then unloaded by idle timer 5 min later. Now defaults to lazy loading (TRUEMEMORY_PRELOAD_MODELS=1 to opt-in).

Test plan

All 600 tests pass (11 deselected are pre-existing failures on main in stop_hook_safety + spawn_gate)
Zero ruff lint errors
Each change reviewed by 3-model adversarial panel (Gemini 2.5 Pro, Grok 4.1, Qwen3 235B)
Manual test: start MCP server, verify model_server.pid appears, run search, verify single model process
Manual test: kill model server, verify next search falls back to local loading
Manual test: tier switch with delta rebuild after fix (verify last_embedded_id preserved)

VectorCacheRegistry.set() was called without last_embedded_id, resetting it to 0 after every rebuild. This broke delta rebuilds since the system would think no messages had been embedded. Now queries the vec table for the actual MAX(rowid) and COUNT(*) before finalizing.

migrate_legacy_vec_tables() was using the currently-active tier group, which could put edge-model vectors into basepro tables. Now detects the actual model from metadata (defaulting to edge for pre-tier-switch DBs) and uses VectorCacheRegistry.set() for proper registration.

Replace triple-sampling + adaptive sleeping with a single RAM check per batch. Old behavior: 7s overhead per batch (5s triple-sample + 2s adaptive sleep) for 1s of work. New: 0.2s pause + 5s only if RAM < 2GB. Batch sizes fixed at init based on total RAM and device type. OOM recovery still handled by the worker (halve and retry).

Models were preloaded eagerly on startup, then the idle timer would unload them 5 minutes later if no search happened, wasting the initial load. Now lazy-loads by default (models load on first search). Users who want eager preloading can set TRUEMEMORY_PRELOAD_MODELS=1.

#335) Add a standalone model server process that loads the embedding model and reranker ONCE, serving all TrueMemory processes (MCP server, ingest hooks, CLI) over a Unix domain socket. Reduces memory from ~10GB (5 processes x 2GB each) to ~2.5GB (1 server + 5 lightweight clients). - truememory/model_server.py: UDS listener, lazy model loading, idle timeout auto-shutdown, PID lifecycle management - truememory/model_client.py: EmbeddingProxy/RerankerProxy drop-in replacements, auto-start logic, transparent fallback to local loading - Integration: get_model() and get_reranker() use server when available, fall back to local loading when server isn't running (e.g., in tests) - MCP server startup calls ensure_server_running() to launch the server - Set TRUEMEMORY_NO_MODEL_SERVER=1 to force local loading

buildingjoshbetter added 5 commits May 16, 2026 15:25

buildingjoshbetter merged commit 6ec0be5 into main May 16, 2026
14 checks passed

Huntehhh mentioned this pull request May 17, 2026

fix(mcp): cold-start resilience — async handlers, reranker timeout, Windows portability #344

Open

7 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: shared model server + tier switch bug fixes#343

fix: shared model server + tier switch bug fixes#343
buildingjoshbetter merged 5 commits into
mainfrom
fix/resource-efficiency-v1

buildingjoshbetter commented May 16, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

buildingjoshbetter commented May 16, 2026

Summary

Test plan

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant