security(mcp): tool poisoning detection and per-tool trust metadata (#2459, #2420) by bug-ops · Pull Request #2472 · bug-ops/zeph

bug-ops · 2026-03-30T21:18:15Z

Summary

Implement multi-layered MCP client-side defenses against tool poisoning per arXiv:2603.22489 (research(security): MCP tool poisoning threat model — multi-layered client-side mitigations (arXiv:2603.22489) #2459)
Add per-tool capability/sensitivity metadata and data-flow policy enforcement per arXiv:2601.08012 (research(security): MCP tool trust/confidentiality metadata — capability labels + STPA-based data-flow policy (arXiv:2601.08012) #2420)
16 injection patterns with Unicode hardening (format-char stripping); sanitize_tools() returns SanitizeResult with injection count, flagged tools, and flagged pattern names
apply_injection_penalties(): trust score penalties capped at 3 per registration batch, auto-demotes server trust level (never promotes)
ToolSecurityMeta on McpTool: DataSensitivity (None/Low/Medium/High) + CapabilityClass set (FilesystemRead/Write, Network, Shell, DatabaseRead, MemoryWrite, ExternalApi)
infer_security_meta() keyword heuristic with explicit filesystem keywords only; defaults unknown tools to DataSensitivity::Low
Operator config override via mcp.servers[].tool_metadata TOML section
check_data_flow() blocks High-sensitivity tools on Untrusted/Sandboxed servers at registration time

Test plan

6833 tests pass (cargo nextest run --workspace --lib --bins)
cargo +nightly fmt --check clean
cargo clippy --workspace -- -D warnings clean
59 new tests: injection patterns (16 individual + multi-tool + unicode), apply_injection_penalties (8 direct: zero/1/cap-at-3/cap-at-10/no-store/demotion), infer_security_meta (all keyword categories + false-positive guards), check_data_flow (all DataSensitivity x McpTrustLevel combinations), SanitizeResult population

Closes #2459
Closes #2420

…ta (#2459, #2420) Implement multi-layered MCP client-side defenses against tool poisoning (arXiv:2603.22489) and per-tool capability/sensitivity metadata for data-flow policy enforcement (arXiv:2601.08012). - sanitize_tools() now returns SanitizeResult with injection_count, flagged_tools, and flagged_patterns (pattern name per matched field) - 16 injection patterns in INJECTION_PATTERNS (role override, jailbreak, delimiter escape, base64 payload, exfil via image/link, etc.) - Unicode hardening: strip Cf-category format chars before pattern scan - apply_injection_penalties(): applies trust score penalties (capped at MAX_INJECTION_PENALTIES_PER_REGISTRATION=3) and auto-demotes server trust level when recommended level is more restrictive; never promotes - ToolSecurityMeta on McpTool: DataSensitivity (None/Low/Medium/High) and CapabilityClass set (FilesystemRead/Write, Network, Shell, DatabaseRead, MemoryWrite, ExternalApi) - infer_security_meta(): keyword-based heuristic classifier; explicit filesystem keywords only, generic verbs excluded; defaults to Low - Operator config override via mcp.servers[].tool_metadata TOML section - check_data_flow(): blocks High-sensitivity tools on Untrusted/Sandboxed servers at registration time; Medium on Sandboxed emits warning - sanitize_string delegates to sanitize_string_tracked (DRY) Closes #2459, closes #2420

bug-ops enabled auto-merge (squash) March 30, 2026 21:18

github-actions bot added documentation Improvements or additions to documentation rust Rust code changes core zeph-core crate size/XL Extra large PR (500+ lines) labels Mar 30, 2026

bug-ops merged commit d196337 into main Mar 30, 2026
27 checks passed

bug-ops deleted the mcp-tool-poisoning-threat-mode branch March 30, 2026 21:25

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

security(mcp): tool poisoning detection and per-tool trust metadata (#2459, #2420)#2472

security(mcp): tool poisoning detection and per-tool trust metadata (#2459, #2420)#2472
bug-ops merged 1 commit intomainfrom
mcp-tool-poisoning-threat-mode

bug-ops commented Mar 30, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

bug-ops commented Mar 30, 2026

Summary

Test plan

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant