redis · tylerhutcherson · Mar 27, 2026 · Mar 27, 2026 · Mar 27, 2026 · Copilot
diff --git a/agent_memory_server/extraction.py b/agent_memory_server/extraction.py
@@ -15,6 +15,7 @@
 from agent_memory_server.logging import get_logger
 from agent_memory_server.models import MemoryRecord
 from agent_memory_server.utils.datetime import parse_iso8601_datetime
+from agent_memory_server.utils.llm_json import parse_llm_json
 from agent_memory_server.utils.tag_codec import sanitize_tag_values
 
 
@@ -152,7 +153,7 @@ async def extract_entities_llm(text: str) -> list[str]:
                 response_format={"type": "json_object"},
             )
             try:
-                entities = json.loads(response.content).get("entities", [])
+                entities = parse_llm_json(response.content).get("entities", [])
             except (json.JSONDecodeError, KeyError):
-            except (json.JSONDecodeError, KeyError):
+            except (json.JSONDecodeError, AttributeError, TypeError):
-            except (json.JSONDecodeError, KeyError):
+            except (json.JSONDecodeError, AttributeError, TypeError):
                 logger.error(f"Error decoding NER JSON: {response.content}")
                 entities = []
@@ -191,7 +192,7 @@ async def extract_topics_llm(
                 response_format={"type": "json_object"},
             )
             try:
-                topics = json.loads(response.content).get("topics", [])
+                topics = parse_llm_json(response.content).get("topics", [])
             except (json.JSONDecodeError, KeyError):
                 logger.error(f"Error decoding topics JSON: {response.content}")
                 topics = []

diff --git a/agent_memory_server/memory_strategies.py b/agent_memory_server/memory_strategies.py
@@ -16,6 +16,7 @@
     secure_format_prompt,
     validate_custom_prompt,
 )
+from agent_memory_server.utils.llm_json import parse_llm_json
 
 
 logger = get_logger(__name__)
@@ -175,7 +176,7 @@ async def extract_memories(
                     response_format={"type": "json_object"},
                 )
                 try:
-                    response_data = json.loads(response.content)
+                    response_data = parse_llm_json(response.content)
-                    response_data = parse_llm_json(response.content)
+                    response_data = parse_llm_json(response.content)
+                    if not isinstance(response_data, dict):
+                        logger.error(
+                            "Expected JSON object with 'memories' key, got %s: %r",
+                            type(response_data).__name__,
+                            response.content,
+                        )
+                        # Treat non-object top-level JSON as a decode/validation error
+                        raise json.JSONDecodeError(
+                            "Expected JSON object at top level",
+                            response.content,
+                            0,
+                        )
-                    response_data = parse_llm_json(response.content)
+                    response_data = parse_llm_json(response.content)
+                    if not isinstance(response_data, dict):
+                        logger.error(
+                            "Expected JSON object with 'memories' key, got %s: %r",
+                            type(response_data).__name__,
+                            response.content,
+                        )
+                        # Treat non-object top-level JSON as a decode/validation error
+                        raise json.JSONDecodeError(
+                            "Expected JSON object at top level",
+                            response.content,
+                            0,
+                        )
                     return response_data.get("memories", [])
                 except json.JSONDecodeError:
                     logger.error(f"Error decoding JSON: {response.content}")
@@ -267,7 +268,7 @@ async def extract_memories(
                     response_format={"type": "json_object"},
                 )
                 try:
-                    response_data = json.loads(response.content)
+                    response_data = parse_llm_json(response.content)
                     return response_data.get("memories", [])
                 except json.JSONDecodeError:
                     logger.error(f"Error decoding JSON: {response.content}")
@@ -360,7 +361,7 @@ async def extract_memories(
                     response_format={"type": "json_object"},
                 )
                 try:
-                    response_data = json.loads(response.content)
+                    response_data = parse_llm_json(response.content)
                     return response_data.get("memories", [])
                 except json.JSONDecodeError:
                     logger.error(f"Error decoding JSON: {response.content}")
@@ -444,7 +445,7 @@ async def extract_memories(
                     response_format={"type": "json_object"},
                 )
                 try:
-                    response_data = json.loads(response.content)
+                    response_data = parse_llm_json(response.content)
                     memories = response_data.get("memories", [])
 
                     # Filter and validate output memories for security

diff --git a/agent_memory_server/utils/llm_json.py b/agent_memory_server/utils/llm_json.py
@@ -0,0 +1,50 @@
+"""Helpers for parsing JSON-shaped LLM responses."""
+
+from __future__ import annotations
+
+import json
+import re
+from collections.abc import Iterator
+from typing import Any
+
+
+_CODE_FENCE_RE = re.compile(r"```(?:json)?\s*(.*?)\s*```", re.IGNORECASE | re.DOTALL)
+_JSON_START_RE = re.compile(r"[{\[]")
+
+
+def parse_llm_json(content: str) -> Any:
+    """Parse JSON from raw, fenced, or prose-wrapped LLM responses."""
+    normalized = content.strip()
+    decoder = json.JSONDecoder()
+
+    try:
+        return decoder.decode(normalized)
+    except json.JSONDecodeError as error:
+        original_error = error
+
+    for candidate in _iter_json_candidates(normalized):
+        try:
+            parsed, _ = decoder.raw_decode(candidate)
+            return parsed
+        except json.JSONDecodeError:
+            continue
+
+    raise original_error
+
+
+def _iter_json_candidates(content: str) -> Iterator[str]:
+    """Yield likely JSON payloads embedded within an LLM response."""
+    seen: set[str] = set()
+
+    for match in _CODE_FENCE_RE.finditer(content):
+        candidate = match.group(1).strip()
+        if candidate and candidate not in seen:
+            seen.add(candidate)
+            yield candidate
+
+    # Fall back to scanning for embedded JSON objects/arrays inside prose.
+    for match in _JSON_START_RE.finditer(content):
+        candidate = content[match.start() :].lstrip()
+        if candidate and candidate not in seen:
+            seen.add(candidate)
+            yield candidate
diff --git a/examples/agent_memory_server_interactive_guide.ipynb b/examples/agent_memory_server_interactive_guide.ipynb
@@ -602,6 +602,7 @@
     "        await asyncio.sleep(poll_interval)\n",
     "    return False\n",
     "\n",
+    "\n",
     "indexed = await wait_for_indexing(client, USER_ID, NAMESPACE)\n",
     "print(f\"Memories indexed: {indexed}\")\n",
     "\n",
@@ -622,10 +623,9 @@
     "        \"limit\": 5,\n",
     "        # distance_threshold: Lower = stricter when set. If omitted, the server\n",
     "        # uses no distance filter (distance_threshold=None) for broader KNN recall.\n",
-    "        \"user_id\": {\"eq\": USER_ID}  # Only search Nitin's memories\n",
-    "    }\n",
-    ")\n",
-    "\n"
+    "        \"user_id\": {\"eq\": USER_ID},  # Only search Nitin's memories\n",
+    "    },\n",
+    ")"
    ]
   },
   {
@@ -877,10 +877,26 @@
    ],
    "source": [
     "messages = [\n",
-    "    MemoryMessage(role=\"user\", content=\"I'm planning a trip to Japan next month!\", created_at=datetime.now(UTC)),\n",
-    "    MemoryMessage(role=\"assistant\", content=\"Exciting! Based on your preferences, I know you enjoy hiking and vegetarian food. Japan has amazing options for both!\", created_at=datetime.now(UTC)),\n",
-    "    MemoryMessage(role=\"user\", content=\"Yes! I'd love to hike Mount Fuji and find good vegetarian ramen.\", created_at=datetime.now(UTC)),\n",
-    "    MemoryMessage(role=\"assistant\", content=\"Perfect! I'll remember your interest in Mount Fuji. For vegetarian ramen, Kyoto has excellent options.\", created_at=datetime.now(UTC))\n",
+    "    MemoryMessage(\n",
+    "        role=\"user\",\n",
+    "        content=\"I'm planning a trip to Japan next month!\",\n",
+    "        created_at=datetime.now(UTC),\n",
+    "    ),\n",
+    "    MemoryMessage(\n",
+    "        role=\"assistant\",\n",
+    "        content=\"Exciting! Based on your preferences, I know you enjoy hiking and vegetarian food. Japan has amazing options for both!\",\n",
+    "        created_at=datetime.now(UTC),\n",
+    "    ),\n",
+    "    MemoryMessage(\n",
+    "        role=\"user\",\n",
+    "        content=\"Yes! I'd love to hike Mount Fuji and find good vegetarian ramen.\",\n",
+    "        created_at=datetime.now(UTC),\n",
+    "    ),\n",
+    "    MemoryMessage(\n",
+    "        role=\"assistant\",\n",
+    "        content=\"Perfect! I'll remember your interest in Mount Fuji. For vegetarian ramen, Kyoto has excellent options.\",\n",
+    "        created_at=datetime.now(UTC),\n",
+    "    ),\n",
     "]\n",
     "\n",
     "updated_memory = WorkingMemory(\n",
@@ -1527,10 +1543,26 @@
    "source": [
     "# Step 2: Just store the conversation - extraction happens automatically!\n",
     "conversation = [\n",
-    "    MemoryMessage(role=\"user\", content=\"I'm Nitin. I'm planning a hiking trip to Japan and need vegetarian food options.\", created_at=datetime.now(UTC)),\n",
-    "    MemoryMessage(role=\"assistant\", content=\"Great choice! Japan has amazing hiking trails and excellent vegetarian cuisine.\", created_at=datetime.now(UTC)),\n",
-    "    MemoryMessage(role=\"user\", content=\"I prefer nice hotels with good amenities, not too fancy but comfortable. All depends on the budget.\", created_at=datetime.now(UTC)),\n",
-    "    MemoryMessage(role=\"assistant\", content=\"Noted! I'll remember your preference for comfortable mid-tier accommodations.\", created_at=datetime.now(UTC))\n",
+    "    MemoryMessage(\n",
+    "        role=\"user\",\n",
+    "        content=\"I'm Nitin. I'm planning a hiking trip to Japan and need vegetarian food options.\",\n",
+    "        created_at=datetime.now(UTC),\n",
+    "    ),\n",
+    "    MemoryMessage(\n",
+    "        role=\"assistant\",\n",
+    "        content=\"Great choice! Japan has amazing hiking trails and excellent vegetarian cuisine.\",\n",
+    "        created_at=datetime.now(UTC),\n",
+    "    ),\n",
+    "    MemoryMessage(\n",
+    "        role=\"user\",\n",
+    "        content=\"I prefer nice hotels with good amenities, not too fancy but comfortable. All depends on the budget.\",\n",
+    "        created_at=datetime.now(UTC),\n",
+    "    ),\n",
+    "    MemoryMessage(\n",
+    "        role=\"assistant\",\n",
+    "        content=\"Noted! I'll remember your preference for comfortable mid-tier accommodations.\",\n",
+    "        created_at=datetime.now(UTC),\n",
+    "    ),\n",
     "]\n",
     "\n",
     "working_memory_update = WorkingMemory(\n",
@@ -2324,11 +2356,11 @@
     "    recency=RecencyConfig(\n",
     "        recency_boost=True,\n",
     "        semantic_weight=0.6,  # Lower semantic weight\n",
-    "        recency_weight=0.4,   # Higher recency weight\n",
+    "        recency_weight=0.4,  # Higher recency weight\n",
     "        half_life_last_access_days=3.0,  # Faster decay\n",
-    "        half_life_created_days=14.0\n",
+    "        half_life_created_days=14.0,\n",
     "    ),\n",
-    "    limit=5\n",
+    "    limit=5,\n",
     ")\n",
     "\n",
     "print(f\"Found {results_recency.total} memories with recency boost:\")\n",
@@ -2362,7 +2394,7 @@
     "    namespace={\"eq\": \"travel_agent\"},\n",
     "    user_id={\"eq\": \"nitin\"},\n",
     "    recency=RecencyConfig(recency_boost=False),  # Pure vector similarity\n",
-    "    limit=5\n",
+    "    limit=5,\n",
     ")\n",
     "\n",
     "print(f\"Pure semantic search found {results_pure_semantic.total} memories:\")\n",
@@ -2436,18 +2468,15 @@
     "    text=\"vacation\",\n",
     "    namespace={\"eq\": \"travel_agent\"},\n",
     "    search_mode=SearchModeEnum.SEMANTIC,  # or just \"semantic\"\n",
-    "    limit=3\n",
+    "    limit=3,\n",
     ")\n",
     "print(f\"SEMANTIC search for 'vacation' ({semantic_results.total} results):\")\n",
     "for mem in semantic_results.memories:\n",
     "    print(f\"  [{mem.score:.3f}] {mem.text[:60]}...\")\n",
     "\n",
     "# Keyword search - exact term matching\n",
     "keyword_results = await client.search_long_term_memory(\n",
-    "    text=\"vegetarian\",\n",
-    "    namespace={\"eq\": \"travel_agent\"},\n",
-    "    search_mode=\"keyword\",\n",
-    "    limit=3\n",
+    "    text=\"vegetarian\", namespace={\"eq\": \"travel_agent\"}, search_mode=\"keyword\", limit=3\n",
     ")\n",
     "print(f\"\\nKEYWORD search for 'vegetarian' ({keyword_results.total} results):\")\n",
     "for mem in keyword_results.memories:\n",
@@ -2459,9 +2488,11 @@
     "    namespace={\"eq\": \"travel_agent\"},\n",
     "    search_mode=\"hybrid\",\n",
     "    hybrid_alpha=0.7,  # 0.7 = 70% semantic, 30% keyword weight\n",
-    "    limit=3\n",
+    "    limit=3,\n",
+    ")\n",
+    "print(\n",
+    "    f\"\\nHYBRID search for 'vegetarian food options' ({hybrid_results.total} results):\"\n",
     ")\n",
-    "print(f\"\\nHYBRID search for 'vegetarian food options' ({hybrid_results.total} results):\")\n",
     "for mem in hybrid_results.memories:\n",
     "    print(f\"  [{mem.score:.3f}] {mem.text[:60]}...\")"
    ]

diff --git a/tests/test_issue_236.py b/tests/test_issue_236.py
@@ -0,0 +1,128 @@
+"""Regression tests for GitHub issue #236."""
+
+import json
+from unittest.mock import AsyncMock, Mock, patch
+
+import pytest
+
+from agent_memory_server.extraction import extract_entities_llm, extract_topics_llm
+from agent_memory_server.llm import ChatCompletionResponse
+from agent_memory_server.memory_strategies import (
+    CustomMemoryStrategy,
+    DiscreteMemoryStrategy,
+    SummaryMemoryStrategy,
+    UserPreferencesMemoryStrategy,
+)
+from agent_memory_server.utils.llm_json import parse_llm_json
+
+
+class TestIssue236LlmJsonParsing:
+    """Verify JSON parsing tolerates markdown fences and wrapper prose."""
+
+    @pytest.mark.parametrize(
+        ("content", "expected"),
+        [
+            (
+                '{"entities": ["Redis", "Snowflake"]}',
+                {"entities": ["Redis", "Snowflake"]},
+            ),
+            (
+                '```json\n{"entities": ["Redis", "Snowflake"]}\n```',
+                {"entities": ["Redis", "Snowflake"]},
+            ),
+            (
+                'Here are the extracted topics:\n```json\n{"topics": ["data engineering", "recommendation engines"]}\n```\nI found these topics in the text.',
+                {"topics": ["data engineering", "recommendation engines"]},
+            ),
+        ],
+    )
+    def test_parse_llm_json_handles_wrapped_content(self, content, expected):
+        """The helper should recover valid JSON from common LLM wrappers."""
+        assert parse_llm_json(content) == expected
+
+    def test_parse_llm_json_raises_for_invalid_content(self):
+        """Invalid non-JSON content should still fail fast."""
+        with pytest.raises(json.JSONDecodeError):
+            parse_llm_json("This response contains no JSON payload at all.")
+
+    @pytest.mark.asyncio
+    @patch("agent_memory_server.extraction.LLMClient.create_chat_completion")
+    async def test_extract_entities_llm_parses_fenced_json(self, mock_llm):
+        """Entity extraction should work when the model wraps JSON in fences."""
+        mock_llm.return_value = Mock(
+            content='```json\n{"entities": ["Redis", "Snowflake"]}\n```'
+        )
+
+        entities = await extract_entities_llm("Redis works with Snowflake.")
+
+        assert set(entities) == {"Redis", "Snowflake"}
+        mock_llm.assert_called_once()
+
+    @pytest.mark.asyncio
+    @patch("agent_memory_server.extraction.LLMClient.create_chat_completion")
+    async def test_extract_topics_llm_parses_prose_wrapped_json(self, mock_llm):
+        """Topic extraction should work when commentary surrounds the JSON."""
+        mock_llm.return_value = Mock(
+            content='Here are the extracted topics:\n```json\n{"topics": ["data engineering", "recommendation engines", "streaming"]}\n```\nI found these topics in the text.'
+        )
+
+        topics = await extract_topics_llm(
+            "Kafka pipelines support recommendations.", num_topics=2
+        )
+
+        assert topics == ["data engineering", "recommendation engines"]
+        mock_llm.assert_called_once()
+
+
+@pytest.mark.asyncio
+class TestIssue236MemoryStrategies:
+    """Verify memory extraction strategies accept wrapped JSON responses."""
+
+    @pytest.mark.parametrize(
+        ("strategy_builder", "response_content"),
+        [
+            (
+                lambda: DiscreteMemoryStrategy(),
+                '```json\n{"memories": [{"type": "semantic", "text": "User prefers Redis", "topics": ["preferences"], "entities": ["User", "Redis"], "event_date": null}]}\n```',
+            ),
+            (
+                lambda: SummaryMemoryStrategy(max_summary_length=100),
+                'Summary generated below.\n```json\n{"memories": [{"type": "semantic", "text": "User discussed Redis adoption", "topics": ["redis"], "entities": ["User", "Redis"]}]}\n```\nDone.',
+            ),
+            (
+                lambda: UserPreferencesMemoryStrategy(),
+                '```json\n{"memories": [{"type": "semantic", "text": "User prefers dark mode", "topics": ["preferences"], "entities": ["User"]}]}\n```',
+            ),
+            (
+                lambda: CustomMemoryStrategy(
+                    custom_prompt="Extract memories from: {message}"
+                ),
+                'Custom extraction result:\n```json\n{"memories": [{"type": "semantic", "text": "User prefers async updates", "topics": ["communication"], "entities": ["User"]}]}\n```',
+            ),
+        ],
+    )
+    async def test_strategies_parse_wrapped_json(
+        self, strategy_builder, response_content
+    ):
+        """All strategy variants should parse wrapped JSON without retry failure."""
+        strategy = strategy_builder()
+        response = ChatCompletionResponse(
+            content=response_content,
+            finish_reason="stop",
+            prompt_tokens=100,
+            completion_tokens=50,
+            total_tokens=150,
+            model="gpt-4o-mini",
+        )
+
+        with patch(
+            "agent_memory_server.memory_strategies.LLMClient.create_chat_completion",
+            new_callable=AsyncMock,
+            return_value=response,
+        ) as mock_create:
+            memories = await strategy.extract_memories("Store this memory.")
+
+        assert len(memories) == 1
+        assert memories[0]["type"] == "semantic"
+        assert memories[0]["text"].startswith("User")
+        mock_create.assert_called_once()