Retry for failed json loading (#364)

shahules786 · jjmachan · web-flow · commit b4554757054e · 2023-12-10T13:09:52.000+05:30
Co-authored-by: Jithin James &lt;jamesjithin97@gmail.com&gt;
diff --git a/src/ragas/metrics/_answer_correctness.py b/src/ragas/metrics/_answer_correctness.py
@@ -10,7 +10,7 @@
 
 from ragas.metrics._answer_similarity import AnswerSimilarity
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
-from ragas.utils import load_as_json
+from ragas.utils import json_loader
 
 if t.TYPE_CHECKING:
     from langchain.callbacks.base import Callbacks
@@ -118,7 +118,7 @@ def _score_batch(
 
         f1_score = []
         for prediction in outputs:
-            prediction = load_as_json(prediction[0].text)
+            prediction = json_loader.safe_load(prediction[0].text, self.llm)
             prediction = [
                 item.get(key_map[k], np.nan)
                 for item in prediction
diff --git a/src/ragas/metrics/_answer_relevance.py b/src/ragas/metrics/_answer_relevance.py
@@ -12,7 +12,7 @@
 from ragas.embeddings.base import embedding_factory
 from ragas.exceptions import OpenAIKeyNotFound
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
-from ragas.utils import load_as_json
+from ragas.utils import json_loader
 
 if t.TYPE_CHECKING:
     from langchain.callbacks.base import Callbacks
@@ -125,7 +125,10 @@ def _score_batch(
                 n=self.strictness,
                 callbacks=batch_group,
             )
-            results = [[load_as_json(i.text) for i in r] for r in results.generations]
+            results = [
+                [json_loader.safe_load(i.text, self.llm) for i in r]
+                for r in results.generations
+            ]
             scores = []
             for question, result in zip(questions, results):
                 gen_questions = [item.get("question", "") for item in result]
diff --git a/src/ragas/metrics/_context_precision.py b/src/ragas/metrics/_context_precision.py
@@ -9,7 +9,7 @@
 from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
 
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
-from ragas.utils import load_as_json
+from ragas.utils import json_loader
 
 if t.TYPE_CHECKING:
     from langchain.callbacks.base import Callbacks
@@ -94,7 +94,9 @@ def _score_batch(
             scores = []
 
             for response in grouped_responses:
-                response = [load_as_json(item) for item in sum(response, [])]
+                response = [
+                    json_loader.safe_load(item, self.llm) for item in sum(response, [])
+                ]
                 response = [
                     int("yes" in resp.get("verdict", " ").lower())
                     if resp.get("verdict")
diff --git a/src/ragas/metrics/_context_recall.py b/src/ragas/metrics/_context_recall.py
@@ -9,7 +9,7 @@
 from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
 
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
-from ragas.utils import load_as_json
+from ragas.utils import json_loader
 
 if t.TYPE_CHECKING:
     from langchain.callbacks.base import Callbacks
@@ -118,7 +118,7 @@ def _score_batch(
             responses = [[i.text for i in r] for r in results.generations]
             scores = []
             for response in responses:
-                response = load_as_json(response[0])
+                response = json_loader.safe_load(response[0], self.llm)
                 if response:
                     response = [
                         int(item.get("Attributed", "").lower() == "yes")
diff --git a/src/ragas/metrics/_faithfulness.py b/src/ragas/metrics/_faithfulness.py
@@ -8,7 +8,7 @@
 from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
 
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
-from ragas.utils import load_as_json
+from ragas.utils import json_loader
 
 if t.TYPE_CHECKING:
     from datasets import Dataset
@@ -154,7 +154,9 @@ def _score_batch(
 
             prompts = []
             for context, output in zip(contexts, result.generations):
-                statements = load_as_json(output[0].text).get("statements", [])
+                statements = json_loader.safe_load(output[0].text, self.llm).get(
+                    "statements", []
+                )
                 statements = statements if statements != [] else ["Nil"]
                 statements_str: str = "\n".join(
                     [f"statement_{i+1}: {st}" for i, st in enumerate(statements)]
@@ -170,7 +172,7 @@ def _score_batch(
             verdict_score_map = {"yes": 1, "no": 0, "null": np.nan}
             scores = []
             for output in outputs:
-                output = load_as_json(output[0].text)
+                output = json_loader.safe_load(output[0].text, self.llm)
                 output = output if output else []
                 faithful_statements = sum(
                     verdict_score_map.get(dict.get("verdict", "").lower(), np.nan)
diff --git a/src/ragas/utils.py b/src/ragas/utils.py
@@ -2,9 +2,17 @@
 
 import json
 import os
+import typing as t
 import warnings
+from dataclasses import dataclass
 from functools import lru_cache
 
+from langchain.callbacks.manager import CallbackManager, trace_as_chain_group
+from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
+
+if t.TYPE_CHECKING:
+    from ragas.llms import RagasLLM
+
 DEBUG_ENV_VAR = "RAGAS_DEBUG"
 # constant to tell us that there is no key passed to the llm/embeddings
 NO_KEY = "no-key"
@@ -29,3 +37,119 @@ def load_as_json(text):
         warnings.warn(f"Invalid json: {e}")
 
     return {}
+
+
+JSON_PROMPT = HumanMessagePromptTemplate.from_template(
+    """
+
+Rewrite the input into valid json
+
+
+Input:
+{{
+    "name": "John Doe",
+    "age": 30,
+    "isStudent": false
+    "address": {{
+        "street": "123 Main St",
+        "city": "Anytown",
+        "state": "CA",
+    }}
+    "hobbies": ["reading", "swimming", "cycling"]
+}}
+Output:
+{{
+    "name": "John Doe",
+    "age": 30,
+    "isStudent": false,
+    "address": {{
+        "street": "123 Main St",
+        "city": "Anytown",
+        "state": "CA"
+    }},
+    "hobbies": ["reading", "swimming", "cycling"]
+}}
+
+
+Input:
+{{
+    "statement": "The Earth is also known as "Terra" "
+}}
+Output:
+{{
+    "statement": "The Earth is also known as 'Terra'"
+}}
+
+Input:
+{input}
+
+Output:
+"""
+)
+
+
+@dataclass
+class JsonLoader:
+    max_retries: int = 2
+
+    def safe_load(self, text: str, llm: RagasLLM):
+        retry = 0
+        while retry <= self.max_retries:
+            try:
+                start, end = self._find_outermost_json(text)
+                return json.loads(text[start:end])
+            except ValueError:
+                text = self._fix_to_json(text, llm)
+            retry += 1
+
+        return {}
+
+    def _fix_to_json(
+        self,
+        text,
+        llm,
+        callbacks: t.Optional[CallbackManager] = None,
+        callback_group_name: str = "batch",
+    ):
+       # TODO (executor)
+        with trace_as_chain_group(
+            callback_group_name, callback_manager=callbacks
+        ) as batch_group:
+            human_prompt = ChatPromptTemplate.from_messages(
+                [JSON_PROMPT.format(input=text)]
+            )
+            results = llm.generate(
+                [human_prompt],
+                n=1,
+                callbacks=batch_group,
+            )
+        return results.generations[0][0].text
+
+    def _find_outermost_json(self, text):
+        stack = []
+        start_index = -1
+
+        for i, char in enumerate(text):
+            if char in "{[":
+                if len(stack) == 0:
+                    start_index = i
+                stack.append(char)
+
+            elif char in "}]":
+                if len(stack) > 0:
+                    last = stack.pop()
+                    if (char == "}" and last != "{") or (char == "]" and last != "["):
+                        # Mismatched closing brace/bracket, invalid JSON
+                        break
+
+                if len(stack) == 0 and start_index != -1:
+                    # Found a valid outermost JSON
+                    return (
+                        start_index,
+                        i + 1,
+                    )  # Add 1 to include the closing brace/bracket in the range
+
+        return -1, -1  # No valid JSON found
+
+
+json_loader = JsonLoader()