fix(types): fix pyright type issues with latest pyright version (#366)

jjmachan · web-flow · commit 303bbcad9201 · 2023-12-09T23:59:43.000+05:30
diff --git a/requirements/dev.txt b/requirements/dev.txt
@@ -2,7 +2,7 @@ rich
 ruff
 isort
 black[jupyter]
-pyright==1.1.338
+pyright
 llama_index
 notebook
 sphinx-autobuild
diff --git a/src/ragas/llms/base.py b/src/ragas/llms/base.py
@@ -25,7 +25,7 @@ class RagasLLM(ABC):
 
     @property
     @abstractmethod
-    def llm(self):
+    def llm(self) -> t.Any:
         ...
 
     def validate_api_key(self):
@@ -39,15 +39,15 @@ def generate(
         self,
         prompts: list[ChatPromptTemplate],
         n: int = 1,
-        temperature: float = 0,
+        temperature: float = 1e-8,
         callbacks: t.Optional[Callbacks] = None,
     ) -> LLMResult:
         ...
 
     @abstractmethod
     async def agenerate(
         self,
-        prompts: ChatPromptTemplate,
+        prompt: ChatPromptTemplate,
         n: int = 1,
         temperature: float = 1e-8,
         callbacks: t.Optional[Callbacks] = None,
diff --git a/src/ragas/llms/langchain.py b/src/ragas/llms/langchain.py
@@ -77,7 +77,7 @@ def __init__(self, llm: BaseLLM | BaseChatModel):
         self.langchain_llm = llm
 
     @property
-    def llm(self):
+    def llm(self) -> BaseLLM | BaseChatModel:
         return self.langchain_llm
 
     def validate_api_key(self):
@@ -140,6 +140,7 @@ async def agenerate(
         self,
         prompt: ChatPromptTemplate,
         n: int = 1,
+        temperature: float = 1e-8,
         callbacks: t.Optional[Callbacks] = None,
     ) -> LLMResult:
         temperature = 0.2 if n > 1 else 0
diff --git a/src/ragas/llms/openai.py b/src/ragas/llms/openai.py
@@ -109,7 +109,7 @@ def __init__(self, model: str, _api_key_env_var: str, timeout: int = 60) -> None
         self._client: AsyncClient
 
     @abstractmethod
-    def _client_init(self) -> AsyncClient:
+    def _client_init(self):
         ...
 
     @property
diff --git a/src/ragas/metrics/_answer_correctness.py b/src/ragas/metrics/_answer_correctness.py
@@ -12,6 +12,9 @@
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
 from ragas.utils import load_as_json
 
+if t.TYPE_CHECKING:
+    from langchain.callbacks.base import Callbacks
+
 CORRECTNESS_PROMPT = HumanMessagePromptTemplate.from_template(
     """
 Extract following from given question and ground truth
@@ -70,8 +73,8 @@ class AnswerCorrectness(MetricWithLLM):
         The faithfulness object
     """
 
-    name: str = "answer_correctness"
-    evaluation_mode: EvaluationMode = EvaluationMode.qga
+    name: str = "answer_correctness"  # type: ignore[reportIncompatibleMethodOverride]
+    evaluation_mode: EvaluationMode = EvaluationMode.qga  # type: ignore[reportIncompatibleMethodOverride]
     batch_size: int = 15
     weights: list[float] = field(default_factory=lambda: [0.75, 0.25])
     answer_similarity: AnswerSimilarity | None = None
@@ -85,7 +88,7 @@ def __post_init__(self: t.Self):
     def _score_batch(
         self: t.Self,
         dataset: Dataset,
-        callbacks: t.Optional[CallbackManager] = None,
+        callbacks: t.Optional[Callbacks] = None,
         callback_group_name: str = "batch",
     ) -> list[float]:
         question, answer, ground_truths = (
@@ -95,8 +98,9 @@ def _score_batch(
         )
         prompts = []
 
+        cb = CallbackManager.configure(inheritable_callbacks=callbacks)
         with trace_as_chain_group(
-            callback_group_name, callback_manager=callbacks
+            callback_group_name, callback_manager=cb
         ) as batch_group:
             for q, a, g in zip(question, answer, ground_truths):
                 human_prompt = CORRECTNESS_PROMPT.format(
diff --git a/src/ragas/metrics/_answer_relevance.py b/src/ragas/metrics/_answer_relevance.py
@@ -5,7 +5,7 @@
 
 import numpy as np
 from datasets import Dataset
-from langchain.callbacks.manager import trace_as_chain_group
+from langchain.callbacks.manager import CallbackManager, trace_as_chain_group
 from langchain.embeddings import OpenAIEmbeddings
 from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
 
@@ -15,7 +15,7 @@
 from ragas.utils import load_as_json
 
 if t.TYPE_CHECKING:
-    from langchain.callbacks.manager import CallbackManager
+    from langchain.callbacks.base import Callbacks
 
     from ragas.embeddings.base import RagasEmbeddings
 
@@ -86,8 +86,8 @@ class AnswerRelevancy(MetricWithLLM):
         E.g. HuggingFaceEmbeddings('BAAI/bge-base-en')
     """
 
-    name: str = "answer_relevancy"
-    evaluation_mode: EvaluationMode = EvaluationMode.qac
+    name: str = "answer_relevancy"  # type: ignore
+    evaluation_mode: EvaluationMode = EvaluationMode.qac  # type: ignore
     batch_size: int = 15
     strictness: int = 3
     embeddings: RagasEmbeddings = field(default_factory=embedding_factory)
@@ -102,16 +102,18 @@ def init_model(self):
     def _score_batch(
         self: t.Self,
         dataset: Dataset,
-        callbacks: t.Optional[CallbackManager] = None,
+        callbacks: t.Optional[Callbacks] = None,
         callback_group_name: str = "batch",
     ) -> list[float]:
         questions, answers, contexts = (
             dataset["question"],
             dataset["answer"],
             dataset["contexts"],
         )
+
+        cb = CallbackManager.configure(inheritable_callbacks=callbacks)
         with trace_as_chain_group(
-            callback_group_name, callback_manager=callbacks
+            callback_group_name, callback_manager=cb
         ) as batch_group:
             prompts = []
             for ans, ctx in zip(answers, contexts):
diff --git a/src/ragas/metrics/_answer_similarity.py b/src/ragas/metrics/_answer_similarity.py
@@ -15,7 +15,7 @@
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
 
 if t.TYPE_CHECKING:
-    from langchain.callbacks.manager import CallbackManager
+    from langchain.callbacks.base import Callbacks
 
     from ragas.embeddings.base import RagasEmbeddings
 
@@ -42,8 +42,8 @@ class AnswerSimilarity(MetricWithLLM):
         Default 0.5
     """
 
-    name: str = "answer_similarity"
-    evaluation_mode: EvaluationMode = EvaluationMode.ga
+    name: str = "answer_similarity"  # type: ignore
+    evaluation_mode: EvaluationMode = EvaluationMode.ga  # type: ignore
     batch_size: int = 15
     embeddings: RagasEmbeddings = field(default_factory=embedding_factory)
     is_cross_encoder: bool = False
@@ -67,7 +67,7 @@ def init_model(self):
     def _score_batch(
         self: t.Self,
         dataset: Dataset,
-        callbacks: t.Optional[CallbackManager] = None,
+        callbacks: t.Optional[Callbacks] = None,
         callback_group_name: str = "batch",
     ) -> list[float]:
         ground_truths, answers = dataset["ground_truths"], dataset["answer"]
diff --git a/src/ragas/metrics/_context_precision.py b/src/ragas/metrics/_context_precision.py
@@ -11,6 +11,9 @@
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
 from ragas.utils import load_as_json
 
+if t.TYPE_CHECKING:
+    from langchain.callbacks.base import Callbacks
+
 CONTEXT_PRECISION = HumanMessagePromptTemplate.from_template(
     """\
 Verify if the information in the given context is useful in answering the question.
@@ -47,20 +50,22 @@ class ContextPrecision(MetricWithLLM):
         Batch size for openai completion.
     """
 
-    name: str = "context_precision"
-    evaluation_mode: EvaluationMode = EvaluationMode.qc
+    name: str = "context_precision"  # type: ignore
+    evaluation_mode: EvaluationMode = EvaluationMode.qc  # type: ignore
     batch_size: int = 15
 
     def _score_batch(
         self: t.Self,
         dataset: Dataset,
-        callbacks: t.Optional[CallbackManager] = None,
+        callbacks: t.Optional[Callbacks] = None,
         callback_group_name: str = "batch",
     ) -> list:
         prompts = []
         questions, contexts = dataset["question"], dataset["contexts"]
+
+        cb = CallbackManager.configure(inheritable_callbacks=callbacks)
         with trace_as_chain_group(
-            callback_group_name, callback_manager=callbacks
+            callback_group_name, callback_manager=cb
         ) as batch_group:
             for qstn, ctx in zip(questions, contexts):
                 human_prompts = [
diff --git a/src/ragas/metrics/_context_recall.py b/src/ragas/metrics/_context_recall.py
@@ -11,6 +11,9 @@
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
 from ragas.utils import load_as_json
 
+if t.TYPE_CHECKING:
+    from langchain.callbacks.base import Callbacks
+
 CONTEXT_RECALL_RA = HumanMessagePromptTemplate.from_template(
     """
 Given a context, and an answer, analyze each sentence in the answer and classify if the sentence can be attributed to the given context or not. Output json with reason.
@@ -77,14 +80,14 @@ class ContextRecall(MetricWithLLM):
         Batch size for openai completion.
     """
 
-    name: str = "context_recall"
-    evaluation_mode: EvaluationMode = EvaluationMode.qcg
+    name: str = "context_recall"  # type: ignore
+    evaluation_mode: EvaluationMode = EvaluationMode.qcg  # type: ignore
     batch_size: int = 15
 
     def _score_batch(
         self: t.Self,
         dataset: Dataset,
-        callbacks: t.Optional[CallbackManager] = None,
+        callbacks: t.Optional[Callbacks] = None,
         callback_group_name: str = "batch",
     ) -> list:
         prompts = []
@@ -94,8 +97,9 @@ def _score_batch(
             dataset["contexts"],
         )
 
+        cb = CallbackManager.configure(inheritable_callbacks=callbacks)
         with trace_as_chain_group(
-            callback_group_name, callback_manager=callbacks
+            callback_group_name, callback_manager=cb
         ) as batch_group:
             for qstn, gt, ctx in zip(question, ground_truths, contexts):
                 gt = "\n".join(gt) if isinstance(gt, list) else gt
diff --git a/src/ragas/metrics/_context_relevancy.py b/src/ragas/metrics/_context_relevancy.py
@@ -13,6 +13,9 @@
 
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
 
+if t.TYPE_CHECKING:
+    from langchain.callbacks.base import Callbacks
+
 CONTEXT_RELEVANCE = HumanMessagePromptTemplate.from_template(
     """\
 Please extract relevant sentences from the provided context that is absolutely required answer the following question. If no relevant sentences are found, or if you believe the question cannot be answered from the given context, return the phrase "Insufficient Information".  While extracting candidate sentences you're not allowed to make any changes to sentences from given context.
@@ -47,8 +50,8 @@ class ContextRelevancy(MetricWithLLM):
         Batch size for openai completion.
     """
 
-    name: str = "context_relevancy"
-    evaluation_mode: EvaluationMode = EvaluationMode.qc
+    name: str = "context_relevancy"  # type: ignore
+    evaluation_mode: EvaluationMode = EvaluationMode.qc  # type: ignore
     batch_size: int = 15
     show_deprecation_warning: bool = False
 
@@ -58,7 +61,7 @@ def __post_init__(self: t.Self):
     def _score_batch(
         self: t.Self,
         dataset: Dataset,
-        callbacks: t.Optional[CallbackManager] = None,
+        callbacks: t.Optional[Callbacks] = None,
         callback_group_name: str = "batch",
     ) -> list[float]:
         if self.show_deprecation_warning:
@@ -67,8 +70,10 @@ def _score_batch(
             )
         prompts = []
         questions, contexts = dataset["question"], dataset["contexts"]
+
+        cb = CallbackManager.configure(inheritable_callbacks=callbacks)
         with trace_as_chain_group(
-            callback_group_name, callback_manager=callbacks
+            callback_group_name, callback_manager=cb
         ) as batch_group:
             for q, c in zip(questions, contexts):
                 human_prompt = CONTEXT_RELEVANCE.format(
diff --git a/src/ragas/metrics/_faithfulness.py b/src/ragas/metrics/_faithfulness.py
@@ -12,6 +12,7 @@
 
 if t.TYPE_CHECKING:
     from datasets import Dataset
+    from langchain.callbacks.base import Callbacks
 
 
 LONG_FORM_ANSWER_PROMPT = HumanMessagePromptTemplate.from_template(
@@ -120,25 +121,30 @@
 
 @dataclass
 class Faithfulness(MetricWithLLM):
-    name: str = "faithfulness"
-    evaluation_mode: EvaluationMode = EvaluationMode.qac
+    name: str = "faithfulness"  # type: ignore
+    evaluation_mode: EvaluationMode = EvaluationMode.qac  # type: ignore
     batch_size: int = 15
 
     def _score_batch(
         self: t.Self,
-        ds: Dataset,
-        callbacks: t.Optional[CallbackManager] = None,
+        dataset: Dataset,
+        callbacks: t.Optional[Callbacks] = None,
         callback_group_name: str = "batch",
     ) -> list[float]:
         """
         returns the NLI score for each (q, c, a) pair
         """
 
-        question, answer, contexts = ds["question"], ds["answer"], ds["contexts"]
+        question, answer, contexts = (
+            dataset["question"],
+            dataset["answer"],
+            dataset["contexts"],
+        )
         prompts = []
 
+        cb = CallbackManager.configure(inheritable_callbacks=callbacks)
         with trace_as_chain_group(
-            callback_group_name, callback_manager=callbacks
+            callback_group_name, callback_manager=cb
         ) as batch_group:
             for q, a in zip(question, answer):
                 human_prompt = LONG_FORM_ANSWER_PROMPT.format(question=q, answer=a)
diff --git a/src/ragas/metrics/base.py b/src/ragas/metrics/base.py
@@ -58,7 +58,7 @@ def evaluation_mode(self) -> EvaluationMode:
         ...
 
     @abstractmethod
-    def init_model():
+    def init_model(self):
         """
         This method will lazy initialize the model.
         """
diff --git a/src/ragas/metrics/critique.py b/src/ragas/metrics/critique.py
@@ -12,6 +12,8 @@
 from ragas.metrics.base import EvaluationMode, MetricWithLLM
 
 if t.TYPE_CHECKING:
+    from langchain.callbacks.base import Callbacks
+
     from ragas.llms import RagasLLM
 
 CRITIQUE_PROMPT = HumanMessagePromptTemplate.from_template(
@@ -53,8 +55,8 @@ class AspectCritique(MetricWithLLM):
         llm API of your choice
     """
 
-    name: str = field(default="", repr=True)
-    evaluation_mode: EvaluationMode = EvaluationMode.qac
+    name: str = field(default="", repr=True)  # type: ignore
+    evaluation_mode: EvaluationMode = EvaluationMode.qac  # type: ignore
     definition: str = field(default="", repr=True)
     strictness: int = field(default=1, repr=False)
     batch_size: int = field(default=15, repr=False)
@@ -91,7 +93,7 @@ def prompt_format(
     def _score_batch(
         self: t.Self,
         dataset: Dataset,
-        callbacks: t.Optional[CallbackManager] = None,
+        callbacks: t.Optional[Callbacks] = None,
         callback_group_name: str = "batch",
     ) -> list[int]:
         questions, contexts, answers = [
@@ -104,8 +106,10 @@ def _score_batch(
             contexts = [None] * len(questions)
 
         prompts = []
+
+        cb = CallbackManager.configure(inheritable_callbacks=callbacks)
         with trace_as_chain_group(
-            callback_group_name, callback_manager=callbacks
+            callback_group_name, callback_manager=cb
         ) as batch_group:
             for question, context, answer in zip(questions, contexts, answers):
                 human_prompt = self.prompt_format(question, answer, context)