feat: add output type to metrics (#1722)

shahules786 · web-flow · commit 9bd14024a6a8 · 2024-12-03T16:13:01.000+05:30
Added output_type as optional parameter to LLM based metrics to derive
the loss required for optimising the metric. This feature can also be
later used to change the UI layout when we introduce ranking based
metrics.
diff --git a/src/ragas/metrics/__init__.py b/src/ragas/metrics/__init__.py
@@ -61,6 +61,7 @@
 from ragas.metrics._topic_adherence import TopicAdherenceScore
 from ragas.metrics.base import (
     Metric,
+    MetricOutputType,
     MetricType,
     MetricWithEmbeddings,
     MetricWithLLM,
@@ -76,6 +77,7 @@
     "MetricWithLLM",
     "SingleTurnMetric",
     "MultiTurnMetric",
+    "MetricOutputType",
     # specific metrics
     "AnswerCorrectness",
     "answer_correctness",
diff --git a/src/ragas/metrics/_answer_correctness.py b/src/ragas/metrics/_answer_correctness.py
@@ -15,6 +15,7 @@
     LongFormAnswerPrompt,
 )
 from ragas.metrics.base import (
+    MetricOutputType,
     MetricType,
     MetricWithEmbeddings,
     MetricWithLLM,
@@ -163,6 +164,7 @@ class AnswerCorrectness(MetricWithLLM, MetricWithEmbeddings, SingleTurnMetric):
             MetricType.SINGLE_TURN: {"user_input", "response", "reference"}
         }
     )
+    output_type = MetricOutputType.CONTINUOUS
     correctness_prompt: PydanticPrompt = field(default_factory=CorrectnessClassifier)
     long_form_answer_prompt: PydanticPrompt = field(
         default_factory=LongFormAnswerPrompt
diff --git a/src/ragas/metrics/_answer_relevance.py b/src/ragas/metrics/_answer_relevance.py
@@ -9,6 +9,7 @@
 
 from ragas.dataset_schema import SingleTurnSample
 from ragas.metrics.base import (
+    MetricOutputType,
     MetricType,
     MetricWithEmbeddings,
     MetricWithLLM,
@@ -87,6 +88,8 @@ class ResponseRelevancy(MetricWithLLM, MetricWithEmbeddings, SingleTurnMetric):
             }
         }
     )
+    output_type = MetricOutputType.CONTINUOUS
+
     question_generation: PydanticPrompt = ResponseRelevancePrompt()
     strictness: int = 3
 
diff --git a/src/ragas/metrics/_answer_similarity.py b/src/ragas/metrics/_answer_similarity.py
@@ -8,7 +8,12 @@
 
 from ragas.dataset_schema import SingleTurnSample
 from ragas.embeddings.base import HuggingfaceEmbeddings
-from ragas.metrics.base import MetricType, MetricWithEmbeddings, SingleTurnMetric
+from ragas.metrics.base import (
+    MetricOutputType,
+    MetricType,
+    MetricWithEmbeddings,
+    SingleTurnMetric,
+)
 
 if t.TYPE_CHECKING:
     from langchain_core.callbacks.base import Callbacks
@@ -41,6 +46,7 @@ class SemanticSimilarity(MetricWithEmbeddings, SingleTurnMetric):
     _required_columns: t.Dict[MetricType, t.Set[str]] = field(
         default_factory=lambda: {MetricType.SINGLE_TURN: {"reference", "response"}}
     )
+    output_type = MetricOutputType.CONTINUOUS
     is_cross_encoder: bool = False
     threshold: t.Optional[float] = None
 
diff --git a/src/ragas/metrics/_aspect_critic.py b/src/ragas/metrics/_aspect_critic.py
@@ -8,6 +8,7 @@
 
 from ragas.dataset_schema import MultiTurnSample, SingleTurnSample
 from ragas.metrics.base import (
+    MetricOutputType,
     MetricType,
     MetricWithLLM,
     MultiTurnMetric,
@@ -94,6 +95,7 @@ def __init__(
         definition: str,
         llm: t.Optional[BaseRagasLLM] = None,
         required_columns: t.Optional[t.Dict[MetricType, t.Set[str]]] = None,
+        output_type: t.Optional[MetricOutputType] = MetricOutputType.BINARY,
         single_turn_prompt: t.Optional[PydanticPrompt] = None,
         multi_turn_prompt: t.Optional[PydanticPrompt] = None,
         strictness: int = 1,
@@ -116,6 +118,7 @@ def __init__(
             name=name,
             _required_columns=self._required_columns,
             llm=llm,
+            output_type=output_type,
         )
 
         self._definition = definition
diff --git a/src/ragas/metrics/_context_entities_recall.py b/src/ragas/metrics/_context_entities_recall.py
@@ -8,7 +8,12 @@
 from pydantic import BaseModel
 
 from ragas.dataset_schema import SingleTurnSample
-from ragas.metrics.base import MetricType, MetricWithLLM, SingleTurnMetric
+from ragas.metrics.base import (
+    MetricOutputType,
+    MetricType,
+    MetricWithLLM,
+    SingleTurnMetric,
+)
 from ragas.prompt import PydanticPrompt, StringIO
 
 if t.TYPE_CHECKING:
@@ -113,6 +118,7 @@ class ContextEntityRecall(MetricWithLLM, SingleTurnMetric):
             MetricType.SINGLE_TURN: {"reference", "retrieved_contexts"}
         }
     )
+    output_type = MetricOutputType.CONTINUOUS
     context_entity_recall_prompt: PydanticPrompt = field(
         default_factory=ExtractEntitiesPrompt
     )
diff --git a/src/ragas/metrics/_context_precision.py b/src/ragas/metrics/_context_precision.py
@@ -9,7 +9,13 @@
 
 from ragas.dataset_schema import SingleTurnSample
 from ragas.metrics._string import NonLLMStringSimilarity
-from ragas.metrics.base import MetricType, MetricWithLLM, SingleTurnMetric, ensembler
+from ragas.metrics.base import (
+    MetricOutputType,
+    MetricType,
+    MetricWithLLM,
+    SingleTurnMetric,
+    ensembler,
+)
 from ragas.prompt import PydanticPrompt
 from ragas.run_config import RunConfig
 from ragas.utils import deprecated
@@ -98,6 +104,7 @@ class LLMContextPrecisionWithReference(MetricWithLLM, SingleTurnMetric):
             }
         }
     )
+    output_type = MetricOutputType.CONTINUOUS
     context_precision_prompt: PydanticPrompt = field(
         default_factory=ContextPrecisionPrompt
     )
diff --git a/src/ragas/metrics/_context_recall.py b/src/ragas/metrics/_context_recall.py
@@ -9,7 +9,13 @@
 
 from ragas.dataset_schema import SingleTurnSample
 from ragas.metrics._string import NonLLMStringSimilarity
-from ragas.metrics.base import MetricType, MetricWithLLM, SingleTurnMetric, ensembler
+from ragas.metrics.base import (
+    MetricOutputType,
+    MetricType,
+    MetricWithLLM,
+    SingleTurnMetric,
+    ensembler,
+)
 from ragas.prompt import PydanticPrompt
 from ragas.run_config import RunConfig
 from ragas.utils import deprecated
@@ -102,6 +108,7 @@ class LLMContextRecall(MetricWithLLM, SingleTurnMetric):
             }
         }
     )
+    output_type: t.Optional[MetricOutputType] = MetricOutputType.CONTINUOUS
     context_recall_prompt: PydanticPrompt = field(
         default_factory=ContextRecallClassificationPrompt
     )
@@ -202,6 +209,7 @@ class NonLLMContextRecall(SingleTurnMetric):
             }
         }
     )
+    output_type: MetricOutputType = MetricOutputType.CONTINUOUS
     distance_measure: SingleTurnMetric = field(
         default_factory=lambda: NonLLMStringSimilarity()
     )
diff --git a/src/ragas/metrics/_domain_specific_rubrics.py b/src/ragas/metrics/_domain_specific_rubrics.py
@@ -7,6 +7,7 @@
 
 from ragas.dataset_schema import MultiTurnSample, SingleTurnSample
 from ragas.metrics.base import (
+    MetricOutputType,
     MetricType,
     MetricWithLLM,
     MultiTurnMetric,
@@ -88,6 +89,7 @@ def __init__(
         rubrics: t.Dict[str, str] = DEFAULT_REFERENCE_FREE_RUBRICS,
         llm: t.Optional[BaseRagasLLM] = None,
         required_columns: t.Optional[t.Dict[MetricType, t.Set[str]]] = None,
+        output_type: t.Optional[MetricOutputType] = MetricOutputType.DISCRETE,
         single_turn_prompt: t.Optional[PydanticPrompt] = None,
         multi_turn_prompt: t.Optional[PydanticPrompt] = None,
         max_retries: int = 1,
@@ -109,7 +111,12 @@ def __init__(
                 "reference:optional",
             },
         }
-        super().__init__(name=name, llm=llm, _required_columns=self._required_columns)
+        super().__init__(
+            name=name,
+            llm=llm,
+            _required_columns=self._required_columns,
+            output_type=output_type,
+        )
 
     def __repr__(self) -> str:
         return f"{self.name}(required_columns={self.required_columns}, llm={self.llm}), rubrics={self.rubrics}"
diff --git a/src/ragas/metrics/_factual_correctness.py b/src/ragas/metrics/_factual_correctness.py
@@ -15,6 +15,7 @@
     NLIStatementPrompt,
 )
 from ragas.metrics.base import (
+    MetricOutputType,
     MetricType,
     MetricWithLLM,
     SingleTurnMetric,
@@ -210,6 +211,7 @@ class FactualCorrectness(MetricWithLLM, SingleTurnMetric):
     _required_columns: t.Dict[MetricType, t.Set[str]] = field(
         default_factory=lambda: {MetricType.SINGLE_TURN: {"response", "reference"}}
     )
+    output_type: t.Optional[MetricOutputType] = MetricOutputType.CONTINUOUS
     mode: t.Literal["precision", "recall", "f1"] = "f1"
     beta: float = 1.0
     atomicity: t.Literal["low", "high"] = "low"
diff --git a/src/ragas/metrics/_faithfulness.py b/src/ragas/metrics/_faithfulness.py
@@ -9,6 +9,7 @@
 
 from ragas.dataset_schema import SingleTurnSample
 from ragas.metrics.base import (
+    MetricOutputType,
     MetricType,
     MetricWithLLM,
     SingleTurnMetric,
@@ -172,6 +173,7 @@ class Faithfulness(MetricWithLLM, SingleTurnMetric):
             }
         }
     )
+    output_type: t.Optional[MetricOutputType] = MetricOutputType.CONTINUOUS
     nli_statements_message: PydanticPrompt = field(default_factory=NLIStatementPrompt)
     statement_prompt: PydanticPrompt = field(default_factory=LongFormAnswerPrompt)
     sentence_segmenter: t.Optional[HasSegmentMethod] = None
diff --git a/src/ragas/metrics/_goal_accuracy.py b/src/ragas/metrics/_goal_accuracy.py
@@ -6,7 +6,12 @@
 from pydantic import BaseModel, Field
 
 from ragas.dataset_schema import MultiTurnSample
-from ragas.metrics.base import MetricType, MetricWithLLM, MultiTurnMetric
+from ragas.metrics.base import (
+    MetricOutputType,
+    MetricType,
+    MetricWithLLM,
+    MultiTurnMetric,
+)
 from ragas.prompt import PydanticPrompt
 
 if t.TYPE_CHECKING:
@@ -106,6 +111,7 @@ class AgentGoalAccuracyWithReference(MetricWithLLM, MultiTurnMetric):
             }
         }
     )
+    output_type: t.Optional[MetricOutputType] = MetricOutputType.BINARY
     workflow_prompt: PydanticPrompt = field(
         default_factory=lambda: InferGoalOutcomePrompt()
     )
diff --git a/src/ragas/metrics/_instance_specific_rubrics.py b/src/ragas/metrics/_instance_specific_rubrics.py
@@ -11,6 +11,7 @@
     SingleTurnInputWithoutRubric,
 )
 from ragas.metrics.base import (
+    MetricOutputType,
     MetricType,
     MetricWithLLM,
     MultiTurnMetric,
@@ -54,6 +55,7 @@ def __init__(
         name: str = "instance_rubrics",
         llm: t.Optional[BaseRagasLLM] = None,
         required_columns: t.Optional[t.Dict[MetricType, t.Set[str]]] = None,
+        output_type: t.Optional[MetricOutputType] = MetricOutputType.DISCRETE,
         single_turn_prompt: t.Optional[PydanticPrompt] = None,
         multi_turn_prompt: t.Optional[PydanticPrompt] = None,
         max_retries: int = 1,
@@ -73,6 +75,7 @@ def __init__(
                 "reference:optional",
             },
         }
+        self.output_type = output_type
         super().__init__(name=name, llm=llm, _required_columns=self._required_columns)
 
         self.single_turn_prompt = single_turn_prompt or SingleTurnPrompt()
diff --git a/src/ragas/metrics/_multi_modal_faithfulness.py b/src/ragas/metrics/_multi_modal_faithfulness.py
@@ -7,7 +7,12 @@
 from pydantic import BaseModel, Field
 
 from ragas.dataset_schema import SingleTurnSample
-from ragas.metrics.base import MetricType, MetricWithLLM, SingleTurnMetric
+from ragas.metrics.base import (
+    MetricOutputType,
+    MetricType,
+    MetricWithLLM,
+    SingleTurnMetric,
+)
 from ragas.prompt import ImageTextPrompt
 
 if t.TYPE_CHECKING:
@@ -74,6 +79,7 @@ class MultiModalFaithfulness(MetricWithLLM, SingleTurnMetric):
             }
         }
     )
+    output_type: t.Optional[MetricOutputType] = MetricOutputType.CONTINUOUS
     faithfulness_prompt: ImageTextPrompt = MultiModalFaithfulnessPrompt()
 
     async def _ascore(self, row: t.Dict, callbacks: Callbacks) -> float:
diff --git a/src/ragas/metrics/_multi_modal_relevance.py b/src/ragas/metrics/_multi_modal_relevance.py
@@ -7,7 +7,12 @@
 from pydantic import BaseModel, Field
 
 from ragas.dataset_schema import SingleTurnSample
-from ragas.metrics.base import MetricType, MetricWithLLM, SingleTurnMetric
+from ragas.metrics.base import (
+    MetricOutputType,
+    MetricType,
+    MetricWithLLM,
+    SingleTurnMetric,
+)
 from ragas.prompt import ImageTextPrompt
 
 if t.TYPE_CHECKING:
@@ -80,6 +85,8 @@ class MultiModalRelevance(MetricWithLLM, SingleTurnMetric):
             }
         }
     )
+    output_type: t.Optional[MetricOutputType] = MetricOutputType.CONTINUOUS
+
     relevance_prompt: ImageTextPrompt = MultiModalRelevancePrompt()
 
     async def _ascore(self, row: t.Dict, callbacks: Callbacks) -> float:
diff --git a/src/ragas/metrics/_noise_sensitivity.py b/src/ragas/metrics/_noise_sensitivity.py
@@ -15,6 +15,7 @@
     NLIStatementPrompt,
 )
 from ragas.metrics.base import (
+    MetricOutputType,
     MetricType,
     MetricWithLLM,
     SingleTurnMetric,
@@ -43,6 +44,7 @@ class NoiseSensitivity(MetricWithLLM, SingleTurnMetric):
             }
         }
     )
+    output_type: t.Optional[MetricOutputType] = MetricOutputType.CONTINUOUS
     nli_statements_message: PydanticPrompt = field(default_factory=NLIStatementPrompt)
     statement_prompt: PydanticPrompt = field(default_factory=LongFormAnswerPrompt)
     sentence_segmenter: t.Optional[HasSegmentMethod] = None
diff --git a/src/ragas/metrics/_simple_criteria.py b/src/ragas/metrics/_simple_criteria.py
@@ -8,6 +8,7 @@
 
 from ragas.dataset_schema import MultiTurnSample, SingleTurnSample
 from ragas.metrics.base import (
+    MetricOutputType,
     MetricType,
     MetricWithLLM,
     MultiTurnMetric,
@@ -94,6 +95,7 @@ def __init__(
         definition: str,
         llm: t.Optional[BaseRagasLLM] = None,
         required_columns: t.Optional[t.Dict[MetricType, t.Set[str]]] = None,
+        output_type: t.Optional[MetricOutputType] = MetricOutputType.DISCRETE,
         single_turn_prompt: t.Optional[PydanticPrompt] = None,
         multi_turn_prompt: t.Optional[PydanticPrompt] = None,
         strictness: int = 1,
@@ -116,6 +118,7 @@ def __init__(
             name=name,
             llm=llm,
             _required_columns=required_columns,
+            output_type=output_type,
         )
 
         self._definition = definition
diff --git a/src/ragas/metrics/_sql_semantic_equivalence.py b/src/ragas/metrics/_sql_semantic_equivalence.py
@@ -7,7 +7,12 @@
 from pydantic import BaseModel, Field
 
 from ragas.dataset_schema import SingleTurnSample
-from ragas.metrics.base import MetricType, MetricWithLLM, SingleTurnMetric
+from ragas.metrics.base import (
+    MetricOutputType,
+    MetricType,
+    MetricWithLLM,
+    SingleTurnMetric,
+)
 from ragas.prompt import PydanticPrompt
 
 if t.TYPE_CHECKING:
@@ -70,6 +75,7 @@ class LLMSQLEquivalence(MetricWithLLM, SingleTurnMetric):
             MetricType.SINGLE_TURN: {"response", "reference", "reference_contexts"}
         }
     )
+    output_type: t.Optional[MetricOutputType] = MetricOutputType.BINARY
     equivalence_prompt: PydanticPrompt = EquivalencePrompt()
 
     async def _single_turn_ascore(
diff --git a/src/ragas/metrics/_summarization.py b/src/ragas/metrics/_summarization.py
diff --git a/src/ragas/metrics/_topic_adherence.py b/src/ragas/metrics/_topic_adherence.py
diff --git a/src/ragas/metrics/base.py b/src/ragas/metrics/base.py

Original file line number	Diff line number	Diff line change
`@@ -15,6 +15,7 @@`
`15`	`15`	`LongFormAnswerPrompt,`
`16`	`16`	`)`
`17`	`17`	`from ragas.metrics.base import (`
	`18`	`+ MetricOutputType,`
`18`	`19`	`MetricType,`
`19`	`20`	`MetricWithEmbeddings,`
`20`	`21`	`MetricWithLLM,`
`@@ -163,6 +164,7 @@ class AnswerCorrectness(MetricWithLLM, MetricWithEmbeddings, SingleTurnMetric):`
`163`	`164`	`MetricType.SINGLE_TURN: {"user_input", "response", "reference"}`
`164`	`165`	`}`
`165`	`166`	`)`
	`167`	`+ output_type = MetricOutputType.CONTINUOUS`
`166`	`168`	`correctness_prompt: PydanticPrompt = field(default_factory=CorrectnessClassifier)`
`167`	`169`	`long_form_answer_prompt: PydanticPrompt = field(`
`168`	`170`	`default_factory=LongFormAnswerPrompt`
Original file line number	Diff line number	Diff line change
`@@ -9,6 +9,7 @@`
`9`	`9`
`10`	`10`	`from ragas.dataset_schema import SingleTurnSample`
`11`	`11`	`from ragas.metrics.base import (`
	`12`	`+ MetricOutputType,`
`12`	`13`	`MetricType,`
`13`	`14`	`MetricWithEmbeddings,`
`14`	`15`	`MetricWithLLM,`
`@@ -87,6 +88,8 @@ class ResponseRelevancy(MetricWithLLM, MetricWithEmbeddings, SingleTurnMetric):`
`87`	`88`	`}`
`88`	`89`	`}`
`89`	`90`	`)`
	`91`	`+ output_type = MetricOutputType.CONTINUOUS`
	`92`	`+`
`90`	`93`	`question_generation: PydanticPrompt = ResponseRelevancePrompt()`
`91`	`94`	`strictness: int = 3`
`92`	`95`
Original file line number	Diff line number	Diff line change
`@@ -8,7 +8,12 @@`
`8`	`8`	`from pydantic import BaseModel`
`9`	`9`
`10`	`10`	`from ragas.dataset_schema import SingleTurnSample`
`11`		`-from ragas.metrics.base import MetricType, MetricWithLLM, SingleTurnMetric`
	`11`	`+from ragas.metrics.base import (`
	`12`	`+ MetricOutputType,`
	`13`	`+ MetricType,`
	`14`	`+ MetricWithLLM,`
	`15`	`+ SingleTurnMetric,`
	`16`	`+)`
`12`	`17`	`from ragas.prompt import PydanticPrompt, StringIO`
`13`	`18`
`14`	`19`	`if t.TYPE_CHECKING:`
`@@ -113,6 +118,7 @@ class ContextEntityRecall(MetricWithLLM, SingleTurnMetric):`
`113`	`118`	`MetricType.SINGLE_TURN: {"reference", "retrieved_contexts"}`
`114`	`119`	`}`
`115`	`120`	`)`
	`121`	`+ output_type = MetricOutputType.CONTINUOUS`
`116`	`122`	`context_entity_recall_prompt: PydanticPrompt = field(`
`117`	`123`	`default_factory=ExtractEntitiesPrompt`
`118`	`124`	`)`
Original file line number	Diff line number	Diff line change
`@@ -9,7 +9,13 @@`
`9`	`9`
`10`	`10`	`from ragas.dataset_schema import SingleTurnSample`
`11`	`11`	`from ragas.metrics._string import NonLLMStringSimilarity`
`12`		`-from ragas.metrics.base import MetricType, MetricWithLLM, SingleTurnMetric, ensembler`
	`12`	`+from ragas.metrics.base import (`
	`13`	`+ MetricOutputType,`
	`14`	`+ MetricType,`
	`15`	`+ MetricWithLLM,`
	`16`	`+ SingleTurnMetric,`
	`17`	`+ ensembler,`
	`18`	`+)`
`13`	`19`	`from ragas.prompt import PydanticPrompt`
`14`	`20`	`from ragas.run_config import RunConfig`
`15`	`21`	`from ragas.utils import deprecated`
`@@ -98,6 +104,7 @@ class LLMContextPrecisionWithReference(MetricWithLLM, SingleTurnMetric):`
`98`	`104`	`}`
`99`	`105`	`}`
`100`	`106`	`)`
	`107`	`+ output_type = MetricOutputType.CONTINUOUS`
`101`	`108`	`context_precision_prompt: PydanticPrompt = field(`
`102`	`109`	`default_factory=ContextPrecisionPrompt`
`103`	`110`	`)`