feat: added option to provide experiment_name to evaluate() (#1843)

jjmachan · web-flow · commit 36564a46ff06 · 2025-01-13T20:01:49.000+05:30
fixes: #967
diff --git a/.readthedocs.yml b/.readthedocs.yml
@@ -1,5 +1,8 @@
 version: 2
 
+mkdocs:
+  configuration: mkdocs.yml
+
 build:
   os: ubuntu-22.04
   tools:
diff --git a/src/ragas/dataset_schema.py b/src/ragas/dataset_schema.py
@@ -13,21 +13,21 @@
 from datasets import Dataset as HFDataset
 from pydantic import BaseModel, field_validator
 
+from ragas._version import __version__
 from ragas.callbacks import ChainRunEncoder, parse_run_traces
 from ragas.cost import CostCallbackHandler
 from ragas.exceptions import UploadException
 from ragas.messages import AIMessage, HumanMessage, ToolCall, ToolMessage
 from ragas.sdk import (
-    upload_packet,
     RAGAS_API_SOURCE,
-    get_app_token,
-    check_api_response,
     build_evaluation_app_url,
+    check_api_response,
     get_api_url,
+    get_app_token,
     get_app_url,
+    upload_packet,
 )
 from ragas.utils import safe_nanmean
-from ragas._version import __version__
 
 if t.TYPE_CHECKING:
     from pathlib import Path
diff --git a/src/ragas/evaluation.py b/src/ragas/evaluation.py
@@ -58,6 +58,7 @@ def evaluate(
     metrics: t.Optional[t.Sequence[Metric]] = None,
     llm: t.Optional[BaseRagasLLM | LangchainLLM] = None,
     embeddings: t.Optional[BaseRagasEmbeddings | LangchainEmbeddings] = None,
+    experiment_name: t.Optional[str] = None,
     callbacks: Callbacks = None,
     run_config: t.Optional[RunConfig] = None,
     token_usage_parser: t.Optional[TokenUsageParser] = None,
@@ -87,6 +88,8 @@ def evaluate(
         The embeddings to use for the metrics. If not provided then ragas will use
         the default embeddings for metrics which require embeddings. This can we overridden by the embeddings specified in
         the metric level with `metric.embeddings`.
+    experiment_name: str, optional
+        The name of the experiment to track. This is used to track the evaluation in the tracing tools.
     callbacks: Callbacks, optional
         Lifecycle Langchain Callbacks to run during evaluation. Check the
         [langchain documentation](https://python.langchain.com/docs/modules/callbacks/)
@@ -246,7 +249,7 @@ def evaluate(
     # new evaluation chain
     row_run_managers = []
     evaluation_rm, evaluation_group_cm = new_group(
-        name=RAGAS_EVALUATION_CHAIN_NAME,
+        name=experiment_name or RAGAS_EVALUATION_CHAIN_NAME,
         inputs={},
         callbacks=callbacks,
         metadata={"type": ChainType.EVALUATION},
diff --git a/src/ragas/metrics/_domain_specific_rubrics.py b/src/ragas/metrics/_domain_specific_rubrics.py
@@ -113,7 +113,9 @@ def __init__(
         }
 
         # Add rubrics to the scoring prompts
-        rubrics_text = "\n".join(f"{key}: {value}" for key, value in self.rubrics.items())
+        rubrics_text = "\n".join(
+            f"{key}: {value}" for key, value in self.rubrics.items()
+        )
         self.single_turn_scoring_prompt.instruction = f"{self.single_turn_scoring_prompt.instruction}\n\nScoring Rubrics:\n{rubrics_text}\n"
         self.multi_turn_scoring_prompt.instruction = f"{self.multi_turn_scoring_prompt.instruction}\n\nScoring Rubrics:\n{rubrics_text}\n"
 
diff --git a/src/ragas/metrics/base.py b/src/ragas/metrics/base.py
@@ -13,11 +13,7 @@
 
 from ragas._analytics import EvaluationEvent, _analytics_batcher
 from ragas.callbacks import ChainType, new_group
-from ragas.dataset_schema import (
-    MetricAnnotation,
-    MultiTurnSample,
-    SingleTurnSample,
-)
+from ragas.dataset_schema import MetricAnnotation, MultiTurnSample, SingleTurnSample
 from ragas.executor import is_event_loop_running
 from ragas.losses import BinaryMetricLoss, MSELoss
 from ragas.prompt import FewShotPydanticPrompt, PromptMixin

Original file line number	Diff line number	Diff line change
`@@ -113,7 +113,9 @@ def __init__(`
`113`	`113`	`}`
`114`	`114`
`115`	`115`	`# Add rubrics to the scoring prompts`
`116`		`- rubrics_text = "\n".join(f"{key}: {value}" for key, value in self.rubrics.items())`
	`116`	`+ rubrics_text = "\n".join(`
	`117`	`+ f"{key}: {value}" for key, value in self.rubrics.items()`
	`118`	`+ )`
`117`	`119`	`self.single_turn_scoring_prompt.instruction = f"{self.single_turn_scoring_prompt.instruction}\n\nScoring Rubrics:\n{rubrics_text}\n"`
`118`	`120`	`self.multi_turn_scoring_prompt.instruction = f"{self.multi_turn_scoring_prompt.instruction}\n\nScoring Rubrics:\n{rubrics_text}\n"`
`119`	`121`