add embeddings to TestsetGenerator (#1562)

hunter-walden2113 · web-flow · commit fcaf4d0095bc · 2024-10-24T15:13:42.000+05:30
Addresses the "no embeddings found" and "API Connection error" issues. Specifically issues: [1546](#1546), [1526](#1526), [1512](#1512), [1496](#1496) Users have reported that they cannot generate a Testset because they get API connection errors, or their knowledge graph does not have the embeddings. This is due to the use of the default LLMs and Embedding models via llm_factory and embedding_factory. The errors are occuring becuase the users do not have OpenAI credentials in their environment because they are using different models in their workflow. Issue to solve is to prevent the default_transforms function from using the llm_factory by forcing the user to add both an embedding model and llm model when instantiating TestsetGenerator. 1. Added `embedding_model` as an attribute to `TestsetGenerator`. 2. Added `embedding_model: LangchainEmbeddings` as a parameter to `TestsetGenerator.from_langchain` 3. Changed the return from `TestsetGenerator.from_langchain` to `return cls(LangchainLLMWrapper(llm), LangchainEmbeddingsWrapper(embedding_model), knowledge_graph)` 4. Added both an `llm` and `embedding_model` parameter to `TestsetGenerator.generate_with_langchain_docs`
diff --git a/src/ragas/testset/synthesizers/generate.py b/src/ragas/testset/synthesizers/generate.py
@@ -12,6 +12,7 @@
 from ragas.executor import Executor
 from ragas.llms import BaseRagasLLM, LangchainLLMWrapper
 from ragas.run_config import RunConfig
+from ragas.embeddings.base import BaseRagasEmbeddings, LangchainEmbeddingsWrapper
 from ragas.testset.graph import KnowledgeGraph, Node, NodeType
 from ragas.testset.synthesizers import default_query_distribution
 from ragas.testset.synthesizers.testset_schema import Testset, TestsetSample
@@ -22,6 +23,7 @@
     from langchain_core.callbacks import Callbacks
     from langchain_core.documents import Document as LCDocument
     from langchain_core.language_models import BaseLanguageModel as LangchainLLM
+    from langchain_core.embeddings.embeddings import Embeddings as LangchainEmbeddings
 
     from ragas.embeddings.base import BaseRagasEmbeddings
     from ragas.llms.base import BaseRagasLLM
@@ -42,24 +44,32 @@ class TestsetGenerator:
     ----------
     llm : BaseRagasLLM
         The language model to use for the generation process.
+    embedding_model: BaseRagasEmbeddings
+        Embedding model for generation process.
     knowledge_graph : KnowledgeGraph, default empty
         The knowledge graph to use for the generation process.
     """
 
     llm: BaseRagasLLM
+    embedding_model: BaseRagasEmbeddings
     knowledge_graph: KnowledgeGraph = field(default_factory=KnowledgeGraph)
 
     @classmethod
     def from_langchain(
         cls,
         llm: LangchainLLM,
+        embedding_model: LangchainEmbeddings,
         knowledge_graph: t.Optional[KnowledgeGraph] = None,
     ) -> TestsetGenerator:
         """
         Creates a `TestsetGenerator` from a Langchain LLMs.
         """
         knowledge_graph = knowledge_graph or KnowledgeGraph()
-        return cls(LangchainLLMWrapper(llm), knowledge_graph)
+        return cls(
+            LangchainLLMWrapper(llm), 
+            LangchainEmbeddingsWrapper(embedding_model), 
+            knowledge_graph
+            )
 
     def generate_with_langchain_docs(
         self,
@@ -77,19 +87,26 @@ def generate_with_langchain_docs(
         """
         Generates an evaluation dataset based on given scenarios and parameters.
         """
-        if transforms is None:
-            # use default transforms
-            if transforms_llm is None:
-                transforms_llm = self.llm
-                logger.info("Using TestGenerator.llm for transforms")
-            if transforms_embedding_model is None:
-                raise ValueError(
-                    "embedding_model must be provided for default_transforms. Alternatively you can provide your own transforms through the `transforms` parameter."
+
+        # force the user to provide an llm and embedding client to prevent use of default LLMs
+        if not self.llm and not transforms_llm:
+            raise ValueError(
+                    '''An llm client was not provided. 
+                       Provide an LLM on TestsetGenerator instantiation or as an argument for transforms_llm parameter. 
+                       Alternatively you can provide your own transforms through the `transforms` parameter.'''
+                )
+        if not self.embedding_model and not transforms_embedding_model:
+            raise ValueError(
+                    '''An embedding client was not provided. 
+                       Provide an embedding model on TestsetGenerator instantiation or as an argument for transforms_llm parameter. 
+                       Alternatively you can provide your own transforms through the `transforms` parameter.'''
                 )
+
+        if not transforms:
             transforms = default_transforms(
-                llm=transforms_llm or self.llm,
-                embedding_model=transforms_embedding_model,
-            )
+                    llm=transforms_llm or self.llm,
+                    embedding_model=transforms_embedding_model or self.embedding_model
+                )
 
         # convert the documents to Ragas nodes
         nodes = []