Add langchain embedder (#2303)

regaltsui · web-flow · commit de250e90598d · 2025-03-28T16:30:54.000+01:00
diff --git a/bertopic/backend/__init__.py b/bertopic/backend/__init__.py
@@ -38,6 +38,15 @@
     msg = "`pip install fastembed` \n\n"
     FastEmbedBackend = NotInstalled("FastEmbed", "FastEmbed", custom_msg=msg)
 
+
+# Langchain Embedddings
+try:
+    from bertopic.backend._langchain import LangChainBackend
+except ModuleNotFoundError:
+    msg = "`pip install langchain` \n\n"
+    LangChainBackend = NotInstalled("LangChain", "LangChain", custom_msg=msg)
+
+
 __all__ = [
     "BaseEmbedder",
     "WordDocEmbedder",
@@ -46,5 +55,6 @@
     "Model2VecBackend",
     "MultiModalBackend",
     "FastEmbedBackend",
+    "LangChainBackend",
     "languages",
 ]
diff --git a/bertopic/backend/_langchain.py b/bertopic/backend/_langchain.py
@@ -0,0 +1,43 @@
+from typing import List
+
+import numpy as np
+from bertopic.backend import BaseEmbedder
+from langchain_core.embeddings import Embeddings
+
+
+class LangChainBackend(BaseEmbedder):
+    """LangChain Embedding Model.
+
+    This class uses the LangChain Embedding class to embed the documents.
+    Argument:
+        embedding_model: A LangChain Embedding Instance.
+
+    Examples:
+    ```python
+    from langchain_community.embeddings import HuggingFaceInstructEmbeddings
+    from bertopic.backend import LangChainBackend
+
+    hf_embedding = HuggingFaceInstructEmbeddings()
+    langchain_embedder = LangChainBackend(hf_embedding)
+    ```
+    """
+
+    def __init__(self, embedding_model: Embeddings):
+        self.embedding_model = embedding_model
+
+    def embed(self, documents: List[str], verbose: bool = False) -> np.ndarray:
+        """Embed a list of n documents/words into an n-dimensional
+        matrix of embeddings.
+
+        Arguments:
+            documents: A list of documents or words to be embedded
+            verbose: Controls the verbosity of the process
+
+        Returns:
+            Document/words embeddings with shape (n, m) with `n` documents/words
+            that each have an embeddings size of `m`
+        """
+        # Prepare documents, replacing empty strings with a single space
+        prepared_documents = [" " if doc == "" else doc for doc in documents]
+        response = self.embedding_model.embed_documents(prepared_documents)
+        return np.array(response)
diff --git a/docs/getting_started/embeddings/embeddings.md b/docs/getting_started/embeddings/embeddings.md
@@ -124,6 +124,20 @@ topic_model = BERTopic(embedding_model=embedding_model)
 !!! tip "Tip!"
     These transformers also work quite well using `sentence-transformers` which has great optimizations tricks that make using it a bit faster.
 
+**Langchain**
+[Langchain](https://python.langchain.com/docs/introduction) allows you to use different embedding models supported by various cloud providers. On top of that, it supports various integrations to open source models. To get started:
+
+```python
+from langchain_community.embeddings import HuggingFaceInstructEmbeddings
+from bertopic.backend import LangChainBackend
+
+hf_embedding = HuggingFaceInstructEmbeddings()
+langchain_embedder = LangChainBackend(hf_embedding)
+```
+
+To see what providers are being supported by Langchain, you can check the list [here](https://python.langchain.com/docs/integrations/providers/).
+For more information, you can have a look on [Langchain's Embedding Models](https://python.langchain.com/docs/integrations/text_embedding/).
+
 ## **Flair**
 [Flair](https://github.com/flairNLP/flair) allows you to choose almost any embedding model that
 is publicly available. Flair can be used as follows: