chore: use intfloat/multilingual-e5-large as default embedding model

vemonet · vemonet · commit 58cbca247285 · 2026-01-22T15:40:13.000+01:00
diff --git a/compose.override.yml b/compose.override.yml
@@ -10,9 +10,11 @@ services:
       - 8000:8000
     environment:
       - DEFAULT_LLM_MODEL=openrouter/openai/gpt-5.1
+      # - AUTO_INIT=false
       # - USE_TOOLS=true
       # - FORCE_REINDEX=true
       # - DEFAULT_LLM_MODEL=openrouter/openai/gpt-5.2
       # - DEFAULT_LLM_MODEL=openrouter/mistralai/mistral-large
       # - DEFAULT_LLM_MODEL=openrouter/anthropic/claude-sonnet-4.5
-    entrypoint: ["uv", "run", "uvicorn", "src.sparql_llm.agent.main:app", "--host", "0.0.0.0", "--port", "8000", "--reload", "--log-config", "logging.yml"]
+    entrypoint: ["uv", "run", "uvicorn", "src.sparql_llm.agent.main:app", "--host", "0.0.0.0", "--port", "8000", "--log-config", "logging.yml"]
+    # entrypoint: ["uv", "run", "uvicorn", "src.sparql_llm.agent.main:app", "--host", "0.0.0.0", "--port", "8000", "--reload", "--log-config", "logging.yml"]
diff --git a/src/sparql_llm/agent/nodes/validation.py b/src/sparql_llm/agent/nodes/validation.py
@@ -31,7 +31,6 @@ async def validate_output(state: State, config: RunnableConfig) -> dict[str, Any
     last_msg = re.sub(r"<think>.*?</think>", "", str(state.messages[-1].content), flags=re.DOTALL)
     validation_steps: list[StepOutput] = []
     recall_messages: list[HumanMessage] = []
-
     validation_outputs = validate_sparql_in_msg(last_msg, endpoints_metadata.prefixes_map, endpoints_metadata.void_dict)
     for validation_output in validation_outputs:
         if validation_output["fixed_query"]:
diff --git a/src/sparql_llm/config.py b/src/sparql_llm/config.py
@@ -131,8 +131,10 @@ class Settings(BaseSettings):
     # vectordb_url: str = "http://vectordb:6334/"
     vectordb_url: str = "data/vectordb"
     # https://qdrant.github.io/fastembed/examples/Supported_Models/#supported-text-embedding-models
-    embedding_model: str = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
-    embedding_dimensions: int = 768
+    # embedding_model: str = "BAAI/bge-small-en-v1.5"
+    # embedding_model: str = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
+    embedding_model: str = "intfloat/multilingual-e5-large"
+
     force_index: bool = False
     # Automatically initialize the vector store client, should be False when deploying in prod with multiple workers
     auto_init: bool = True
diff --git a/src/sparql_llm/indexing/index_entities.py b/src/sparql_llm/indexing/index_entities.py
@@ -257,23 +257,23 @@ def generate_embeddings_for_entities(gpu: bool = False) -> None:
     if qdrant_client.collection_exists(settings.entities_collection_name):
         qdrant_client.delete_collection(settings.entities_collection_name)
 
+    # Process documents in batches to handle millions of entities efficiently
+    embedding_model = TextEmbedding(settings.embedding_model, providers=["CUDAExecutionProvider"] if gpu else None)
+    sparse_embedding_model = SparseTextEmbedding(settings.sparse_embedding_model)
+
     # Initialize collection in Qdrant vectordb with hybrid retrieval mode (dense and sparse vectors)
     # With indexes loaded on disk to avoid OOM errors when indexing large collections
     qdrant_client.create_collection(
         collection_name=settings.entities_collection_name,
         vectors_config=models.VectorParams(
-            size=settings.embedding_dimensions,
+            size=embedding_model.embedding_size,
             distance=models.Distance.COSINE,
             on_disk=True,
         ),
         hnsw_config=models.HnswConfigDiff(on_disk=True),
         sparse_vectors_config={"sparse": models.SparseVectorParams()},
     )
 
-    # Process documents in batches to handle millions of entities efficiently
-    embedding_model = TextEmbedding(settings.embedding_model, providers=["CUDAExecutionProvider"] if gpu else None)
-    sparse_embedding_model = SparseTextEmbedding(settings.sparse_embedding_model)
-
     batch_size = 1000  # Adjust based on your GPU memory and document size
     total_docs = len(docs)
 
diff --git a/src/sparql_llm/indexing/index_resources.py b/src/sparql_llm/indexing/index_resources.py
@@ -162,7 +162,6 @@ def load_expasy_resources_infos(file: str = "expasy_resources_metadata.csv") ->
 def init_vectordb() -> None:
     """Initialize the vectordb with example queries and ontology descriptions from the SPARQL endpoints."""
     docs: list[Document] = []
-    endpoints_metadata._ensure_loaded()
 
     # Gets documents from the SPARQL endpoints
     for endpoint in settings.endpoints:
@@ -227,7 +226,7 @@ def init_vectordb() -> None:
         qdrant_client.delete_collection(settings.docs_collection_name)
     qdrant_client.create_collection(
         collection_name=settings.docs_collection_name,
-        vectors_config=VectorParams(size=settings.embedding_dimensions, distance=Distance.COSINE),
+        vectors_config=VectorParams(size=embedding_model.embedding_size, distance=Distance.COSINE),
     )
 
     # Generate embeddings with the fastembed `TextEmbedding` instance and upload directly to Qdrant
diff --git a/src/sparql_llm/mcp_server.py b/src/sparql_llm/mcp_server.py
@@ -9,6 +9,7 @@
 from sparql_llm.utils import endpoints_metadata, logger, query_sparql
 from sparql_llm.validate_sparql import validate_sparql
 
+logger
 # What are the rat orthologs of the human TP53?
 # TODO: MCP integrated https://github.com/modelcontextprotocol/python-sdk/pull/1007
 
diff --git a/src/sparql_llm/utils.py b/src/sparql_llm/utils.py
@@ -201,6 +201,7 @@ def __init__(self, endpoints: list[SparqlEndpointLinks], auto_init: bool = True)
         self._void_dict: EndpointsSchemaDict = {}
         self._initialized = False
         if auto_init:
+            logger.info("Auto-initializing endpoints metadata...")
             self._ensure_loaded()
 
     def _ensure_loaded(self) -> None:
diff --git a/tests/benchmark_biodata.py b/tests/benchmark_biodata.py
@@ -305,7 +305,7 @@ def main() -> None:
                 qdrant_client.delete_collection(vector_collection)
             qdrant_client.create_collection(
                 collection_name=vector_collection,
-                vectors_config=VectorParams(size=settings.embedding_dimensions, distance=Distance.COSINE),
+                vectors_config=VectorParams(size=embedding_model.embedding_size, distance=Distance.COSINE),
             )
 
             # Generate embeddings and add documents to vectordb
diff --git a/tutorial/app.py b/tutorial/app.py
@@ -97,15 +97,14 @@ def load_chat_model(model: str) -> BaseChatModel:
     "BAAI/bge-small-en-v1.5",
     # providers=["CUDAExecutionProvider"], # Replace the fastembed dependency with fastembed-gpu to use your GPUs
 )
-embedding_dimensions = 384
 
 collection_name = "sparql-docs"
 vectordb = QdrantClient(path="data/vectordb")
 # vectordb = QdrantClient(location=":memory:")
 # vectordb = QdrantClient(host="localhost", prefer_grpc=True)
 
 
-def index_endpoints():
+def index_endpoints() -> None:
     """Index SPARQL endpoints metadata in the vector database."""
     docs: list[Document] = []
     for endpoint in endpoints:
@@ -124,7 +123,7 @@ def index_endpoints():
         vectordb.delete_collection(collection_name)
     vectordb.create_collection(
         collection_name=collection_name,
-        vectors_config=VectorParams(size=embedding_dimensions, distance=Distance.COSINE),
+        vectors_config=VectorParams(size=embedding_model.embedding_size, distance=Distance.COSINE),
     )
 
     embeddings = embedding_model.embed([q.page_content for q in docs])
@@ -223,7 +222,7 @@ def execute_query(last_msg: str) -> list[dict[str, str]]:
 
 
 @cl.on_message
-async def on_message(msg: cl.Message):
+async def on_message(msg: cl.Message) -> None:
     """Main function to handle when user send a message to the assistant."""
     retrieved_docs = retrieve_docs(msg.content)
     formatted_docs = "\n".join(format_doc(doc) for doc in retrieved_docs)
@@ -292,7 +291,7 @@ async def set_starters():
 # uv run --env-file .env app.py
 
 
-async def main():
+async def main() -> None:
     question = "What are the rat orthologs of human TP53?"
 
     logging.info("\n\n###### 🙉 Without context retrieval ########\n\n")
diff --git a/tutorial/index.py b/tutorial/index.py
@@ -26,7 +26,6 @@
     "BAAI/bge-small-en-v1.5",
     # providers=["CUDAExecutionProvider"], # Replace the fastembed dependency with fastembed-gpu to use your GPUs
 )
-embedding_dimensions = 384
 
 vectordb = QdrantClient(host="localhost", prefer_grpc=True)
 collection_name = "sparql-docs"
@@ -53,7 +52,7 @@ def index_endpoints() -> None:
         vectordb.delete_collection(collection_name)
     vectordb.create_collection(
         collection_name=collection_name,
-        vectors_config=VectorParams(size=embedding_dimensions, distance=Distance.COSINE),
+        vectors_config=VectorParams(size=embedding_model.embedding_size, distance=Distance.COSINE),
     )
 
     embeddings = embedding_model.embed([q.page_content for q in docs])
diff --git a/tutorial/mcp_server.py b/tutorial/mcp_server.py
@@ -13,7 +13,6 @@
 @dataclass
 class ServerConfig:
     embedding_name: str = "BAAI/bge-small-en-v1.5"
-    embedding_dimensions: int = 384
     retrieved_docs_count: int = 5
     collection_name: str = "sparql-docs"
     vectordb_host: str = os.getenv("VECTORDB_HOST", "localhost")
@@ -113,12 +112,14 @@ def format_docs(docs: list[ScoredPoint]) -> str:
 
 def _format_doc(doc: ScoredPoint) -> str:
     """Format a question/answer document to be provided as context to the model."""
+    if not doc.payload:
+        return ""
     doc_lang = (
         f"sparql\n#+ endpoint: {doc.payload.get('endpoint_url', 'not provided')}"
         if "query" in doc.payload.get("doc_type", "")
         else ""
     )
-    return f"\n{doc.payload['question']} ({doc.payload.get('endpoint_url', '')}):\n\n```{doc_lang}\n{doc.payload.get('answer')}\n```\n\n"
+    return f"\n{doc.payload.get('question', '')} ({doc.payload.get('endpoint_url', '')}):\n\n```{doc_lang}\n{doc.payload.get('answer')}\n```\n\n"
 
 
 PROMPT_TOOL_SPARQL = """Depending on the user request and provided context, you may provide general information about
diff --git a/tutorial/slides/public/slides.md b/tutorial/slides/public/slides.md
@@ -259,7 +259,6 @@ from qdrant_client import QdrantClient
 
 ## 2. Set up vector database for document retrieval
 embedding_model = TextEmbedding("BAAI/bge-small-en-v1.5")
-embedding_dimensions = 384
 collection_name = "sparql-docs"
 vectordb = QdrantClient(path="data/vectordb")
 ```
@@ -306,7 +305,7 @@ def index_endpoints():
         vectordb.delete_collection(collection_name)
     vectordb.create_collection(
         collection_name=collection_name,
-        vectors_config=VectorParams(size=embedding_dimensions, distance=Distance.COSINE),
+        vectors_config=VectorParams(size=embedding_model.embedding_size, distance=Distance.COSINE),
     )
     embeddings = embedding_model.embed([q.page_content for q in docs])
     vectordb.upload_collection(

Original file line number	Diff line number	Diff line change
`@@ -305,7 +305,7 @@ def main() -> None:`
`305`	`305`	`qdrant_client.delete_collection(vector_collection)`
`306`	`306`	`qdrant_client.create_collection(`
`307`	`307`	`collection_name=vector_collection,`
`308`		`- vectors_config=VectorParams(size=settings.embedding_dimensions, distance=Distance.COSINE),`
	`308`	`+ vectors_config=VectorParams(size=embedding_model.embedding_size, distance=Distance.COSINE),`
`309`	`309`	`)`
`310`	`310`
`311`	`311`	`# Generate embeddings and add documents to vectordb`
Original file line number	Diff line number	Diff line change
`@@ -26,7 +26,6 @@`
`26`	`26`	`"BAAI/bge-small-en-v1.5",`
`27`	`27`	`# providers=["CUDAExecutionProvider"], # Replace the fastembed dependency with fastembed-gpu to use your GPUs`
`28`	`28`	`)`
`29`		`-embedding_dimensions = 384`
`30`	`29`
`31`	`30`	`vectordb = QdrantClient(host="localhost", prefer_grpc=True)`
`32`	`31`	`collection_name = "sparql-docs"`
`@@ -53,7 +52,7 @@ def index_endpoints() -> None:`
`53`	`52`	`vectordb.delete_collection(collection_name)`
`54`	`53`	`vectordb.create_collection(`
`55`	`54`	`collection_name=collection_name,`
`56`		`- vectors_config=VectorParams(size=embedding_dimensions, distance=Distance.COSINE),`
	`55`	`+ vectors_config=VectorParams(size=embedding_model.embedding_size, distance=Distance.COSINE),`
`57`	`56`	`)`
`58`	`57`
`59`	`58`	`embeddings = embedding_model.embed([q.page_content for q in docs])`