More embedding related changes

pamelafox · pamelafox · commit 1b3d1005cfe7 · 2025-04-01T10:41:29.000-07:00
diff --git a/app/backend/app.py b/app/backend/app.py
@@ -456,6 +456,8 @@ async def setup_clients():
     AZURE_SEARCH_QUERY_SPELLER = os.getenv("AZURE_SEARCH_QUERY_SPELLER") or "lexicon"
     AZURE_SEARCH_SEMANTIC_RANKER = os.getenv("AZURE_SEARCH_SEMANTIC_RANKER", "free").lower()
     AZURE_SEARCH_QUERY_REWRITING = os.getenv("AZURE_SEARCH_QUERY_REWRITING", "false").lower()
+    # This defaults to the previous field name "embedding", for backwards compatibility
+    AZURE_SEARCH_FIELD_NAME_EMBEDDING = os.getenv("AZURE_SEARCH_FIELD_NAME_EMBEDDING", "embedding")
 
     AZURE_SPEECH_SERVICE_ID = os.getenv("AZURE_SPEECH_SERVICE_ID")
     AZURE_SPEECH_SERVICE_LOCATION = os.getenv("AZURE_SPEECH_SERVICE_LOCATION")
@@ -662,6 +664,7 @@ async def setup_clients():
         embedding_model=OPENAI_EMB_MODEL,
         embedding_deployment=AZURE_OPENAI_EMB_DEPLOYMENT,
         embedding_dimensions=OPENAI_EMB_DIMENSIONS,
+        embedding_field=AZURE_SEARCH_FIELD_NAME_EMBEDDING,
         sourcepage_field=KB_FIELDS_SOURCEPAGE,
         content_field=KB_FIELDS_CONTENT,
         query_language=AZURE_SEARCH_QUERY_LANGUAGE,
@@ -679,6 +682,7 @@ async def setup_clients():
         embedding_model=OPENAI_EMB_MODEL,
         embedding_deployment=AZURE_OPENAI_EMB_DEPLOYMENT,
         embedding_dimensions=OPENAI_EMB_DIMENSIONS,
+        embedding_field=AZURE_SEARCH_FIELD_NAME_EMBEDDING,
         sourcepage_field=KB_FIELDS_SOURCEPAGE,
         content_field=KB_FIELDS_CONTENT,
         query_language=AZURE_SEARCH_QUERY_LANGUAGE,
@@ -704,6 +708,7 @@ async def setup_clients():
             embedding_model=OPENAI_EMB_MODEL,
             embedding_deployment=AZURE_OPENAI_EMB_DEPLOYMENT,
             embedding_dimensions=OPENAI_EMB_DIMENSIONS,
+            embedding_field=AZURE_SEARCH_FIELD_NAME_EMBEDDING,
             sourcepage_field=KB_FIELDS_SOURCEPAGE,
             content_field=KB_FIELDS_CONTENT,
             query_language=AZURE_SEARCH_QUERY_LANGUAGE,
@@ -725,6 +730,7 @@ async def setup_clients():
             embedding_model=OPENAI_EMB_MODEL,
             embedding_deployment=AZURE_OPENAI_EMB_DEPLOYMENT,
             embedding_dimensions=OPENAI_EMB_DIMENSIONS,
+            embedding_field=AZURE_SEARCH_FIELD_NAME_EMBEDDING,
             sourcepage_field=KB_FIELDS_SOURCEPAGE,
             content_field=KB_FIELDS_CONTENT,
             query_language=AZURE_SEARCH_QUERY_LANGUAGE,
diff --git a/app/backend/approaches/approach.py b/app/backend/approaches/approach.py
@@ -47,6 +47,8 @@ def serialize_for_results(self) -> dict[str, Any]:
         result_dict = {
             "id": self.id,
             "content": self.content,
+            # Should we rename to its actual field name in the index?
+            "embedding": Document.trim_embedding(self.embedding),
             "imageEmbedding": Document.trim_embedding(self.image_embedding),
             "category": self.category,
             "sourcepage": self.sourcepage,
@@ -68,7 +70,6 @@ def serialize_for_results(self) -> dict[str, Any]:
             "score": self.score,
             "reranker_score": self.reranker_score,
         }
-        result_dict[self.embedding_field] = Document.trim_embedding(self.embedding)
         return result_dict
 
     @classmethod
@@ -258,7 +259,7 @@ class ExtraArgs(TypedDict, total=False):
         )
         query_vector = embedding.data[0].embedding
         # TODO: use optimizations from rag time journey 3
-        return VectorizedQuery(vector=query_vector, k_nearest_neighbors=50, fields=self.embedding)
+        return VectorizedQuery(vector=query_vector, k_nearest_neighbors=50, fields=self.embedding_field)
 
     async def compute_image_embedding(self, q: str):
         endpoint = urljoin(self.vision_endpoint, "computervision/retrieval:vectorizeText")
diff --git a/app/backend/approaches/chatreadretrieveread.py b/app/backend/approaches/chatreadretrieveread.py
@@ -34,6 +34,7 @@ def __init__(
         embedding_deployment: Optional[str],  # Not needed for non-Azure OpenAI or for retrieval_mode="text"
         embedding_model: str,
         embedding_dimensions: int,
+        embedding_field: str,
         sourcepage_field: str,
         content_field: str,
         query_language: str,
@@ -48,6 +49,7 @@ def __init__(
         self.embedding_deployment = embedding_deployment
         self.embedding_model = embedding_model
         self.embedding_dimensions = embedding_dimensions
+        self.embedding_field = embedding_field
         self.sourcepage_field = sourcepage_field
         self.content_field = content_field
         self.query_language = query_language
diff --git a/app/backend/approaches/retrievethenread.py b/app/backend/approaches/retrievethenread.py
@@ -28,6 +28,7 @@ def __init__(
         embedding_model: str,
         embedding_deployment: Optional[str],  # Not needed for non-Azure OpenAI or for retrieval_mode="text"
         embedding_dimensions: int,
+        embedding_field: str,
         sourcepage_field: str,
         content_field: str,
         query_language: str,
@@ -43,6 +44,7 @@ def __init__(
         self.embedding_dimensions = embedding_dimensions
         self.chatgpt_deployment = chatgpt_deployment
         self.embedding_deployment = embedding_deployment
+        self.embedding_field = embedding_field
         self.sourcepage_field = sourcepage_field
         self.content_field = content_field
         self.query_language = query_language
diff --git a/app/backend/prepdocslib/searchmanager.py b/app/backend/prepdocslib/searchmanager.py
@@ -6,8 +6,10 @@
 from azure.search.documents.indexes.models import (
     AzureOpenAIVectorizer,
     AzureOpenAIVectorizerParameters,
+    BinaryQuantizationCompression,
     HnswAlgorithmConfiguration,
     HnswParameters,
+    RescoringOptions,
     SearchableField,
     SearchField,
     SearchFieldDataType,
@@ -18,8 +20,8 @@
     SemanticSearch,
     SimpleField,
     VectorSearch,
+    VectorSearchCompressionRescoreStorageMethod,
     VectorSearchProfile,
-    VectorSearchVectorizer,
 )
 
 from .blobmanager import BlobManager
@@ -69,11 +71,44 @@ def __init__(
         self.embedding_field = embedding_field
         self.search_images = search_images
 
-    async def create_index(self, vectorizers: Optional[List[VectorSearchVectorizer]] = None):
+    async def create_index(self):
         logger.info("Checking whether search index %s exists...", self.search_info.index_name)
 
         async with self.search_info.create_search_index_client() as search_index_client:
 
+            vectorizer = None
+            embedding_field = None
+            if self.embeddings and isinstance(self.embeddings, AzureOpenAIEmbeddingService):
+                vectorizer = AzureOpenAIVectorizer(
+                    vectorizer_name=f"{self.search_info.index_name}-vectorizer",
+                    parameters=AzureOpenAIVectorizerParameters(
+                        resource_url=self.embeddings.open_ai_endpoint,
+                        deployment_name=self.embeddings.open_ai_deployment,
+                        model_name=self.embeddings.open_ai_model_name,
+                    ),
+                )
+            if self.embeddings:
+                if self.embedding_dimensions is None:
+                    raise ValueError(
+                        "Embedding dimensions must be set in order to add an embedding field to the search index"
+                    )
+                if self.embedding_field is None:
+                    raise ValueError(
+                        "Embedding field must be set in order to add an embedding field to the search index"
+                    )
+                embedding_field = SearchField(
+                    name=self.embedding_field,
+                    type=SearchFieldDataType.Collection(SearchFieldDataType.Single),
+                    hidden=True,
+                    searchable=True,
+                    filterable=False,
+                    sortable=False,
+                    facetable=False,
+                    vector_search_dimensions=self.embedding_dimensions,
+                    vector_search_profile_name="embedding_config",
+                    stored=False,
+                )
+
             if self.search_info.index_name not in [name async for name in search_index_client.list_index_names()]:
                 logger.info("Creating new search index %s", self.search_info.index_name)
                 fields = [
@@ -95,17 +130,6 @@ async def create_index(self, vectorizers: Optional[List[VectorSearchVectorizer]]
                         type="Edm.String",
                         analyzer_name=self.search_analyzer_name,
                     ),
-                    SearchField(
-                        name=self.embedding_field,
-                        type=SearchFieldDataType.Collection(SearchFieldDataType.Single),
-                        hidden=False,
-                        searchable=True,
-                        filterable=False,
-                        sortable=False,
-                        facetable=False,
-                        vector_search_dimensions=self.embedding_dimensions,
-                        vector_search_profile_name="embedding_config",
-                    ),
                     SimpleField(name="category", type="Edm.String", filterable=True, facetable=True),
                     SimpleField(
                         name="sourcepage",
@@ -160,27 +184,50 @@ async def create_index(self, vectorizers: Optional[List[VectorSearchVectorizer]]
                         ),
                     )
 
-                vectorizers = []
-                if self.embeddings and isinstance(self.embeddings, AzureOpenAIEmbeddingService):
-                    logger.info(
-                        "Including vectorizer for search index %s, using Azure OpenAI service %s",
-                        self.search_info.index_name,
-                        self.embeddings.open_ai_service,
-                    )
-                    vectorizers.append(
-                        AzureOpenAIVectorizer(
-                            vectorizer_name=f"{self.search_info.index_name}-vectorizer",
-                            parameters=AzureOpenAIVectorizerParameters(
-                                resource_url=self.embeddings.open_ai_endpoint,
-                                deployment_name=self.embeddings.open_ai_deployment,
-                                model_name=self.embeddings.open_ai_model_name,
-                            ),
+                vector_search = None
+                if self.embeddings:
+                    logger.info("Including embedding field in new index %s", self.search_info.index_name)
+                    fields.append(embedding_field)
+
+                    vectorizers = []
+                    if vectorizer is not None:
+                        logger.info("Including vectorizer in new index %s", self.search_info.index_name)
+                        vectorizers.append(vectorizer)
+                    else:
+                        logger.info(
+                            "New index %s will not have vectorizer, since no Azure OpenAI service is set",
+                            self.search_info.index_name,
                         )
-                    )
-                else:
-                    logger.info(
-                        "Not including vectorizer for search index %s, no Azure OpenAI service found",
-                        self.search_info.index_name,
+
+                    vector_search = VectorSearch(
+                        profiles=[
+                            VectorSearchProfile(
+                                name="embedding_config",
+                                algorithm_configuration_name="hnsw_config",
+                                compression_name="binary-quantization",
+                                **({"vectorizer_name": vectorizer.vectorizer_name if vectorizer else None}),
+                            ),
+                        ],
+                        algorithms=[
+                            HnswAlgorithmConfiguration(
+                                name="hnsw_config",
+                                parameters=HnswParameters(metric="cosine"),
+                            )
+                        ],
+                        vectorizers=vectorizers,
+                        compressions=[
+                            BinaryQuantizationCompression(
+                                compression_name="binary-quantization",
+                                rescoring_options=RescoringOptions(
+                                    enable_rescoring=True,
+                                    default_oversampling=10,
+                                    rescore_storage_method=VectorSearchCompressionRescoreStorageMethod.PRESERVE_ORIGINALS,
+                                ),
+                                # Explicitly set deprecated parameters to None
+                                rerank_with_original_vectors=None,
+                                default_oversampling=None,
+                            )
+                        ],
                     )
 
                 index = SearchIndex(
@@ -196,22 +243,7 @@ async def create_index(self, vectorizers: Optional[List[VectorSearchVectorizer]]
                             )
                         ]
                     ),
-                    vector_search=VectorSearch(
-                        algorithms=[
-                            HnswAlgorithmConfiguration(
-                                name="hnsw_config",
-                                parameters=HnswParameters(metric="cosine"),
-                            )
-                        ],
-                        profiles=[
-                            VectorSearchProfile(
-                                name="embedding_config",
-                                algorithm_configuration_name="hnsw_config",
-                                vectorizer_name=(f"{self.search_info.index_name}-vectorizer"),
-                            ),
-                        ],
-                        vectorizers=vectorizers,
-                    ),
+                    vector_search=vector_search,
                 )
 
                 await search_index_client.create_index(index)
@@ -229,45 +261,23 @@ async def create_index(self, vectorizers: Optional[List[VectorSearchVectorizer]]
                         ),
                     )
                     await search_index_client.create_or_update_index(existing_index)
-                # check if embedding field exists
-                if not any(field.name == self.embedding_field for field in existing_index.fields):
+                # check if embedding field exists - TODO: will this really work if we havent redfined vector search?
+                if self.embeddings and not any(field.name == self.embedding_field for field in existing_index.fields):
                     logger.info("Adding embedding field to index %s", self.search_info.index_name)
-                    existing_index.fields.append(
-                        SearchField(
-                            name=self.embedding_field,
-                            type=SearchFieldDataType.Collection(SearchFieldDataType.Single),
-                            hidden=False,
-                            searchable=True,
-                            filterable=False,
-                            sortable=False,
-                            facetable=False,
-                            # TODO: use optimizations here
-                            vector_search_dimensions=self.embedding_dimensions,
-                            vector_search_profile_name="embedding_config",
-                        ),
-                    )
+                    existing_index.fields.append(embedding_field)
                     await search_index_client.create_or_update_index(existing_index)
                 if existing_index.vector_search is not None and (
                     existing_index.vector_search.vectorizers is None
                     or len(existing_index.vector_search.vectorizers) == 0
                 ):
                     if self.embeddings is not None and isinstance(self.embeddings, AzureOpenAIEmbeddingService):
                         logger.info("Adding vectorizer to search index %s", self.search_info.index_name)
-                        existing_index.vector_search.vectorizers = [
-                            AzureOpenAIVectorizer(
-                                vectorizer_name=f"{self.search_info.index_name}-vectorizer",
-                                parameters=AzureOpenAIVectorizerParameters(
-                                    resource_url=self.embeddings.open_ai_endpoint,
-                                    deployment_name=self.embeddings.open_ai_deployment,
-                                    model_name=self.embeddings.open_ai_model_name,
-                                ),
-                            )
-                        ]
+                        existing_index.vector_search.vectorizers = [vectorizer]
                         await search_index_client.create_or_update_index(existing_index)
                     else:
                         logger.info(
-                            "Can't add vectorizer to search index %s since no Azure OpenAI embeddings service is defined",
-                            self.search_info,
+                            "Search index %s will not have vectorizer, since no Azure OpenAI service is set",
+                            self.search_info.index_name,
                         )
 
     async def update_content(
diff --git a/app/backend/requirements.txt b/app/backend/requirements.txt
@@ -57,7 +57,7 @@ azure-monitor-opentelemetry==1.6.1
     # via -r requirements.in
 azure-monitor-opentelemetry-exporter==1.0.0b32
     # via azure-monitor-opentelemetry
-azure-search-documents==11.6.0b9
+azure-search-documents==11.6.0b11
     # via -r requirements.in
 azure-storage-blob==12.22.0
     # via
diff --git a/infra/main.bicep b/infra/main.bicep
@@ -27,6 +27,7 @@ param searchIndexName string // Set in main.parameters.json
 param searchQueryLanguage string // Set in main.parameters.json
 param searchQuerySpeller string // Set in main.parameters.json
 param searchServiceSemanticRankerLevel string // Set in main.parameters.json
+param searchFieldNameEmbedding string // Set in main.parameters.json
 var actualSearchServiceSemanticRankerLevel = (searchServiceSkuName == 'free')
   ? 'disabled'
   : searchServiceSemanticRankerLevel
@@ -390,6 +391,7 @@ var appEnvVariables = {
   AZURE_VISION_ENDPOINT: useGPT4V ? computerVision.outputs.endpoint : ''
   AZURE_SEARCH_QUERY_LANGUAGE: searchQueryLanguage
   AZURE_SEARCH_QUERY_SPELLER: searchQuerySpeller
+  AZURE_SEARCH_FIELD_NAME_EMBEDDING: searchFieldNameEmbedding
   APPLICATIONINSIGHTS_CONNECTION_STRING: useApplicationInsights
     ? monitoring.outputs.applicationInsightsConnectionString
     : ''
@@ -1284,6 +1286,7 @@ output AZURE_SEARCH_SERVICE string = searchService.outputs.name
 output AZURE_SEARCH_SERVICE_RESOURCE_GROUP string = searchServiceResourceGroup.name
 output AZURE_SEARCH_SEMANTIC_RANKER string = actualSearchServiceSemanticRankerLevel
 output AZURE_SEARCH_SERVICE_ASSIGNED_USERID string = searchService.outputs.principalId
+output AZURE_SEARCH_FIELD_NAME_EMBEDDING string = searchFieldNameEmbedding
 
 output AZURE_COSMOSDB_ACCOUNT string = (useAuthentication && useChatHistoryCosmos) ? cosmosDb.outputs.name : ''
 output AZURE_CHAT_HISTORY_DATABASE string = chatHistoryDatabaseName
diff --git a/infra/main.parameters.json b/infra/main.parameters.json
@@ -83,6 +83,9 @@
     "searchServiceQueryRewriting": {
       "value": "${AZURE_SEARCH_QUERY_REWRITING=false}"
     },
+    "searchFieldNameEmbedding": {
+      "value": "${AZURE_SEARCH_FIELD_NAME_EMBEDDING=embedding3}"
+    },
     "storageAccountName": {
       "value": "${AZURE_STORAGE_ACCOUNT}"
     },
diff --git a/tests/e2e.py b/tests/e2e.py
@@ -57,6 +57,8 @@ def run_server(port: int):
             "AZURE_SPEECH_SERVICE_LOCATION": "eastus",
             "AZURE_OPENAI_SERVICE": "test-openai-service",
             "AZURE_OPENAI_CHATGPT_MODEL": "gpt-4o-mini",
+            "AZURE_OPENAI_EMB_MODEL_NAME": "text-embedding-3-large",
+            "AZURE_OPENAI_EMB_DIMENSIONS": "3072",
         },
         clear=True,
     ):