Upgrade int vect for new embedding model

pamelafox · pamelafox · commit e9b822cd8fae · 2025-04-02T15:22:37.000-07:00
diff --git a/app/backend/prepdocslib/integratedvectorizerstrategy.py b/app/backend/prepdocslib/integratedvectorizerstrategy.py
@@ -6,7 +6,6 @@
 )
 from azure.search.documents.indexes.models import (
     AzureOpenAIEmbeddingSkill,
-    FieldMapping,
     IndexProjectionMode,
     InputFieldMappingEntry,
     OutputFieldMappingEntry,
@@ -63,15 +62,18 @@ def __init__(
         self.use_acls = use_acls
         self.category = category
         self.search_info = search_info
+        prefix = f"{self.search_info.index_name}-{self.search_field_name_embedding}"
+        self.skillset_name = f"{prefix}-skillset"
+        self.indexer_name = f"{prefix}-indexer"
+        self.data_source_name = f"{prefix}-blob"
 
     async def create_embedding_skill(self, index_name: str) -> SearchIndexerSkillset:
         """
         Create a skillset for the indexer to chunk documents and generate embeddings
         """
-        skillset_name = f"{index_name}-skillset"
 
         split_skill = SplitSkill(
-            name=f"{index_name}-split-skill",
+            name="split-skill",
             description="Split skill to chunk documents",
             text_split_mode="pages",
             context="/document",
@@ -84,7 +86,7 @@ async def create_embedding_skill(self, index_name: str) -> SearchIndexerSkillset
         )
 
         embedding_skill = AzureOpenAIEmbeddingSkill(
-            name=f"{index_name}-embedding-skill",
+            name="embedding-skill",
             description="Skill to generate embeddings via Azure OpenAI",
             context="/document/pages/*",
             resource_url=f"https://{self.embeddings.open_ai_service}.openai.azure.com",
@@ -94,7 +96,7 @@ async def create_embedding_skill(self, index_name: str) -> SearchIndexerSkillset
             inputs=[
                 InputFieldMappingEntry(name="text", source="/document/pages/*"),
             ],
-            outputs=[OutputFieldMappingEntry(name=self.search_field_name_embedding, target_name="vector")],
+            outputs=[OutputFieldMappingEntry(name="embedding", target_name="vector")],
         )
 
         index_projection = SearchIndexerIndexProjection(
@@ -106,6 +108,8 @@ async def create_embedding_skill(self, index_name: str) -> SearchIndexerSkillset
                     mappings=[
                         InputFieldMappingEntry(name="content", source="/document/pages/*"),
                         InputFieldMappingEntry(name="sourcepage", source="/document/metadata_storage_name"),
+                        InputFieldMappingEntry(name="sourcefile", source="/document/metadata_storage_name"),
+                        InputFieldMappingEntry(name="storageUrl", source="/document/metadata_storage_path"),
                         InputFieldMappingEntry(
                             name=self.search_field_name_embedding, source="/document/pages/*/vector"
                         ),
@@ -118,7 +122,7 @@ async def create_embedding_skill(self, index_name: str) -> SearchIndexerSkillset
         )
 
         skillset = SearchIndexerSkillset(
-            name=skillset_name,
+            name=self.skillset_name,
             description="Skillset to chunk documents and generate embeddings",
             skills=[split_skill, embedding_skill],
             index_projection=index_projection,
@@ -144,7 +148,7 @@ async def setup(self):
         ds_client = self.search_info.create_search_indexer_client()
         ds_container = SearchIndexerDataContainer(name=self.blob_manager.container)
         data_source_connection = SearchIndexerDataSourceConnection(
-            name=f"{self.search_info.index_name}-blob",
+            name=self.data_source_name,
             type=SearchIndexerDataSourceType.AZURE_BLOB,
             connection_string=self.blob_manager.get_managedidentity_connectionstring(),
             container=ds_container,
@@ -174,23 +178,19 @@ async def run(self):
             await self.blob_manager.remove_blob()
 
         # Create an indexer
-        indexer_name = f"{self.search_info.index_name}-indexer"
-
         indexer = SearchIndexer(
-            name=indexer_name,
+            name=self.indexer_name,
             description="Indexer to index documents and generate embeddings",
-            skillset_name=f"{self.search_info.index_name}-skillset",
+            skillset_name=self.skillset_name,
             target_index_name=self.search_info.index_name,
-            data_source_name=f"{self.search_info.index_name}-blob",
-            # Map the metadata_storage_name field to the title field in the index to display the PDF title in the search results
-            field_mappings=[FieldMapping(source_field_name="metadata_storage_name", target_field_name="title")],
+            data_source_name=self.data_source_name,
         )
 
         indexer_client = self.search_info.create_search_indexer_client()
         indexer_result = await indexer_client.create_or_update_indexer(indexer)
 
         # Run the indexer
-        await indexer_client.run_indexer(indexer_name)
+        await indexer_client.run_indexer(self.indexer_name)
         await indexer_client.close()
 
         logger.info(