fix InferenceServiceNodeLocalRateLimitCalculatorTests

brendan-jugan-elastic · brendan-jugan-elastic · commit 5ca4cb7b83a7 · 2025-04-02T17:36:57.000-04:00
diff --git a/server/src/main/java/org/elasticsearch/TransportVersions.java b/server/src/main/java/org/elasticsearch/TransportVersions.java
@@ -208,7 +208,6 @@ static TransportVersion def(int id) {
     public static final TransportVersion PROJECT_ID_IN_SNAPSHOT = def(9_040_0_00);
     public static final TransportVersion INDEX_STATS_AND_METADATA_INCLUDE_PEAK_WRITE_LOAD = def(9_041_0_00);
     public static final TransportVersion REPOSITORIES_METADATA_AS_PROJECT_CUSTOM = def(9_042_0_00);
-    public static final TransportVersion INFERENCE_REQUEST_SERVICE_TASK_TYPE_RATE_LIMITING = def(9_043_0_00);
 
     /*
      * STOP! READ THIS FIRST! No, really,
diff --git a/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/common/InferenceServiceNodeLocalRateLimitCalculator.java b/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/common/InferenceServiceNodeLocalRateLimitCalculator.java
@@ -103,148 +103,14 @@ private SortedMap<String, SortedMap<TaskType, MaxNodesPerGroupingStrategy>> crea
 
         MaxNodesPerGroupingStrategy defaultStrategy = (numNodesInCluster) -> DEFAULT_MAX_NODES_PER_GROUPING;
 
-        // Alibaba Cloud Search
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> alibabaCloudSearchConfigs = new TreeMap<>();
-        var alibabaCloudSearchService = serviceRegistry.getService(AlibabaCloudSearchService.NAME);
-        if (alibabaCloudSearchService.isPresent()) {
-            var alibabaCloudSearchTaskTypes = alibabaCloudSearchService.get().supportedTaskTypes();
-            for (TaskType taskType : alibabaCloudSearchTaskTypes) {
-                alibabaCloudSearchConfigs.put(taskType, defaultStrategy);
+        for (var service : serviceRegistry.getServices().values()) {
+            TreeMap<TaskType, MaxNodesPerGroupingStrategy> serviceConfigs = new TreeMap<>();
+            var taskTypes = service.supportedTaskTypes();
+            for (TaskType taskType : taskTypes) {
+                serviceConfigs.put(taskType, defaultStrategy);
             }
+            serviceNodeLocalRateLimitConfigs.put(service.name(), serviceConfigs);
         }
-        serviceNodeLocalRateLimitConfigs.put(AlibabaCloudSearchService.NAME, alibabaCloudSearchConfigs);
-
-        // Amazon Bedrock
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> amazonBedrockConfigs = new TreeMap<>();
-        var amazonBedrockService = serviceRegistry.getService(AmazonBedrockService.NAME);
-        if (amazonBedrockService.isPresent()) {
-            var amazonBedrockTaskTypes = amazonBedrockService.get().supportedTaskTypes();
-            for (TaskType taskType : amazonBedrockTaskTypes) {
-                amazonBedrockConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(AmazonBedrockService.NAME, amazonBedrockConfigs);
-
-        // Anthropic
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> anthropicConfigs = new TreeMap<>();
-        var anthropicService = serviceRegistry.getService(AnthropicService.NAME);
-        if (anthropicService.isPresent()) {
-            var anthropicTaskTypes = anthropicService.get().supportedTaskTypes();
-            for (TaskType taskType : anthropicTaskTypes) {
-                anthropicConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(AnthropicService.NAME, anthropicConfigs);
-
-        // Azure AI Studio
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> azureAiStudioConfigs = new TreeMap<>();
-        var azureAiStudioService = serviceRegistry.getService(AzureAiStudioService.NAME);
-        if (azureAiStudioService.isPresent()) {
-            var azureAiStudioTaskTypes = azureAiStudioService.get().supportedTaskTypes();
-            for (TaskType taskType : azureAiStudioTaskTypes) {
-                azureAiStudioConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(AzureAiStudioService.NAME, azureAiStudioConfigs);
-
-        // Cohere
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> cohereConfigs = new TreeMap<>();
-        var cohereService = serviceRegistry.getService(CohereService.NAME);
-        if (cohereService.isPresent()) {
-            var cohereTaskTypes = cohereService.get().supportedTaskTypes();
-            for (TaskType taskType : cohereTaskTypes) {
-                cohereConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(CohereService.NAME, cohereConfigs);
-
-        // DeepSeek
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> deepSeekConfigs = new TreeMap<>();
-        var deepSeekService = serviceRegistry.getService(DeepSeekService.NAME);
-        if (deepSeekService.isPresent()) {
-            var deepSeekTaskTypes = deepSeekService.get().supportedTaskTypes();
-            for (TaskType taskType : deepSeekTaskTypes) {
-                deepSeekConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(DeepSeekService.NAME, deepSeekConfigs);
-
-        // Elastic Inference Service (EIS)
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> elasticInferenceConfigs = new TreeMap<>();
-        var elasticInferenceService = serviceRegistry.getService(ElasticInferenceService.NAME);
-        if (elasticInferenceService.isPresent()) {
-            var elasticInferenceTaskTypes = elasticInferenceService.get().supportedTaskTypes();
-            for (TaskType taskType : elasticInferenceTaskTypes) {
-                elasticInferenceConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(ElasticInferenceService.NAME, elasticInferenceConfigs);
-
-        // Google AI Studio
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> googleAiStudioConfigs = new TreeMap<>();
-        var googleAiStudioService = serviceRegistry.getService(GoogleAiStudioService.NAME);
-        if (googleAiStudioService.isPresent()) {
-            var googleAiStudioTaskTypes = googleAiStudioService.get().supportedTaskTypes();
-            for (TaskType taskType : googleAiStudioTaskTypes) {
-                googleAiStudioConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(GoogleAiStudioService.NAME, googleAiStudioConfigs);
-
-        // Google Vertex AI
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> googleVertexAiConfigs = new TreeMap<>();
-        var googleVertexAiService = serviceRegistry.getService(GoogleVertexAiService.NAME);
-        if (googleVertexAiService.isPresent()) {
-            var googleVertexAiTaskTypes = googleVertexAiService.get().supportedTaskTypes();
-            for (TaskType taskType : googleVertexAiTaskTypes) {
-                googleVertexAiConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(GoogleVertexAiService.NAME, googleVertexAiConfigs);
-
-        // HuggingFace
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> huggingFaceConfigs = new TreeMap<>();
-        var huggingFaceService = serviceRegistry.getService(HuggingFaceService.NAME);
-        if (huggingFaceService.isPresent()) {
-            var huggingFaceTaskTypes = huggingFaceService.get().supportedTaskTypes();
-            for (TaskType taskType : huggingFaceTaskTypes) {
-                huggingFaceConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(HuggingFaceService.NAME, huggingFaceConfigs);
-
-        // IBM Watson X
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> ibmWatsonxConfigs = new TreeMap<>();
-        var ibmWatsonxService = serviceRegistry.getService(IbmWatsonxService.NAME);
-        if (ibmWatsonxService.isPresent()) {
-            var ibmWatsonxTaskTypes = ibmWatsonxService.get().supportedTaskTypes();
-            for (TaskType taskType : ibmWatsonxTaskTypes) {
-                ibmWatsonxConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(IbmWatsonxService.NAME, ibmWatsonxConfigs);
-
-        // Jina AI
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> jinaAiConfigs = new TreeMap<>();
-        var jinaAiService = serviceRegistry.getService(JinaAIService.NAME);
-        if (jinaAiService.isPresent()) {
-            var jinaAiTaskTypes = jinaAiService.get().supportedTaskTypes();
-            for (TaskType taskType : jinaAiTaskTypes) {
-                jinaAiConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(JinaAIService.NAME, jinaAiConfigs);
-
-        // Mistral
-        TreeMap<TaskType, MaxNodesPerGroupingStrategy> mistralConfigs = new TreeMap<>();
-        var mistralService = serviceRegistry.getService(MistralService.NAME);
-        if (mistralService.isPresent()) {
-            var mistralTaskTypes = mistralService.get().supportedTaskTypes();
-            for (TaskType taskType : mistralTaskTypes) {
-                mistralConfigs.put(taskType, defaultStrategy);
-            }
-        }
-        serviceNodeLocalRateLimitConfigs.put(MistralService.NAME, mistralConfigs);
 
         return Collections.unmodifiableSortedMap(serviceNodeLocalRateLimitConfigs);
     }
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/common/InferenceServiceNodeLocalRateLimitCalculatorTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/common/InferenceServiceNodeLocalRateLimitCalculatorTests.java
@@ -13,6 +13,7 @@
 import org.elasticsearch.test.InternalTestCluster;
 import org.elasticsearch.xpack.inference.LocalStateInferencePlugin;
 import org.elasticsearch.xpack.inference.external.http.sender.HttpRequestSender;
+import org.elasticsearch.xpack.inference.mock.TestSparseInferenceServiceExtension;
 import org.elasticsearch.xpack.inference.services.SenderService;
 import org.elasticsearch.xpack.inference.services.elastic.ElasticInferenceService;
 
@@ -88,13 +89,12 @@ public void testNumberOfNodesPerGroup_Decreases_When_NodeLeavesCluster() throws
 
         // Check assignments for each supported service
         for (var service : supportedServices) {
-            var assignment = calculator.getRateLimitAssignment(service, TaskType.SPARSE_EMBEDDING);
-
-            assertNotNull(assignment);
-            // Should have exactly one responsible node
-            assertEquals(1, assignment.responsibleNodes().size());
-            // That node should be our remaining node
-            assertEquals(nodeLeftInCluster, assignment.responsibleNodes().get(0).getName());
+            for (var taskType : calculator.serviceNodeLocalRateLimitConfigs().get(service).keySet()) {
+                var assignment = calculator.getRateLimitAssignment(service, taskType);
+                assertNotNull(assignment);
+                assertThat(1, equalTo(assignment.responsibleNodes().size()));
+                assertEquals(nodeLeftInCluster, assignment.responsibleNodes().get(0).getName());
+            }
         }
     }
 
@@ -110,10 +110,12 @@ public void testGrouping_RespectsMaxNodesPerGroupingLimit() throws Exception {
         Set<String> supportedServices = calculator.serviceNodeLocalRateLimitConfigs().keySet();
 
         for (var service : supportedServices) {
-            var assignment = calculator.getRateLimitAssignment(service, TaskType.SPARSE_EMBEDDING);
+            for (var taskType : calculator.serviceNodeLocalRateLimitConfigs().get(service).keySet()) {
+                var assignment = calculator.getRateLimitAssignment(service, taskType);
 
-            assertNotNull(assignment);
-            assertThat(DEFAULT_MAX_NODES_PER_GROUPING, equalTo(assignment.responsibleNodes().size()));
+                assertNotNull(assignment);
+                assertThat(DEFAULT_MAX_NODES_PER_GROUPING, equalTo(assignment.responsibleNodes().size()));
+            }
         }
     }
 
@@ -133,14 +135,14 @@ public void testInitialRateLimitsCalculation_Correct() throws Exception {
                 var serviceOptional = serviceRegistry.getService(serviceName);
                 assertTrue(serviceOptional.isPresent());
                 var service = serviceOptional.get();
-
                 if ((service instanceof SenderService senderService)) {
                     var sender = senderService.getSender();
-                    if (sender instanceof HttpRequestSender) {
-                        var assignment = calculator.getRateLimitAssignment(service.name(), TaskType.SPARSE_EMBEDDING);
-
-                        assertNotNull(assignment);
-                        assertThat(DEFAULT_MAX_NODES_PER_GROUPING, equalTo(assignment.responsibleNodes().size()));
+                    for (var taskType : calculator.serviceNodeLocalRateLimitConfigs().get(serviceName).keySet()) {
+                        if (sender instanceof HttpRequestSender) {
+                            var assignment = calculator.getRateLimitAssignment(service.name(), taskType);
+                            assertNotNull(assignment);
+                            assertThat(DEFAULT_MAX_NODES_PER_GROUPING, equalTo(assignment.responsibleNodes().size()));
+                        }
                     }
                 }
             }
@@ -159,25 +161,30 @@ public void testRateLimits_Decrease_OnNodeJoin() throws Exception {
 
         var serviceNodeLocalRateLimitConfigs = calculator.serviceNodeLocalRateLimitConfigs();
 
+        // check initial node assignments
         for (var serviceName : serviceNodeLocalRateLimitConfigs.keySet()) {
             var configs = serviceNodeLocalRateLimitConfigs.get(serviceName);
             for (var taskType : configs.keySet()) {
                 // Get initial assignments and rate limits
                 var initialAssignment = calculator.getRateLimitAssignment(serviceName, taskType);
                 assertEquals(2, initialAssignment.responsibleNodes().size());
+            }
+        }
 
-                // Add a new node
-                internalCluster().startNode();
-                ensureStableCluster(initialNodes + 1);
-                waitForRateLimitingAssignments(calculator);
+        // Add a node to update node assignments
+        internalCluster().startNode();
+        ensureStableCluster(initialNodes + 1);
+        waitForRateLimitingAssignments(calculator);
 
-                // Get updated assignments
+        // check updated node assignments
+        for (var serviceName : serviceNodeLocalRateLimitConfigs.keySet()) {
+            var configs = serviceNodeLocalRateLimitConfigs.get(serviceName);
+            for (var taskType : configs.keySet()) {
                 var updatedAssignment = calculator.getRateLimitAssignment(serviceName, taskType);
-
-                // Verify number of responsible nodes increased
                 assertEquals(3, updatedAssignment.responsibleNodes().size());
             }
         }
+
     }
 
     public void testRateLimits_Increase_OnNodeLeave() throws Exception {
@@ -191,23 +198,26 @@ public void testRateLimits_Increase_OnNodeLeave() throws Exception {
 
         var serviceNodeLocalRateLimitConfigs = calculator.serviceNodeLocalRateLimitConfigs();
 
+        // check initial node assignments
         for (var serviceName : serviceNodeLocalRateLimitConfigs.keySet()) {
             var configs = serviceNodeLocalRateLimitConfigs.get(serviceName);
             for (var taskType : configs.keySet()) {
-                // Get initial assignments and rate limits
                 var initialAssignment = calculator.getRateLimitAssignment(serviceName, taskType);
                 assertThat(DEFAULT_MAX_NODES_PER_GROUPING, equalTo(initialAssignment.responsibleNodes().size()));
+            }
+        }
 
-                // Remove a node
-                var nodeToRemove = nodeNames.get(numNodes - 1);
-                internalCluster().stopNode(nodeToRemove);
-                ensureStableCluster(numNodes - 1);
-                waitForRateLimitingAssignments(calculator);
+        // remove a node to update node assignments
+        var nodeToRemove = nodeNames.get(numNodes - 1);
+        internalCluster().stopNode(nodeToRemove);
+        ensureStableCluster(numNodes - 1);
+        waitForRateLimitingAssignments(calculator);
 
-                // Get updated assignments
+        // check updated node assignments
+        for (var serviceName : serviceNodeLocalRateLimitConfigs.keySet()) {
+            var configs = serviceNodeLocalRateLimitConfigs.get(serviceName);
+            for (var taskType : configs.keySet()) {
                 var updatedAssignment = calculator.getRateLimitAssignment(serviceName, taskType);
-
-                // Verify number of responsible nodes decreased
                 assertThat(2, equalTo(updatedAssignment.responsibleNodes().size()));
             }
         }
@@ -241,7 +251,8 @@ private InferenceServiceNodeLocalRateLimitCalculator getCalculatorInstance(Inter
 
     private void waitForRateLimitingAssignments(InferenceServiceNodeLocalRateLimitCalculator calculator) throws Exception {
         assertBusy(() -> {
-            var assignment = calculator.getRateLimitAssignment(ElasticInferenceService.NAME, TaskType.SPARSE_EMBEDDING);
+            var assignment = calculator
+                .getRateLimitAssignment(TestSparseInferenceServiceExtension.TestInferenceService.NAME, TaskType.SPARSE_EMBEDDING);
             assertNotNull(assignment);
             assertFalse(assignment.responsibleNodes().isEmpty());
         }, RATE_LIMIT_ASSIGNMENT_MAX_WAIT_TIME_IN_SECONDS, TimeUnit.SECONDS);