Increase values

davidkyle · davidkyle · commit 07ed01adc0ac · 2025-08-26T10:46:14.000+01:00
diff --git a/server/src/main/java/org/elasticsearch/inference/RerankingInferenceService.java b/server/src/main/java/org/elasticsearch/inference/RerankingInferenceService.java
@@ -14,7 +14,7 @@ public interface RerankingInferenceService {
     /**
      * The default window size for small reranking models (512 input tokens).
      */
-    int CONSERVATIVE_DEFAULT_WINDOW_SIZE = 250;
+    int CONSERVATIVE_DEFAULT_WINDOW_SIZE = 300;
 
     /**
      * The reranking model's max window or an approximation of
diff --git a/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/alibabacloudsearch/AlibabaCloudSearchService.java b/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/alibabacloudsearch/AlibabaCloudSearchService.java
@@ -396,7 +396,7 @@ public int rerankerWindowSize(String modelId) {
         // Alibaba's mGTE models support long context windows of up to 8192 tokens.
         // Using 1 token = 0.75 words, this translates to approximately 6144 words.
         // https://huggingface.co/Alibaba-NLP/gte-multilingual-reranker-base
-        return 5000;
+        return 5500;
     }
 
     public static class Configuration {
diff --git a/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/cohere/CohereService.java b/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/cohere/CohereService.java
@@ -367,7 +367,7 @@ public int rerankerWindowSize(String modelId) {
         // Cohere rerank model truncates at 4096 tokens https://docs.cohere.com/reference/rerank
         // Using 1 token = 0.75 words as a rough estimate, we get 3072 words
         // allowing for some headroom, we set the window size below 3072
-        return 2500;
+        return 2800;
     }
 
     public static class Configuration {
diff --git a/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/elasticsearch/ElasticsearchInternalService.java b/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/elasticsearch/ElasticsearchInternalService.java
@@ -1064,7 +1064,7 @@ static TaskType inferenceConfigToTaskType(InferenceConfig config) {
     @Override
     public int rerankerWindowSize(String modelId) {
         // The Elastic reranker has a window size of 512 tokens.
-        // Return 250 words as a default that comfortably fits in the window.
+        // Return 300 words as a default that comfortably fits in the window.
         // TODO custom rerank models may have larger windows, make this configurable
         return RerankingInferenceService.CONSERVATIVE_DEFAULT_WINDOW_SIZE;
     }
diff --git a/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/googlevertexai/GoogleVertexAiService.java b/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/googlevertexai/GoogleVertexAiService.java
@@ -392,7 +392,7 @@ public int rerankerWindowSize(String modelId) {
         // TODO make the rerank window size configurable
 
         if (modelId != null && modelId.endsWith("-004")) {
-            return 500;
+            return 600;
         } else {
             return RerankingInferenceService.CONSERVATIVE_DEFAULT_WINDOW_SIZE;
         }
diff --git a/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/jinaai/JinaAIService.java b/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/jinaai/JinaAIService.java
@@ -353,7 +353,7 @@ public int rerankerWindowSize(String modelId) {
         // Jina AI rerank models have an 8000 token input length https://jina.ai/models/jina-reranker-v2-base-multilingual
         // Using 1 token = 0.75 words as a rough estimate, we get 6000 words
         // allowing for some headroom, we set the window size below 6000 words
-        return 5000;
+        return 5500;
     }
 
     public static class Configuration {
diff --git a/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/voyageai/VoyageAIService.java b/x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/voyageai/VoyageAIService.java
@@ -94,14 +94,14 @@ public class VoyageAIService extends SenderService implements RerankingInference
 
     private static final Map<String, Integer> RERANKERS_INPUT_SIZE = Map.of(
         "rerank-lite-1",
-        2500 // The smallest model has a 4K context length https://docs.voyageai.com/docs/reranker
+        2800 // The smallest model has a 4K context length https://docs.voyageai.com/docs/reranker
     );
 
     /**
      * Apart from rerank-lite-1 all other models have a context length of at least 8k.
      * This value is based on 1 token == 0.75 words and allowing for some overhead
      */
-    private static final int DEFAULT_RERANKER_INPUT_SIZE_WORDS = 5000;
+    private static final int DEFAULT_RERANKER_INPUT_SIZE_WORDS = 5500;
 
     public static final EnumSet<InputType> VALID_INPUT_TYPE_VALUES = EnumSet.of(
         InputType.INGEST,
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/alibabacloudsearch/AlibabaCloudSearchServiceTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/alibabacloudsearch/AlibabaCloudSearchServiceTests.java
@@ -724,6 +724,6 @@ public InferenceService createInferenceService() {
 
     @Override
     protected void assertRerankerWindowSize(RerankingInferenceService rerankingInferenceService) {
-        assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(5000));
+        assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(5500));
     }
 }
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/azureaistudio/AzureAiStudioServiceTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/azureaistudio/AzureAiStudioServiceTests.java
@@ -1691,7 +1691,7 @@ public InferenceService createInferenceService() {
 
     @Override
     protected void assertRerankerWindowSize(RerankingInferenceService rerankingInferenceService) {
-        assertThat(rerankingInferenceService.rerankerWindowSize("Any model"), is(250));
+        assertThat(rerankingInferenceService.rerankerWindowSize("Any model"), is(300));
     }
 
     private Map<String, Object> getRequestConfigMap(
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/cohere/CohereServiceTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/cohere/CohereServiceTests.java
@@ -1644,6 +1644,6 @@ public InferenceService createInferenceService() {
 
     @Override
     protected void assertRerankerWindowSize(RerankingInferenceService rerankingInferenceService) {
-        assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(2500));
+        assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(2800));
     }
 }
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/googlevertexai/GoogleVertexAiServiceTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/googlevertexai/GoogleVertexAiServiceTests.java
@@ -1058,7 +1058,7 @@ protected void assertRerankerWindowSize(RerankingInferenceService rerankingInfer
             rerankingInferenceService.rerankerWindowSize("semantic-ranker-default-003"),
             CoreMatchers.is(RerankingInferenceService.CONSERVATIVE_DEFAULT_WINDOW_SIZE)
         );
-        assertThat(rerankingInferenceService.rerankerWindowSize("semantic-ranker-default-004"), CoreMatchers.is(500));
+        assertThat(rerankingInferenceService.rerankerWindowSize("semantic-ranker-default-004"), CoreMatchers.is(600));
         assertThat(
             rerankingInferenceService.rerankerWindowSize("any other"),
             CoreMatchers.is(RerankingInferenceService.CONSERVATIVE_DEFAULT_WINDOW_SIZE)
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/jinaai/JinaAIServiceTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/jinaai/JinaAIServiceTests.java
@@ -1853,6 +1853,6 @@ public InferenceService createInferenceService() {
 
     @Override
     protected void assertRerankerWindowSize(RerankingInferenceService rerankingInferenceService) {
-        assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(5000));
+        assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(5500));
     }
 }
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/voyageai/VoyageAIServiceTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/services/voyageai/VoyageAIServiceTests.java
@@ -1797,7 +1797,7 @@ public InferenceService createInferenceService() {
     }
 
     protected void assertRerankerWindowSize(RerankingInferenceService rerankingInferenceService) {
-        assertThat(rerankingInferenceService.rerankerWindowSize("rerank-lite-1"), is(2500));
-        assertThat(rerankingInferenceService.rerankerWindowSize("any other model"), is(5000));
+        assertThat(rerankingInferenceService.rerankerWindowSize("rerank-lite-1"), is(2800));
+        assertThat(rerankingInferenceService.rerankerWindowSize("any other model"), is(5500));
     }
 }

Original file line number	Diff line number	Diff line change
`@@ -396,7 +396,7 @@ public int rerankerWindowSize(String modelId) {`
`396`	`396`	`// Alibaba's mGTE models support long context windows of up to 8192 tokens.`
`397`	`397`	`// Using 1 token = 0.75 words, this translates to approximately 6144 words.`
`398`	`398`	`// https://huggingface.co/Alibaba-NLP/gte-multilingual-reranker-base`
`399`		`- return 5000;`
	`399`	`+ return 5500;`
`400`	`400`	`}`
`401`	`401`
`402`	`402`	`public static class Configuration {`
Original file line number	Diff line number	Diff line change
`@@ -367,7 +367,7 @@ public int rerankerWindowSize(String modelId) {`
`367`	`367`	`// Cohere rerank model truncates at 4096 tokens https://docs.cohere.com/reference/rerank`
`368`	`368`	`// Using 1 token = 0.75 words as a rough estimate, we get 3072 words`
`369`	`369`	`// allowing for some headroom, we set the window size below 3072`
`370`		`- return 2500;`
	`370`	`+ return 2800;`
`371`	`371`	`}`
`372`	`372`
`373`	`373`	`public static class Configuration {`
Original file line number	Diff line number	Diff line change
`@@ -1064,7 +1064,7 @@ static TaskType inferenceConfigToTaskType(InferenceConfig config) {`
`1064`	`1064`	`@Override`
`1065`	`1065`	`public int rerankerWindowSize(String modelId) {`
`1066`	`1066`	`// The Elastic reranker has a window size of 512 tokens.`
`1067`		`- // Return 250 words as a default that comfortably fits in the window.`
	`1067`	`+ // Return 300 words as a default that comfortably fits in the window.`
`1068`	`1068`	`// TODO custom rerank models may have larger windows, make this configurable`
`1069`	`1069`	`return RerankingInferenceService.CONSERVATIVE_DEFAULT_WINDOW_SIZE;`
`1070`	`1070`	`}`
Original file line number	Diff line number	Diff line change
`@@ -392,7 +392,7 @@ public int rerankerWindowSize(String modelId) {`
`392`	`392`	`// TODO make the rerank window size configurable`
`393`	`393`
`394`	`394`	`if (modelId != null && modelId.endsWith("-004")) {`
`395`		`- return 500;`
	`395`	`+ return 600;`
`396`	`396`	`} else {`
`397`	`397`	`return RerankingInferenceService.CONSERVATIVE_DEFAULT_WINDOW_SIZE;`
`398`	`398`	`}`
Original file line number	Diff line number	Diff line change
`@@ -353,7 +353,7 @@ public int rerankerWindowSize(String modelId) {`
`353`	`353`	`// Jina AI rerank models have an 8000 token input length https://jina.ai/models/jina-reranker-v2-base-multilingual`
`354`	`354`	`// Using 1 token = 0.75 words as a rough estimate, we get 6000 words`
`355`	`355`	`// allowing for some headroom, we set the window size below 6000 words`
`356`		`- return 5000;`
	`356`	`+ return 5500;`
`357`	`357`	`}`
`358`	`358`
`359`	`359`	`public static class Configuration {`
Original file line number	Diff line number	Diff line change
`@@ -724,6 +724,6 @@ public InferenceService createInferenceService() {`
`724`	`724`
`725`	`725`	`@Override`
`726`	`726`	`protected void assertRerankerWindowSize(RerankingInferenceService rerankingInferenceService) {`
`727`		`- assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(5000));`
	`727`	`+ assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(5500));`
`728`	`728`	`}`
`729`	`729`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1691,7 +1691,7 @@ public InferenceService createInferenceService() {`
`1691`	`1691`
`1692`	`1692`	`@Override`
`1693`	`1693`	`protected void assertRerankerWindowSize(RerankingInferenceService rerankingInferenceService) {`
`1694`		`- assertThat(rerankingInferenceService.rerankerWindowSize("Any model"), is(250));`
	`1694`	`+ assertThat(rerankingInferenceService.rerankerWindowSize("Any model"), is(300));`
`1695`	`1695`	`}`
`1696`	`1696`
`1697`	`1697`	`private Map<String, Object> getRequestConfigMap(`
Original file line number	Diff line number	Diff line change
`@@ -1644,6 +1644,6 @@ public InferenceService createInferenceService() {`
`1644`	`1644`
`1645`	`1645`	`@Override`
`1646`	`1646`	`protected void assertRerankerWindowSize(RerankingInferenceService rerankingInferenceService) {`
`1647`		`- assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(2500));`
	`1647`	`+ assertThat(rerankingInferenceService.rerankerWindowSize("any model"), is(2800));`
`1648`	`1648`	`}`
`1649`	`1649`	`}`