Updates after the refactor

ymao1 · ymao1 · commit f6efd389009d · 2025-02-21T10:39:20.000-05:00
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/chunking/EmbeddingRequestChunkerTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/chunking/EmbeddingRequestChunkerTests.java
@@ -13,6 +13,7 @@
 import org.elasticsearch.xpack.core.inference.results.ChunkedInferenceEmbedding;
 import org.elasticsearch.xpack.core.inference.results.ChunkedInferenceError;
 import org.elasticsearch.xpack.core.inference.results.SparseEmbeddingResults;
+import org.elasticsearch.xpack.core.inference.results.TextEmbeddingBitResults;
 import org.elasticsearch.xpack.core.inference.results.TextEmbeddingByteResults;
 import org.elasticsearch.xpack.core.inference.results.TextEmbeddingFloatResults;
 import org.elasticsearch.xpack.core.ml.search.WeightedToken;
@@ -377,78 +378,78 @@ public void testMergingListener_Byte() {
         }
     }
 
-//    public void testMergingListener_Bit() {
-//        int batchSize = 5;
-//        int chunkSize = 20;
-//        int overlap = 0;
-//        // passage will be chunked into batchSize + 1 parts
-//        // and spread over 2 batch requests
-//        int numberOfWordsInPassage = (chunkSize * batchSize) + 5;
-//
-//        var passageBuilder = new StringBuilder();
-//        for (int i = 0; i < numberOfWordsInPassage; i++) {
-//            passageBuilder.append("passage_input").append(i).append(" "); // chunk on whitespace
-//        }
-//        List<String> inputs = List.of("1st small", passageBuilder.toString(), "2nd small", "3rd small");
-//
-//        var finalListener = testListener();
-//        var batches = new EmbeddingRequestChunker(inputs, batchSize, chunkSize, overlap, EmbeddingRequestChunker.EmbeddingType.BIT)
-//            .batchRequestsWithListeners(finalListener);
-//        assertThat(batches, hasSize(2));
-//
-//        // 4 inputs in 2 batches
-//        {
-//            var embeddings = new ArrayList<InferenceByteEmbedding>();
-//            for (int i = 0; i < batchSize; i++) {
-//                embeddings.add(new InferenceByteEmbedding(new byte[] { randomByte() }));
-//            }
-//            batches.get(0).listener().onResponse(new InferenceTextEmbeddingBitResults(embeddings));
-//        }
-//        {
-//            var embeddings = new ArrayList<InferenceByteEmbedding>();
-//            for (int i = 0; i < 4; i++) { // 4 requests in the 2nd batch
-//                embeddings.add(new InferenceByteEmbedding(new byte[] { randomByte() }));
-//            }
-//            batches.get(1).listener().onResponse(new InferenceTextEmbeddingBitResults(embeddings));
-//        }
-//
-//        assertNotNull(finalListener.results);
-//        assertThat(finalListener.results, hasSize(4));
-//        {
-//            var chunkedResult = finalListener.results.get(0);
-//            assertThat(chunkedResult, instanceOf(ChunkedInferenceEmbeddingByte.class));
-//            var chunkedByteResult = (ChunkedInferenceEmbeddingByte) chunkedResult;
-//            assertThat(chunkedByteResult.chunks(), hasSize(1));
-//            assertEquals("1st small", chunkedByteResult.chunks().get(0).matchedText());
-//        }
-//        {
-//            // this is the large input split in multiple chunks
-//            var chunkedResult = finalListener.results.get(1);
-//            assertThat(chunkedResult, instanceOf(ChunkedInferenceEmbeddingByte.class));
-//            var chunkedByteResult = (ChunkedInferenceEmbeddingByte) chunkedResult;
-//            assertThat(chunkedByteResult.chunks(), hasSize(6));
-//            assertThat(chunkedByteResult.chunks().get(0).matchedText(), startsWith("passage_input0 "));
-//            assertThat(chunkedByteResult.chunks().get(1).matchedText(), startsWith(" passage_input20 "));
-//            assertThat(chunkedByteResult.chunks().get(2).matchedText(), startsWith(" passage_input40 "));
-//            assertThat(chunkedByteResult.chunks().get(3).matchedText(), startsWith(" passage_input60 "));
-//            assertThat(chunkedByteResult.chunks().get(4).matchedText(), startsWith(" passage_input80 "));
-//            assertThat(chunkedByteResult.chunks().get(5).matchedText(), startsWith(" passage_input100 "));
-//        }
-//        {
-//            var chunkedResult = finalListener.results.get(2);
-//            assertThat(chunkedResult, instanceOf(ChunkedInferenceEmbeddingByte.class));
-//            var chunkedByteResult = (ChunkedInferenceEmbeddingByte) chunkedResult;
-//            assertThat(chunkedByteResult.chunks(), hasSize(1));
-//            assertEquals("2nd small", chunkedByteResult.chunks().get(0).matchedText());
-//        }
-//        {
-//            var chunkedResult = finalListener.results.get(3);
-//            assertThat(chunkedResult, instanceOf(ChunkedInferenceEmbeddingByte.class));
-//            var chunkedByteResult = (ChunkedInferenceEmbeddingByte) chunkedResult;
-//            assertThat(chunkedByteResult.chunks(), hasSize(1));
-//            assertEquals("3rd small", chunkedByteResult.chunks().get(0).matchedText());
-//        }
-//    }
+    public void testMergingListener_Bit() {
+        int batchSize = 5;
+        int chunkSize = 20;
+        int overlap = 0;
+        // passage will be chunked into batchSize + 1 parts
+        // and spread over 2 batch requests
+        int numberOfWordsInPassage = (chunkSize * batchSize) + 5;
+
+        var passageBuilder = new StringBuilder();
+        for (int i = 0; i < numberOfWordsInPassage; i++) {
+            passageBuilder.append("passage_input").append(i).append(" "); // chunk on whitespace
+        }
+        List<String> inputs = List.of("1st small", passageBuilder.toString(), "2nd small", "3rd small");
+
+        var finalListener = testListener();
+        var batches = new EmbeddingRequestChunker(inputs, batchSize, chunkSize, overlap)
+            .batchRequestsWithListeners(finalListener);
+        assertThat(batches, hasSize(2));
+
+        // 4 inputs in 2 batches
+        {
+            var embeddings = new ArrayList<TextEmbeddingByteResults.Embedding>();
+            for (int i = 0; i < batchSize; i++) {
+                embeddings.add(new TextEmbeddingByteResults.Embedding(new byte[] { randomByte() }));
+            }
+            batches.get(0).listener().onResponse(new TextEmbeddingBitResults(embeddings));
+        }
+        {
+            var embeddings = new ArrayList<TextEmbeddingByteResults.Embedding>();
+            for (int i = 0; i < 4; i++) { // 4 requests in the 2nd batch
+                embeddings.add(new TextEmbeddingByteResults.Embedding(new byte[] { randomByte() }));
+            }
+            batches.get(1).listener().onResponse(new TextEmbeddingBitResults(embeddings));
+        }
+
+        assertNotNull(finalListener.results);
+        assertThat(finalListener.results, hasSize(4));
+        {
+            var chunkedResult = finalListener.results.get(0);
+            assertThat(chunkedResult, instanceOf(ChunkedInferenceEmbedding.class));
+            var chunkedByteResult = (ChunkedInferenceEmbedding) chunkedResult;
+            assertThat(chunkedByteResult.chunks(), hasSize(1));
+            assertEquals("1st small", chunkedByteResult.chunks().get(0).matchedText());
+        }
+        {
+            // this is the large input split in multiple chunks
+            var chunkedResult = finalListener.results.get(1);
+            assertThat(chunkedResult, instanceOf(ChunkedInferenceEmbedding.class));
+            var chunkedByteResult = (ChunkedInferenceEmbedding) chunkedResult;
+            assertThat(chunkedByteResult.chunks(), hasSize(6));
+            assertThat(chunkedByteResult.chunks().get(0).matchedText(), startsWith("passage_input0 "));
+            assertThat(chunkedByteResult.chunks().get(1).matchedText(), startsWith(" passage_input20 "));
+            assertThat(chunkedByteResult.chunks().get(2).matchedText(), startsWith(" passage_input40 "));
+            assertThat(chunkedByteResult.chunks().get(3).matchedText(), startsWith(" passage_input60 "));
+            assertThat(chunkedByteResult.chunks().get(4).matchedText(), startsWith(" passage_input80 "));
+            assertThat(chunkedByteResult.chunks().get(5).matchedText(), startsWith(" passage_input100 "));
+        }
+        {
+            var chunkedResult = finalListener.results.get(2);
+            assertThat(chunkedResult, instanceOf(ChunkedInferenceEmbedding.class));
+            var chunkedByteResult = (ChunkedInferenceEmbedding) chunkedResult;
+            assertThat(chunkedByteResult.chunks(), hasSize(1));
+            assertEquals("2nd small", chunkedByteResult.chunks().get(0).matchedText());
+        }
+        {
+            var chunkedResult = finalListener.results.get(3);
+            assertThat(chunkedResult, instanceOf(ChunkedInferenceEmbedding.class));
+            var chunkedByteResult = (ChunkedInferenceEmbedding) chunkedResult;
+            assertThat(chunkedByteResult.chunks(), hasSize(1));
+            assertEquals("3rd small", chunkedByteResult.chunks().get(0).matchedText());
+        }
+    }
 
     public void testMergingListener_Sparse() {
         int batchSize = 4;
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/results/TextEmbeddingBitResultsTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/results/TextEmbeddingBitResultsTests.java
@@ -106,10 +106,10 @@ public void testTransformToCoordinationFormat() {
     }
 
     public void testGetFirstEmbeddingSize() {
-        var firstEmbeddingSize = new InferenceTextEmbeddingBitResults(
+        var firstEmbeddingSize = new TextEmbeddingBitResults(
             List.of(
-                new InferenceByteEmbedding(new byte[] { (byte) 23, (byte) 24 }),
-                new InferenceByteEmbedding(new byte[] { (byte) 25, (byte) 26 })
+                new TextEmbeddingByteResults.Embedding(new byte[] { (byte) 23, (byte) 24 }),
+                new TextEmbeddingByteResults.Embedding(new byte[] { (byte) 25, (byte) 26 })
             )
         ).getFirstEmbeddingSize();
 
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/results/TextEmbeddingByteResultsTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/results/TextEmbeddingByteResultsTests.java
@@ -105,10 +105,10 @@ public void testTransformToCoordinationFormat() {
     }
 
     public void testGetFirstEmbeddingSize() {
-        var firstEmbeddingSize = new InferenceTextEmbeddingByteResults(
+        var firstEmbeddingSize = new TextEmbeddingByteResults(
             List.of(
-                new InferenceByteEmbedding(new byte[] { (byte) 23, (byte) 24 }),
-                new InferenceByteEmbedding(new byte[] { (byte) 25, (byte) 26 })
+                new TextEmbeddingByteResults.Embedding(new byte[] { (byte) 23, (byte) 24 }),
+                new TextEmbeddingByteResults.Embedding(new byte[] { (byte) 25, (byte) 26 })
             )
         ).getFirstEmbeddingSize();
 
diff --git a/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/results/TextEmbeddingResultsTests.java b/x-pack/plugin/inference/src/test/java/org/elasticsearch/xpack/inference/results/TextEmbeddingResultsTests.java
@@ -106,10 +106,10 @@ public void testTransformToCoordinationFormat() {
     }
 
     public void testGetFirstEmbeddingSize() {
-        var firstEmbeddingSize = new InferenceTextEmbeddingFloatResults(
+        var firstEmbeddingSize = new TextEmbeddingFloatResults(
             List.of(
-                new InferenceTextEmbeddingFloatResults.InferenceFloatEmbedding(new float[] { 0.1F, 0.2F }),
-                new InferenceTextEmbeddingFloatResults.InferenceFloatEmbedding(new float[] { 0.3F, 0.4F })
+                new TextEmbeddingFloatResults.Embedding(new float[] { 0.1F, 0.2F }),
+                new TextEmbeddingFloatResults.Embedding(new float[] { 0.3F, 0.4F })
             )
         ).getFirstEmbeddingSize();
 

Original file line number	Diff line number	Diff line change
`@@ -106,10 +106,10 @@ public void testTransformToCoordinationFormat() {`
`106`	`106`	`}`
`107`	`107`
`108`	`108`	`public void testGetFirstEmbeddingSize() {`
`109`		`- var firstEmbeddingSize = new InferenceTextEmbeddingBitResults(`
	`109`	`+ var firstEmbeddingSize = new TextEmbeddingBitResults(`
`110`	`110`	`List.of(`
`111`		`- new InferenceByteEmbedding(new byte[] { (byte) 23, (byte) 24 }),`
`112`		`- new InferenceByteEmbedding(new byte[] { (byte) 25, (byte) 26 })`
	`111`	`+ new TextEmbeddingByteResults.Embedding(new byte[] { (byte) 23, (byte) 24 }),`
	`112`	`+ new TextEmbeddingByteResults.Embedding(new byte[] { (byte) 25, (byte) 26 })`
`113`	`113`	`)`
`114`	`114`	`).getFirstEmbeddingSize();`
`115`	`115`
Original file line number	Diff line number	Diff line change
`@@ -105,10 +105,10 @@ public void testTransformToCoordinationFormat() {`
`105`	`105`	`}`
`106`	`106`
`107`	`107`	`public void testGetFirstEmbeddingSize() {`
`108`		`- var firstEmbeddingSize = new InferenceTextEmbeddingByteResults(`
	`108`	`+ var firstEmbeddingSize = new TextEmbeddingByteResults(`
`109`	`109`	`List.of(`
`110`		`- new InferenceByteEmbedding(new byte[] { (byte) 23, (byte) 24 }),`
`111`		`- new InferenceByteEmbedding(new byte[] { (byte) 25, (byte) 26 })`
	`110`	`+ new TextEmbeddingByteResults.Embedding(new byte[] { (byte) 23, (byte) 24 }),`
	`111`	`+ new TextEmbeddingByteResults.Embedding(new byte[] { (byte) 25, (byte) 26 })`
`112`	`112`	`)`
`113`	`113`	`).getFirstEmbeddingSize();`
`114`	`114`