elastic
diff --git a/‎qa/vector/src/main/java/org/elasticsearch/test/knn/CmdLineArgs.java‎
Lines changed: 1 addition & 1 deletion b/‎qa/vector/src/main/java/org/elasticsearch/test/knn/CmdLineArgs.java‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎qa/vector/src/main/java/org/elasticsearch/test/knn/KnnIndexTester.java‎
Lines changed: 14 additions & 2 deletions b/‎qa/vector/src/main/java/org/elasticsearch/test/knn/KnnIndexTester.java‎
Lines changed: 14 additions & 2 deletions
diff --git a/‎qa/vector/src/main/java/org/elasticsearch/test/knn/KnnIndexer.java‎
Lines changed: 4 additions & 12 deletions b/‎qa/vector/src/main/java/org/elasticsearch/test/knn/KnnIndexer.java‎
Lines changed: 4 additions & 12 deletions
diff --git a/‎server/src/main/java/org/elasticsearch/index/codec/vectors/cluster/HierarchicalKMeans.java‎
Lines changed: 32 additions & 4 deletions b/‎server/src/main/java/org/elasticsearch/index/codec/vectors/cluster/HierarchicalKMeans.java‎
Lines changed: 32 additions & 4 deletions
diff --git a/‎server/src/test/java/org/elasticsearch/index/codec/vectors/cluster/HierarchicalKMeansTests.java‎
Lines changed: 59 additions & 0 deletions b/‎server/src/test/java/org/elasticsearch/index/codec/vectors/cluster/HierarchicalKMeansTests.java‎
Lines changed: 59 additions & 0 deletions
diff --git a/‎x-pack/plugin/esql/compute/build.gradle‎
Lines changed: 22 additions & 0 deletions b/‎x-pack/plugin/esql/compute/build.gradle‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎x-pack/plugin/esql/compute/gen/src/main/java/org/elasticsearch/compute/gen/AggregatorFunctionSupplierImplementer.java‎
Lines changed: 22 additions & 10 deletions b/‎x-pack/plugin/esql/compute/gen/src/main/java/org/elasticsearch/compute/gen/AggregatorFunctionSupplierImplementer.java‎
Lines changed: 22 additions & 10 deletions
diff --git a/‎x-pack/plugin/esql/compute/gen/src/main/java/org/elasticsearch/compute/gen/GroupingAggregatorImplementer.java‎
Lines changed: 23 additions & 3 deletions b/‎x-pack/plugin/esql/compute/gen/src/main/java/org/elasticsearch/compute/gen/GroupingAggregatorImplementer.java‎
Lines changed: 23 additions & 3 deletions
@@ -87,7 +87,7 @@ static CmdLineArgs fromXContent(XContentParser parser) throws IOException {
         return builder.build();
     }
 
-    static final ObjectParser<CmdLineArgs.Builder, Void> PARSER = new ObjectParser<>("cmd_line_args", true, Builder::new);
+    static final ObjectParser<CmdLineArgs.Builder, Void> PARSER = new ObjectParser<>("cmd_line_args", false, Builder::new);
 
     static {
         PARSER.declareStringArray(Builder::setDocVectors, DOC_VECTORS_FIELD);
 
@@ -15,11 +15,14 @@
 import org.apache.lucene.codecs.KnnVectorsFormat;
 import org.apache.lucene.codecs.lucene101.Lucene101Codec;
 import org.apache.lucene.codecs.lucene99.Lucene99HnswVectorsFormat;
+import org.apache.lucene.index.DirectoryReader;
+import org.apache.lucene.index.IndexReader;
 import org.apache.lucene.index.LogByteSizeMergePolicy;
 import org.apache.lucene.index.LogDocMergePolicy;
 import org.apache.lucene.index.MergePolicy;
 import org.apache.lucene.index.NoMergePolicy;
 import org.apache.lucene.index.TieredMergePolicy;
+import org.apache.lucene.store.FSDirectory;
 import org.elasticsearch.cli.ProcessInfo;
 import org.elasticsearch.common.Strings;
 import org.elasticsearch.common.logging.LogConfigurator;
@@ -37,7 +40,9 @@
 import org.elasticsearch.xcontent.XContentParserConfiguration;
 import org.elasticsearch.xcontent.XContentType;
 
+import java.io.IOException;
 import java.io.InputStream;
+import java.io.UncheckedIOException;
 import java.lang.management.ThreadInfo;
 import java.nio.file.Files;
 import java.nio.file.Path;
@@ -230,10 +235,9 @@ public static void main(String[] args) throws Exception {
                 }
                 if (cmdLineArgs.forceMerge()) {
                     knnIndexer.forceMerge(indexResults);
-                } else {
-                    knnIndexer.numSegments(indexResults);
                 }
             }
+            numSegments(indexPath, indexResults);
             if (cmdLineArgs.queryVectors() != null && cmdLineArgs.numQueries() > 0) {
                 for (int i = 0; i < results.length; i++) {
                     int nProbe = nProbes[i];
@@ -265,6 +269,14 @@ private static MergePolicy getMergePolicy(CmdLineArgs args) {
         return mergePolicy;
     }
 
+    static void numSegments(Path indexPath, KnnIndexTester.Results result) {
+        try (FSDirectory dir = FSDirectory.open(indexPath); IndexReader reader = DirectoryReader.open(dir)) {
+            result.numSegments = reader.leaves().size();
+        } catch (IOException e) {
+            throw new UncheckedIOException("Failed to get segment count for index at " + indexPath, e);
+        }
+    }
+
     static class FormattedResults {
         List<Results> indexResults = new ArrayList<>();
         List<Results> queryResults = new ArrayList<>();
 
@@ -27,8 +27,6 @@
 import org.apache.lucene.document.KnnFloatVectorField;
 import org.apache.lucene.document.StoredField;
 import org.apache.lucene.index.ConcurrentMergeScheduler;
-import org.apache.lucene.index.DirectoryReader;
-import org.apache.lucene.index.IndexReader;
 import org.apache.lucene.index.IndexWriter;
 import org.apache.lucene.index.IndexWriterConfig;
 import org.apache.lucene.index.MergePolicy;
@@ -94,14 +92,6 @@ class KnnIndexer {
         this.mergePolicy = mergePolicy;
     }
 
-    void numSegments(KnnIndexTester.Results result) {
-        try (FSDirectory dir = FSDirectory.open(indexPath); IndexReader reader = DirectoryReader.open(dir)) {
-            result.numSegments = reader.leaves().size();
-        } catch (IOException e) {
-            throw new UncheckedIOException("Failed to get segment count for index at " + indexPath, e);
-        }
-    }
-
     void createIndex(KnnIndexTester.Results result) throws IOException, InterruptedException, ExecutionException {
         IndexWriterConfig iwc = new IndexWriterConfig().setOpenMode(IndexWriterConfig.OpenMode.CREATE);
         iwc.setCodec(codec);
@@ -280,9 +270,11 @@ public void run() {
 
         private void _run() throws IOException {
             while (true) {
-                int id = numDocsIndexed.getAndIncrement();
-                if (id >= numDocsToIndex) {
+                int id = numDocsIndexed.get();
+                if (id == numDocsToIndex) {
                     break;
+                } else if (numDocsIndexed.compareAndSet(id, id + 1) == false) {
+                    continue;
                 }
 
                 Document doc = new Document();
 
@@ -106,29 +106,57 @@ KMeansIntermediate clusterAndSplit(final FloatVectorValues vectors, final int ta
         // TODO: consider adding cluster size counts to the kmeans algo
         // handle assignment here so we can track distance and cluster size
         int[] centroidVectorCount = new int[centroids.length];
+        int effectiveCluster = -1;
         int effectiveK = 0;
         for (int assigment : assignments) {
             centroidVectorCount[assigment]++;
             // this cluster has received an assignment, its now effective, but only count it once
             if (centroidVectorCount[assigment] == 1) {
                 effectiveK++;
+                effectiveCluster = assigment;
             }
         }
 
         if (effectiveK == 1) {
+            final float[][] singleClusterCentroid = new float[1][];
+            singleClusterCentroid[0] = centroids[effectiveCluster];
+            kMeansIntermediate.setCentroids(singleClusterCentroid);
+            Arrays.fill(kMeansIntermediate.assignments(), 0);
             return kMeansIntermediate;
         }
 
+        int removedElements = 0;
         for (int c = 0; c < centroidVectorCount.length; c++) {
             // Recurse for each cluster which is larger than targetSize
             // Give ourselves 30% margin for the target size
-            if (100 * centroidVectorCount[c] > 134 * targetSize) {
-                FloatVectorValues sample = createClusterSlice(centroidVectorCount[c], c, vectors, assignments);
-
+            final int count = centroidVectorCount[c];
+            final int adjustedCentroid = c - removedElements;
+            if (100 * count > 134 * targetSize) {
+                final FloatVectorValues sample = createClusterSlice(count, adjustedCentroid, vectors, assignments);
                 // TODO: consider iterative here instead of recursive
                 // recursive call to build out the sub partitions around this centroid c
                 // subsequently reconcile and flatten the space of all centroids and assignments into one structure we can return
-                updateAssignmentsWithRecursiveSplit(kMeansIntermediate, c, clusterAndSplit(sample, targetSize));
+                updateAssignmentsWithRecursiveSplit(kMeansIntermediate, adjustedCentroid, clusterAndSplit(sample, targetSize));
+            } else if (count == 0) {
+                // remove empty clusters
+                final int newSize = kMeansIntermediate.centroids().length - 1;
+                final float[][] newCentroids = new float[newSize][];
+                System.arraycopy(kMeansIntermediate.centroids(), 0, newCentroids, 0, adjustedCentroid);
+                System.arraycopy(
+                    kMeansIntermediate.centroids(),
+                    adjustedCentroid + 1,
+                    newCentroids,
+                    adjustedCentroid,
+                    newSize - adjustedCentroid
+                );
+                // we need to update the assignments to reflect the new centroid ordinals
+                for (int i = 0; i < kMeansIntermediate.assignments().length; i++) {
+                    if (kMeansIntermediate.assignments()[i] > adjustedCentroid) {
+                        kMeansIntermediate.assignments()[i]--;
+                    }
+                }
+                kMeansIntermediate.setCentroids(newCentroids);
+                removedElements++;
             }
         }
 
 
@@ -74,4 +74,63 @@ private static FloatVectorValues generateData(int nSamples, int nDims, int nClus
         }
         return FloatVectorValues.fromFloats(vectors, nDims);
     }
+
+    public void testFewDifferentValues() throws IOException {
+        int nVectors = random().nextInt(100, 1000);
+        int targetSize = random().nextInt(4, 64);
+        int dims = random().nextInt(2, 20);
+        int diffValues = randomIntBetween(1, 5);
+        float[][] values = new float[diffValues][dims];
+        for (int i = 0; i < diffValues; i++) {
+            for (int j = 0; j < dims; j++) {
+                values[i][j] = random().nextFloat();
+            }
+        }
+        List<float[]> vectorList = new ArrayList<>(nVectors);
+        for (int i = 0; i < nVectors; i++) {
+            vectorList.add(values[random().nextInt(diffValues)]);
+        }
+        FloatVectorValues vectors = FloatVectorValues.fromFloats(vectorList, dims);
+
+        HierarchicalKMeans hkmeans = new HierarchicalKMeans(
+            dims,
+            random().nextInt(1, 100),
+            random().nextInt(Math.min(nVectors, 100), nVectors + 1),
+            random().nextInt(2, 512),
+            random().nextFloat(0.5f, 1.5f)
+        );
+
+        KMeansResult result = hkmeans.cluster(vectors, targetSize);
+
+        float[][] centroids = result.centroids();
+        int[] assignments = result.assignments();
+        int[] soarAssignments = result.soarAssignments();
+
+        int[] counts = new int[centroids.length];
+        for (int i = 0; i < assignments.length; i++) {
+            counts[assignments[i]]++;
+        }
+        int totalCount = 0;
+        for (int count : counts) {
+            totalCount += count;
+            assertTrue(count > 0);
+        }
+        assertEquals(nVectors, totalCount);
+
+        assertEquals(nVectors, assignments.length);
+
+        for (int assignment : assignments) {
+            assertTrue(assignment >= 0 && assignment < centroids.length);
+        }
+        if (centroids.length > 1 && centroids.length < nVectors) {
+            assertEquals(nVectors, soarAssignments.length);
+            // verify no duplicates exist
+            for (int i = 0; i < assignments.length; i++) {
+                assertTrue(soarAssignments[i] >= 0 && soarAssignments[i] < centroids.length);
+                assertNotEquals(assignments[i], soarAssignments[i]);
+            }
+        } else {
+            assertEquals(0, soarAssignments.length);
+        }
+    }
 }
@@ -86,6 +86,7 @@ def addOccurrence(props, Occurrence) {
   newProps["Occurrence"] = Occurrence
   newProps["First"] = Occurrence == "First" ? "true" : ""
   newProps["Last"] = Occurrence == "Last" ? "true" : ""
+  newProps["occurrence"] = Occurrence.toLowerCase(Locale.ROOT)
   return newProps
 }
 
@@ -469,6 +470,27 @@ tasks.named('stringTemplates').configure {
     it.inputFile = stateInputFile
     it.outputFile = "org/elasticsearch/compute/aggregation/DoubleState.java"
   }
+
+  /*
+   * Generates pairwise states. We generate the ones that we need at the moment,
+   * but add more if you need more.
+   */
+  File twoStateInputFile = file("src/main/java/org/elasticsearch/compute/aggregation/X-2State.java.st")
+  [longProperties].forEach { v1 ->
+    [intProperties, longProperties, floatProperties, doubleProperties].forEach { v2 ->
+      {
+        var properties = [:]
+        v1.forEach { k, v -> properties["v1_" + k] = v}
+        v2.forEach { k, v -> properties["v2_" + k] = v}
+        template {
+          it.properties = properties
+          it.inputFile = twoStateInputFile
+          it.outputFile = "org/elasticsearch/compute/aggregation/${v1.Type}${v2.Type}State.java"
+        }
+      }
+    }
+  }
+
   File fallibleStateInputFile = new File("${projectDir}/src/main/java/org/elasticsearch/compute/aggregation/X-FallibleState.java.st")
   template {
     it.properties = booleanProperties
 
@@ -25,10 +25,15 @@
 import java.util.stream.Collectors;
 import java.util.stream.Stream;
 
+import javax.lang.model.element.ExecutableElement;
 import javax.lang.model.element.Modifier;
 import javax.lang.model.element.TypeElement;
 import javax.lang.model.util.Elements;
 
+import static org.elasticsearch.compute.gen.Methods.optionalStaticMethod;
+import static org.elasticsearch.compute.gen.Methods.requireArgs;
+import static org.elasticsearch.compute.gen.Methods.requireName;
+import static org.elasticsearch.compute.gen.Methods.requireType;
 import static org.elasticsearch.compute.gen.Types.AGGREGATOR_FUNCTION_SUPPLIER;
 import static org.elasticsearch.compute.gen.Types.DRIVER_CONTEXT;
 import static org.elasticsearch.compute.gen.Types.LIST_AGG_FUNC_DESC;
@@ -210,17 +215,24 @@ private MethodSpec describe() {
         MethodSpec.Builder builder = MethodSpec.methodBuilder("describe").returns(String.class);
         builder.addAnnotation(Override.class).addModifiers(Modifier.PUBLIC);
 
-        String name = declarationType.getSimpleName().toString();
-        name = name.replace("BytesRef", "Byte"); // The hack expects one word types so let's make BytesRef into Byte
-        String[] parts = name.split("(?=\\p{Upper})");
-        if (false == parts[parts.length - 1].equals("Aggregator") || parts.length < 3) {
-            throw new IllegalArgumentException("Can't generate description for " + declarationType.getSimpleName());
+        ExecutableElement describe = optionalStaticMethod(declarationType, requireType(STRING), requireName("describe"), requireArgs());
+        if (describe == null) {
+            String name = declarationType.getSimpleName().toString();
+            name = name.replace("BytesRef", "Byte"); // The hack expects one word types so let's make BytesRef into Byte
+            String[] parts = name.split("(?=\\p{Upper})");
+            if (false == parts[parts.length - 1].equals("Aggregator") || parts.length < 3) {
+                throw new IllegalArgumentException("Can't generate description for " + declarationType.getSimpleName());
+            }
+
+            String operation = Arrays.stream(parts, 0, parts.length - 2)
+                .map(s -> s.toLowerCase(Locale.ROOT))
+                .collect(Collectors.joining("_"));
+            String type = parts[parts.length - 2];
+
+            builder.addStatement("return $S", operation + " of " + type.toLowerCase(Locale.ROOT) + "s");
+        } else {
+            builder.addStatement("return $T.$L()", declarationType, "describe");
         }
-
-        String operation = Arrays.stream(parts, 0, parts.length - 2).map(s -> s.toLowerCase(Locale.ROOT)).collect(Collectors.joining("_"));
-        String type = parts[parts.length - 2];
-
-        builder.addStatement("return $S", operation + " of " + type.toLowerCase(Locale.ROOT) + "s");
         return builder.build();
     }
 }
@@ -198,6 +198,7 @@ private TypeSpec type() {
             builder.addMethod(addRawInputLoop(groupIdClass, true));
             builder.addMethod(addIntermediateInput(groupIdClass));
         }
+        builder.addMethod(maybeEnableGroupIdTracking());
         builder.addMethod(selectedMayContainUnseenGroups());
         builder.addMethod(evaluateIntermediate());
         builder.addMethod(evaluateFinal());
@@ -321,9 +322,11 @@ private MethodSpec prepareProcessRawInputPage() {
             builder.addStatement("$T $L = $L.asVector()", vectorType(p.type()), p.vectorName(), p.blockName());
             builder.beginControlFlow("if ($L == null)", p.vectorName());
             {
-                builder.beginControlFlow("if ($L.mayHaveNulls())", p.blockName());
-                builder.addStatement("state.enableGroupIdTracking(seenGroupIds)");
-                builder.endControlFlow();
+                builder.addStatement(
+                    "maybeEnableGroupIdTracking(seenGroupIds, "
+                        + aggParams.stream().map(AggregationParameter::blockName).collect(joining(", "))
+                        + ")"
+                );
                 returnAddInput(builder, false);
             }
             builder.endControlFlow();
@@ -351,6 +354,23 @@ private void returnAddInput(MethodSpec.Builder builder, boolean valuesAreVector)
         }
     }
 
+    private MethodSpec maybeEnableGroupIdTracking() {
+        MethodSpec.Builder builder = MethodSpec.methodBuilder("maybeEnableGroupIdTracking");
+        builder.addModifiers(Modifier.PRIVATE).returns(TypeName.VOID);
+        builder.addParameter(SEEN_GROUP_IDS, "seenGroupIds");
+        for (AggregationParameter p : aggParams) {
+            builder.addParameter(blockType(p.type()), p.blockName());
+        }
+
+        for (AggregationParameter p : aggParams) {
+            builder.beginControlFlow("if ($L.mayHaveNulls())", p.blockName());
+            builder.addStatement("state.enableGroupIdTracking(seenGroupIds)");
+            builder.endControlFlow();
+        }
+
+        return builder.build();
+    }
+
     /**
      * Generate an {@code AddInput} implementation. That's a collection path optimized for the input data.
      */
Original file line number	Diff line number	Diff line change
`@@ -87,7 +87,7 @@ static CmdLineArgs fromXContent(XContentParser parser) throws IOException {`
`87`	`87`	`return builder.build();`
`88`	`88`	`}`
`89`	`89`
`90`		`- static final ObjectParser<CmdLineArgs.Builder, Void> PARSER = new ObjectParser<>("cmd_line_args", true, Builder::new);`
	`90`	`+ static final ObjectParser<CmdLineArgs.Builder, Void> PARSER = new ObjectParser<>("cmd_line_args", false, Builder::new);`
`91`	`91`
`92`	`92`	`static {`
`93`	`93`	`PARSER.declareStringArray(Builder::setDocVectors, DOC_VECTORS_FIELD);`