Add byte-bit implementation

thecoop · thecoop · commit 8c1ac09d0c90 · 2025-03-13T10:45:13.000Z
diff --git a/libs/simdvec/src/main/java/org/elasticsearch/simdvec/internal/vectorization/DefaultESVectorUtilSupport.java b/libs/simdvec/src/main/java/org/elasticsearch/simdvec/internal/vectorization/DefaultESVectorUtilSupport.java
@@ -45,13 +45,17 @@ public float ipFloatByte(float[] q, byte[] d) {
     }
 
     public static int ipByteBitImpl(byte[] q, byte[] d) {
+        return ipByteBitImpl(q, d, 0);
+    }
+
+    public static int ipByteBitImpl(byte[] q, byte[] d, int start) {
         assert q.length == d.length * Byte.SIZE;
         int acc0 = 0;
         int acc1 = 0;
         int acc2 = 0;
         int acc3 = 0;
         // now combine the two vectors, summing the byte dimensions where the bit in d is `1`
-        for (int i = 0; i < d.length; i++) {
+        for (int i = start; i < d.length; i++) {
             byte mask = d[i];
             // Make sure its just 1 or 0
 
diff --git a/libs/simdvec/src/main21/java/org/elasticsearch/simdvec/internal/vectorization/PanamaESVectorUtilSupport.java b/libs/simdvec/src/main21/java/org/elasticsearch/simdvec/internal/vectorization/PanamaESVectorUtilSupport.java
@@ -13,11 +13,13 @@
 import jdk.incubator.vector.FloatVector;
 import jdk.incubator.vector.IntVector;
 import jdk.incubator.vector.LongVector;
+import jdk.incubator.vector.Vector;
 import jdk.incubator.vector.VectorMask;
 import jdk.incubator.vector.VectorOperators;
 import jdk.incubator.vector.VectorShape;
 import jdk.incubator.vector.VectorSpecies;
 
+import org.apache.lucene.util.BitUtil;
 import org.apache.lucene.util.Constants;
 
 public final class PanamaESVectorUtilSupport implements ESVectorUtilSupport {
@@ -52,6 +54,13 @@ public long ipByteBinByte(byte[] q, byte[] d) {
 
     @Override
     public int ipByteBit(byte[] q, byte[] d) {
+        if (d.length >= 16 && HAS_FAST_INTEGER_VECTORS) {
+            if (VECTOR_BITSIZE >= 512) {
+                return ipByteBit512(q, d);
+            } else if (VECTOR_BITSIZE == 256) {
+                return ipByteBit256(q, d);
+            }
+        }
         return DefaultESVectorUtilSupport.ipByteBitImpl(q, d);
     }
 
@@ -175,25 +184,71 @@ public static long ipByteBin128(byte[] q, byte[] d) {
         return subRet0 + (subRet1 << 1) + (subRet2 << 2) + (subRet3 << 3);
     }
 
-    private static final VectorSpecies<Float> FLOAT_SPECIES_8 = FloatVector.SPECIES_256;
-    private static final VectorSpecies<Float> FLOAT_SPECIES_16 = FloatVector.SPECIES_512;
+    private static final VectorSpecies<Integer> INT_SPECIES_512 = IntVector.SPECIES_512;
+    private static final VectorSpecies<Byte> BYTE_SPECIES_FOR_INT_512 = VectorSpecies.of(
+        byte.class,
+        VectorShape.forBitSize(INT_SPECIES_512.vectorBitSize() / Integer.BYTES)
+    );
+    private static final VectorSpecies<Integer> INT_SPECIES_256 = IntVector.SPECIES_256;
+    private static final VectorSpecies<Byte> BYTE_SPECIES_FOR_INT_256 = VectorSpecies.of(
+        byte.class,
+        VectorShape.forBitSize(INT_SPECIES_256.vectorBitSize() / Integer.BYTES)
+    );
+
+    static int ipByteBit512(byte[] q, byte[] d) {
+        assert q.length == d.length * Byte.SIZE;
+        IntVector acc = IntVector.zero(INT_SPECIES_512);
+
+        int i = 0;
+        for (; i < BYTE_SPECIES_FOR_INT_512.loopBound(q.length); i += BYTE_SPECIES_FOR_INT_512.length()) {
+            Vector<Integer> bytes = ByteVector.fromArray(BYTE_SPECIES_FOR_INT_512, q, i).castShape(INT_SPECIES_512, 0);
+            long maskBits = Integer.reverse((short) BitUtil.VH_BE_SHORT.get(d, i / 8)) >> 16;
+
+            acc = acc.add(bytes, VectorMask.fromLong(INT_SPECIES_512, maskBits));
+        }
+
+        int sum = acc.reduceLanes(VectorOperators.ADD);
+        if (i < q.length) {
+            // do the tail
+            sum += DefaultESVectorUtilSupport.ipByteBitImpl(q, d, i);
+        }
+        return sum;
+    }
+
+    static int ipByteBit256(byte[] q, byte[] d) {
+        assert q.length == d.length * Byte.SIZE;
+        IntVector acc = IntVector.zero(INT_SPECIES_256);
+
+        int i = 0;
+        for (; i < BYTE_SPECIES_FOR_INT_256.loopBound(q.length); i += BYTE_SPECIES_FOR_INT_256.length()) {
+            Vector<Integer> bytes = ByteVector.fromArray(BYTE_SPECIES_FOR_INT_256, q, i).castShape(INT_SPECIES_256, 0);
+            long maskBits = Integer.reverse(d[i / 8]) >> 24;
+
+            acc = acc.add(bytes, VectorMask.fromLong(INT_SPECIES_256, maskBits));
+        }
 
-    private static long reverse(byte b) {
-        // see https://graphics.stanford.edu/~seander/bithacks.html#ReverseByteWith64Bits
-        return ((((b & 0xff) * 0x80200802L) & 0x0884422110L) * 0x0101010101L >> 32) & 0xff;
+        int sum = acc.reduceLanes(VectorOperators.ADD);
+        if (i < q.length) {
+            // do the tail
+            sum += DefaultESVectorUtilSupport.ipByteBitImpl(q, d, i);
+        }
+        return sum;
     }
 
+    private static final VectorSpecies<Float> FLOAT_SPECIES_512 = FloatVector.SPECIES_512;
+    private static final VectorSpecies<Float> FLOAT_SPECIES_256 = FloatVector.SPECIES_256;
+
     static float ipFloatBit512(float[] q, byte[] d) {
         assert q.length == d.length * Byte.SIZE;
-        FloatVector acc = FloatVector.zero(FLOAT_SPECIES_16);
+        FloatVector acc = FloatVector.zero(FLOAT_SPECIES_512);
 
         int i = 0;
-        for (; i < FLOAT_SPECIES_16.loopBound(q.length); i += FLOAT_SPECIES_16.length()) {
-            FloatVector floats = FloatVector.fromArray(FLOAT_SPECIES_16, q, i);
+        for (; i < FLOAT_SPECIES_512.loopBound(q.length); i += FLOAT_SPECIES_512.length()) {
+            FloatVector floats = FloatVector.fromArray(FLOAT_SPECIES_512, q, i);
             // use the two bytes corresponding to the same sections
             // of the bit vector as a mask for addition
-            long maskBits = reverse(d[i / 8]) | reverse(d[i / 8 + 1]) << 8;
-            acc = acc.add(floats, VectorMask.fromLong(FLOAT_SPECIES_16, maskBits));
+            long maskBits = Integer.reverse((short) BitUtil.VH_BE_SHORT.get(d, i / 8)) >> 16;
+            acc = acc.add(floats, VectorMask.fromLong(FLOAT_SPECIES_512, maskBits));
         }
 
         float sum = acc.reduceLanes(VectorOperators.ADD);
@@ -207,15 +262,15 @@ static float ipFloatBit512(float[] q, byte[] d) {
 
     static float ipFloatBit256(float[] q, byte[] d) {
         assert q.length == d.length * Byte.SIZE;
-        FloatVector acc = FloatVector.zero(FLOAT_SPECIES_8);
+        FloatVector acc = FloatVector.zero(FLOAT_SPECIES_256);
 
         int i = 0;
-        for (; i < FLOAT_SPECIES_8.loopBound(q.length); i += FLOAT_SPECIES_8.length()) {
-            FloatVector floats = FloatVector.fromArray(FLOAT_SPECIES_8, q, i);
+        for (; i < FLOAT_SPECIES_256.loopBound(q.length); i += FLOAT_SPECIES_256.length()) {
+            FloatVector floats = FloatVector.fromArray(FLOAT_SPECIES_256, q, i);
             // use the byte corresponding to the same section
             // of the bit vector as a mask for addition
-            long maskBits = reverse(d[i / 8]);
-            acc = acc.add(floats, VectorMask.fromLong(FLOAT_SPECIES_8, maskBits));
+            long maskBits = Integer.reverse(d[i / 8]) >> 24;
+            acc = acc.add(floats, VectorMask.fromLong(FLOAT_SPECIES_256, maskBits));
         }
 
         float sum = acc.reduceLanes(VectorOperators.ADD);
diff --git a/libs/simdvec/src/test/java/org/elasticsearch/simdvec/ESVectorUtilTests.java b/libs/simdvec/src/test/java/org/elasticsearch/simdvec/ESVectorUtilTests.java
@@ -27,6 +27,8 @@ public void testIpByteBit() {
         random().nextBytes(q);
         int expected = q[1] + q[2] + q[6] + q[8] + q[10] + q[13] + q[14] + q[15];
         assertEquals(expected, ESVectorUtil.ipByteBit(q, d));
+        assertEquals(expected, defaultedProvider.getVectorUtilSupport().ipByteBit(q, d));
+        assertEquals(expected, defOrPanamaProvider.getVectorUtilSupport().ipByteBit(q, d));
     }
 
     public void testIpFloatBit() {
@@ -37,6 +39,8 @@ public void testIpFloatBit() {
         }
         float expected = q[1] + q[2] + q[6] + q[8] + q[10] + q[13] + q[14] + q[15];
         assertEquals(expected, ESVectorUtil.ipFloatBit(q, d), 1e-6);
+        assertEquals(expected, defaultedProvider.getVectorUtilSupport().ipFloatBit(q, d), 1e-6);
+        assertEquals(expected, defOrPanamaProvider.getVectorUtilSupport().ipFloatBit(q, d), 1e-6);
     }
 
     public void testIpFloatByte() {

Original file line number	Diff line number	Diff line change
`@@ -27,6 +27,8 @@ public void testIpByteBit() {`
`27`	`27`	`random().nextBytes(q);`
`28`	`28`	`int expected = q[1] + q[2] + q[6] + q[8] + q[10] + q[13] + q[14] + q[15];`
`29`	`29`	`assertEquals(expected, ESVectorUtil.ipByteBit(q, d));`
	`30`	`+ assertEquals(expected, defaultedProvider.getVectorUtilSupport().ipByteBit(q, d));`
	`31`	`+ assertEquals(expected, defOrPanamaProvider.getVectorUtilSupport().ipByteBit(q, d));`
`30`	`32`	`}`
`31`	`33`
`32`	`34`	`public void testIpFloatBit() {`
`@@ -37,6 +39,8 @@ public void testIpFloatBit() {`
`37`	`39`	`}`
`38`	`40`	`float expected = q[1] + q[2] + q[6] + q[8] + q[10] + q[13] + q[14] + q[15];`
`39`	`41`	`assertEquals(expected, ESVectorUtil.ipFloatBit(q, d), 1e-6);`
	`42`	`+ assertEquals(expected, defaultedProvider.getVectorUtilSupport().ipFloatBit(q, d), 1e-6);`
	`43`	`+ assertEquals(expected, defOrPanamaProvider.getVectorUtilSupport().ipFloatBit(q, d), 1e-6);`
`40`	`44`	`}`
`41`	`45`
`42`	`46`	`public void testIpFloatByte() {`