fix the l2

dor-forer · dor-forer · commit f1487b8aaaaf · 2025-03-19T13:41:37.000+02:00
diff --git a/src/VecSim/spaces/L2/L2_ARMPL_NEON_FP32.h b/src/VecSim/spaces/L2/L2_ARMPL_NEON_FP32.h
@@ -7,25 +7,43 @@
 #include "VecSim/spaces/space_includes.h"
 #include <armpl.h>
 
+template <unsigned char residual> // 0..15
 float FP32_L2Sqr_ARMPL_NEON(const void *pVect1v, const void *pVect2v, size_t dimension) {
     const float *vec1 = static_cast<const float *>(pVect1v);
     const float *vec2 = static_cast<const float *>(pVect2v);
 
     float result = 0.0f;
-    constexpr const size_t blockSize = 1024; 
+    constexpr const size_t blockSize = 1024;
     float buffer[blockSize];
 
-    for (size_t i = 0; i < dimension; i += blockSize) {
-        // Process in smaller chunks to improve cache behavior
-        size_t currentBlock = std::min(blockSize, dimension - i);
+    // Pre-calculate number of full blocks and the size of the last partial block
+    const size_t fullBlockCount = dimension / blockSize;
+    const size_t lastBlockSize = dimension % blockSize;
 
-        // Calculate difference vector in chunks
-        for (size_t j = 0; j < currentBlock; j++) {
-            buffer[j] = vec1[i + j] - vec2[i + j];
+    // Process full blocks
+    for (size_t i = 0; i < fullBlockCount; i++) {
+        size_t offset = i * blockSize;
+
+        // Calculate difference vector for full block
+        for (size_t j = 0; j < blockSize; j++) {
+            buffer[j] = vec1[offset + j] - vec2[offset + j];
+        }
+
+        // Use ARMPL to compute dot product
+        result += cblas_sdot(blockSize, buffer, 1, buffer, 1);
+    }
+
+    // Handle remaining elements (if any)
+    if (lastBlockSize > 0) {
+        size_t offset = fullBlockCount * blockSize;
+
+        // Calculate difference vector for remaining elements
+        for (size_t j = 0; j < lastBlockSize; j++) {
+            buffer[j] = vec1[offset + j] - vec2[offset + j];
         }
 
-        // Notice: Armpl can choose different implementation based on cpu features.
-        result += cblas_sdot(currentBlock, buffer, 1, buffer, 1);
+        // Use ARMPL to compute dot product
+        result += cblas_sdot(lastBlockSize, buffer, 1, buffer, 1);
     }
 
     return result;
diff --git a/src/VecSim/spaces/L2/L2_ARMPL_SVE2_FP32.h b/src/VecSim/spaces/L2/L2_ARMPL_SVE2_FP32.h
@@ -7,6 +7,7 @@
 #include "VecSim/spaces/space_includes.h"
 #include "armpl.h"
 
+template <unsigned char residual> // 0..15
 float FP32_L2Sqr_ARMPL_SVE2(const void *pVect1v, const void *pVect2v, size_t dimension) {
     const float *vec1 = static_cast<const float *>(pVect1v);
     const float *vec2 = static_cast<const float *>(pVect2v);
@@ -15,17 +16,34 @@ float FP32_L2Sqr_ARMPL_SVE2(const void *pVect1v, const void *pVect2v, size_t dim
     constexpr const size_t blockSize = 1024;
     float buffer[blockSize];
 
-    for (size_t i = 0; i < dimension; i += blockSize) {
-        // Process in smaller chunks to improve cache behavior
-        size_t currentBlock = std::min(blockSize, dimension - i);
+    // Pre-calculate number of full blocks and the size of the last partial block
+    const size_t fullBlockCount = dimension / blockSize;
+    const size_t lastBlockSize = dimension % blockSize;
 
-        // Calculate difference vector in chunks
-        for (size_t j = 0; j < currentBlock; j++) {
-            buffer[j] = vec1[i + j] - vec2[i + j];
+    // Process full blocks
+    for (size_t i = 0; i < fullBlockCount; i++) {
+        size_t offset = i * blockSize;
+
+        // Calculate difference vector for full block
+        for (size_t j = 0; j < blockSize; j++) {
+            buffer[j] = vec1[offset + j] - vec2[offset + j];
+        }
+
+        // Use ARMPL to compute dot product
+        result += cblas_sdot(blockSize, buffer, 1, buffer, 1);
+    }
+
+    // Handle remaining elements (if any)
+    if (lastBlockSize > 0) {
+        size_t offset = fullBlockCount * blockSize;
+
+        // Calculate difference vector for remaining elements
+        for (size_t j = 0; j < lastBlockSize; j++) {
+            buffer[j] = vec1[offset + j] - vec2[offset + j];
         }
 
-        // Notice: Armpl can choose different implementation based on cpu features.
-        result += cblas_sdot(currentBlock, buffer, 1, buffer, 1);
+        // Use ARMPL to compute dot product
+        result += cblas_sdot(lastBlockSize, buffer, 1, buffer, 1);
     }
 
     return result;
diff --git a/src/VecSim/spaces/L2/L2_ARMPL_SVE_FP32.h b/src/VecSim/spaces/L2/L2_ARMPL_SVE_FP32.h
@@ -7,6 +7,7 @@
 #include "VecSim/spaces/space_includes.h"
 #include "armpl.h"
 
+template <unsigned char residual>
 float FP32_L2Sqr_ARMPL_SVE(const void *pVect1v, const void *pVect2v, size_t dimension) {
     const float *vec1 = static_cast<const float *>(pVect1v);
     const float *vec2 = static_cast<const float *>(pVect2v);
@@ -15,18 +16,35 @@ float FP32_L2Sqr_ARMPL_SVE(const void *pVect1v, const void *pVect2v, size_t dime
     constexpr const size_t blockSize = 1024;
     float buffer[blockSize];
 
-    for (size_t i = 0; i < dimension; i += blockSize) {
-        // Process in smaller chunks to improve cache behavior
-        size_t currentBlock = std::min(blockSize, dimension - i);
+    // Pre-calculate number of full blocks and the size of the last partial block
+    const size_t fullBlockCount = dimension / blockSize;
+    const size_t lastBlockSize = dimension % blockSize;
 
-        // Calculate difference vector in chunks
-        for (size_t j = 0; j < currentBlock; j++) {
-            buffer[j] = vec1[i + j] - vec2[i + j];
+    // Process full blocks
+    for (size_t i = 0; i < fullBlockCount; i++) {
+        size_t offset = i * blockSize;
+
+        // Calculate difference vector for full block
+        for (size_t j = 0; j < blockSize; j++) {
+            buffer[j] = vec1[offset + j] - vec2[offset + j];
+        }
+
+        // Use ARMPL to compute dot product
+        result += cblas_sdot(blockSize, buffer, 1, buffer, 1);
+    }
+
+    // Handle remaining elements (if any)
+    if (lastBlockSize > 0) {
+        size_t offset = fullBlockCount * blockSize;
+
+        // Calculate difference vector for remaining elements
+        for (size_t j = 0; j < lastBlockSize; j++) {
+            buffer[j] = vec1[offset + j] - vec2[offset + j];
         }
 
-        // Notice: Armpl can choose different implementation based on cpu features.
-        result += cblas_sdot(currentBlock, buffer, 1, buffer, 1);
+        // Use ARMPL to compute dot product
+        result += cblas_sdot(lastBlockSize, buffer, 1, buffer, 1);
     }
 
     return result;
-}
+}