RedisAI
diff --git a/‎src/VecSim/spaces/IP/IP.cpp‎
Lines changed: 11 additions & 5 deletions b/‎src/VecSim/spaces/IP/IP.cpp‎
Lines changed: 11 additions & 5 deletions
diff --git a/‎src/VecSim/spaces/IP/IP.h‎
Lines changed: 7 additions & 0 deletions b/‎src/VecSim/spaces/IP/IP.h‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎src/VecSim/spaces/L2/L2.cpp‎
Lines changed: 21 additions & 13 deletions b/‎src/VecSim/spaces/L2/L2.cpp‎
Lines changed: 21 additions & 13 deletions
diff --git a/‎src/VecSim/spaces/L2/L2_AVX2_FMA_SQ8.h‎
Lines changed: 26 additions & 75 deletions b/‎src/VecSim/spaces/L2/L2_AVX2_FMA_SQ8.h‎
Lines changed: 26 additions & 75 deletions
diff --git a/‎src/VecSim/spaces/L2/L2_AVX2_SQ8.h‎
Lines changed: 26 additions & 75 deletions b/‎src/VecSim/spaces/L2/L2_AVX2_SQ8.h‎
Lines changed: 26 additions & 75 deletions
@@ -24,10 +24,13 @@ using sq8 = vecsim_types::sq8;
  *            = min * y_sum + delta * quantized_dot_product
  *
  * Uses 4x loop unrolling with multiple accumulators for ILP.
- * pVect1 is a vector of float32, pVect2 is a quantized uint8_t vector
+ * pVect1 is query (FP32): [float values (dim)] [y_sum] [y_sum_squares (L2 only)]
+ * pVect2 is storage (SQ8): [uint8_t values (dim)] [min_val] [delta] [x_sum] [x_sum_squares (L2
+ * only)]
+ *
+ * Returns raw inner product value (not distance). Used by SQ8_InnerProduct, SQ8_Cosine, SQ8_L2Sqr.
  */
-float SQ8_InnerProduct(const void *pVect1v, const void *pVect2v, size_t dimension) {
-
+float SQ8_InnerProduct_Impl(const void *pVect1v, const void *pVect2v, size_t dimension) {
     const auto *pVect1 = static_cast<const float *>(pVect1v);
     const auto *pVect2 = static_cast<const uint8_t *>(pVect2v);
 
@@ -61,8 +64,11 @@ float SQ8_InnerProduct(const void *pVect1v, const void *pVect2v, size_t dimensio
     const float y_sum = pVect1[dimension + sq8::SUM_QUERY];
 
     // Apply formula: IP = min * y_sum + delta * Σ(q_i * y_i)
-    const float ip = min_val * y_sum + delta * quantized_dot;
-    return 1.0f - ip;
+    return min_val * y_sum + delta * quantized_dot;
+}
+
+float SQ8_InnerProduct(const void *pVect1v, const void *pVect2v, size_t dimension) {
+    return 1.0f - SQ8_InnerProduct_Impl(pVect1v, pVect2v, dimension);
 }
 
 float SQ8_Cosine(const void *pVect1v, const void *pVect2v, size_t dimension) {
 
@@ -10,6 +10,13 @@
 
 #include <cstdlib>
 
+// FP32-to-SQ8: Common inner product implementation that returns the raw inner product value
+// (not distance). Used by SQ8_InnerProduct, SQ8_Cosine, and SQ8_L2Sqr.
+// pVect1 is query (FP32): [float values (dim)] [y_sum] [y_sum_squares (L2 only)]
+// pVect2 is storage (SQ8): [uint8_t values (dim)] [min_val] [delta] [x_sum] [x_sum_squares (L2
+// only)]
+float SQ8_InnerProduct_Impl(const void *pVect1v, const void *pVect2v, size_t dimension);
+
 // pVect1v vector of type fp32 and pVect2v vector of type uint8
 float SQ8_InnerProduct(const void *pVect1v, const void *pVect2v, size_t dimension);
 
 
@@ -18,22 +18,30 @@ using bfloat16 = vecsim_types::bfloat16;
 using float16 = vecsim_types::float16;
 using sq8 = vecsim_types::sq8;
 
+/*
+ * Optimized asymmetric SQ8 L2 squared distance using algebraic identity:
+ *   ||x - y||² = Σx_i² - 2*IP(x, y) + Σy_i²
+ *              = x_sum_squares - 2 * IP(x, y) + y_sum_squares
+ *   where IP(x, y) = min * y_sum + delta * Σ(q_i * y_i)
+ *
+ * pVect1 is query (FP32): [float values (dim)] [y_sum] [y_sum_squares]
+ * pVect2 is storage (SQ8): [uint8_t values (dim)] [min_val] [delta] [x_sum] [x_sum_squares]
+ */
 float SQ8_L2Sqr(const void *pVect1v, const void *pVect2v, size_t dimension) {
-    const auto *pVect1 = static_cast<const float *>(pVect1v);
+    // Get the raw inner product using the common implementation
+    const float ip = SQ8_InnerProduct_Impl(pVect1v, pVect2v, dimension);
+
+    // Get precomputed sum of squares from storage blob
     const auto *pVect2 = static_cast<const uint8_t *>(pVect2v);
-    // pvect2 is a vector of uint8_t, so we need to dequantize it, normalize it and then multiply
-    // it. it structred as [quantized values (uint8_t * dim)][min_val (float)][delta
-    // (float)][inv_norm (float)] The last two values are used to dequantize the vector.
-    const float min_val = *reinterpret_cast<const float *>(pVect2 + dimension);
-    const float delta = *reinterpret_cast<const float *>(pVect2 + dimension + sizeof(float));
+    const float *params = reinterpret_cast<const float *>(pVect2 + dimension);
+    const float x_sum_sq = params[sq8::SUM_SQUARES];
 
-    float res = 0;
-    for (size_t i = 0; i < dimension; i++) {
-        auto dequantized_V2 = (pVect2[i] * delta + min_val);
-        float t = pVect1[i] - dequantized_V2;
-        res += t * t;
-    }
-    return res;
+    // Get precomputed sum of squares from query blob
+    const auto *pVect1 = static_cast<const float *>(pVect1v);
+    const float y_sum_sq = pVect1[dimension + sq8::SUM_SQUARES_QUERY];
+
+    // L2² = ||x||² + ||y||² - 2*IP(x, y)
+    return x_sum_sq + y_sum_sq - 2.0f * ip;
 }
 
 float FP32_L2Sqr(const void *pVect1v, const void *pVect2v, size_t dimension) {
 
@@ -1,4 +1,3 @@
-
 /*
  * Copyright (c) 2006-Present, Redis Ltd.
  * All rights reserved.
@@ -7,88 +6,40 @@
  * (RSALv2); or (b) the Server Side Public License v1 (SSPLv1); or (c) the
  * GNU Affero General Public License v3 (AGPLv3).
  */
+#pragma once
 #include "VecSim/spaces/space_includes.h"
 #include "VecSim/spaces/AVX_utils.h"
+#include "VecSim/spaces/IP/IP_AVX2_FMA_SQ8.h"
+#include "VecSim/types/sq8.h"
 
-static inline void L2StepSQ8_FMA(const float *&pVect1, const uint8_t *&pVect2, __m256 &sum256,
-                                 const __m256 &min_val_vec, const __m256 &delta_vec) {
-    // Load 8 float elements from pVect1
-    __m256 v1 = _mm256_loadu_ps(pVect1);
-    pVect1 += 8;
-
-    // Load 8 uint8 elements from pVect2, convert to int32, then to float
-    __m128i v2_128 = _mm_loadl_epi64((__m128i *)pVect2);
-    pVect2 += 8;
-
-    // Zero-extend uint8 to int32
-    __m256i v2_256 = _mm256_cvtepu8_epi32(v2_128);
-
-    // Convert int32 to float
-    __m256 v2_f = _mm256_cvtepi32_ps(v2_256);
-
-    // Dequantize: v2_dequant = v2_f * delta_vec + min_val_vec
-    __m256 v2_dequant = _mm256_fmadd_ps(v2_f, delta_vec, min_val_vec);
-
-    // Calculate squared difference - simple and efficient approach
-    __m256 diff = _mm256_sub_ps(v1, v2_dequant);
+using sq8 = vecsim_types::sq8;
 
-    // Use FMA for diff² + sum in one instruction
-    sum256 = _mm256_fmadd_ps(diff, diff, sum256);
-}
+/*
+ * Optimized asymmetric SQ8 L2 squared distance using algebraic identity:
+ *
+ *   ||x - y||² = Σx_i² - 2*IP(x, y) + Σy_i²
+ *              = x_sum_squares - 2 * IP(x, y) + y_sum_squares
+ *
+ * where:
+ *   - IP(x, y) = min * y_sum + delta * Σ(q_i * y_i)  (computed via SQ8_InnerProductImp_FMA)
+ *   - x_sum_squares and y_sum_squares are precomputed
+ *
+ * This avoids dequantization in the hot loop.
+ */
 
 template <unsigned char residual> // 0..15
 float SQ8_L2SqrSIMD16_AVX2_FMA(const void *pVect1v, const void *pVect2v, size_t dimension) {
-    const float *pVect1 = static_cast<const float *>(pVect1v);
-    // pVect2 is a quantized uint8_t vector
-    const uint8_t *pVect2 = static_cast<const uint8_t *>(pVect2v);
-    const float *pEnd1 = pVect1 + dimension;
-
-    // Get dequantization parameters from the end of quantized vector
-    const float min_val = *reinterpret_cast<const float *>(pVect2 + dimension);
-    const float delta = *reinterpret_cast<const float *>(pVect2 + dimension + sizeof(float));
-    // Create broadcast vectors for SIMD operations
-    __m256 min_val_vec = _mm256_set1_ps(min_val);
-    __m256 delta_vec = _mm256_set1_ps(delta);
-
-    __m256 sum256 = _mm256_setzero_ps();
-
-    // Deal with 1-7 floats with mask loading, if needed. `dim` is >16, so we have at least one
-    // 16-float block, so mask loading is guaranteed to be safe.
-    if constexpr (residual % 8) {
-        __mmask8 constexpr mask = (1 << (residual % 8)) - 1;
-        __m256 v1 = my_mm256_maskz_loadu_ps<mask>(pVect1);
-        pVect1 += residual % 8;
-
-        // Load quantized values and dequantize
-        __m128i v2_128 = _mm_loadl_epi64((__m128i *)pVect2);
-        pVect2 += residual % 8;
+    // Get the raw inner product using the common SIMD implementation
+    const float ip = SQ8_InnerProductImp_FMA<residual>(pVect1v, pVect2v, dimension);
 
-        // Zero-extend uint8 to int32
-        __m256i v2_256 = _mm256_cvtepu8_epi32(v2_128);
-
-        // Convert int32 to float
-        __m256 v2_f = _mm256_cvtepi32_ps(v2_256);
-
-        // Dequantize using FMA: (val * delta) + min_val
-        __m256 v2_dequant = _mm256_fmadd_ps(v2_f, delta_vec, min_val_vec);
-        v2_dequant = _mm256_blend_ps(_mm256_setzero_ps(), v2_dequant, mask);
-
-        // Calculate squared difference
-        __m256 diff = _mm256_sub_ps(v1, v2_dequant);
-        sum256 = _mm256_mul_ps(diff, diff);
-    }
-
-    // If the reminder is >=8, have another step of 8 floats
-    if constexpr (residual >= 8) {
-        L2StepSQ8_FMA(pVect1, pVect2, sum256, min_val_vec, delta_vec);
-    }
+    // Get precomputed sum of squares from storage blob
+    const uint8_t *pVect2 = static_cast<const uint8_t *>(pVect2v);
+    const float *params = reinterpret_cast<const float *>(pVect2 + dimension);
+    const float x_sum_sq = params[sq8::SUM_SQUARES];
 
-    // We dealt with the residual part. We are left with some multiple of 16 floats.
-    // In each iteration we calculate 16 floats = 512 bits.
-    do {
-        L2StepSQ8_FMA(pVect1, pVect2, sum256, min_val_vec, delta_vec);
-        L2StepSQ8_FMA(pVect1, pVect2, sum256, min_val_vec, delta_vec);
-    } while (pVect1 < pEnd1);
+    // Get precomputed sum of squares from query blob
+    const float y_sum_sq = static_cast<const float *>(pVect1v)[dimension + sq8::SUM_SQUARES_QUERY];
 
-    return my_mm256_reduce_add_ps(sum256);
+    // L2² = ||x||² + ||y||² - 2*IP(x, y)
+    return x_sum_sq + y_sum_sq - 2.0f * ip;
 }
@@ -6,89 +6,40 @@
  * (RSALv2); or (b) the Server Side Public License v1 (SSPLv1); or (c) the
  * GNU Affero General Public License v3 (AGPLv3).
  */
+#pragma once
 #include "VecSim/spaces/space_includes.h"
 #include "VecSim/spaces/AVX_utils.h"
+#include "VecSim/spaces/IP/IP_AVX2_SQ8.h"
+#include "VecSim/types/sq8.h"
 
-static inline void L2SqrStep(const float *&pVect1, const uint8_t *&pVect2, __m256 &sum,
-                             const __m256 &min_val_vec, const __m256 &delta_vec) {
-    // Load 8 float elements from pVect1
-    __m256 v1 = _mm256_loadu_ps(pVect1);
+using sq8 = vecsim_types::sq8;
 
-    // Load 8 uint8 elements from pVect2
-    __m128i v2_128 = _mm_loadl_epi64((__m128i *)pVect2);
-
-    // Zero-extend uint8 to int32
-    __m256i v2_256 = _mm256_cvtepu8_epi32(v2_128);
-
-    // Convert int32 to float
-    __m256 v2_f = _mm256_cvtepi32_ps(v2_256);
-
-    // Dequantize: (val * delta) + min_val
-    __m256 v2_dequant = _mm256_add_ps(_mm256_mul_ps(v2_f, delta_vec), min_val_vec);
-
-    // Compute difference
-    __m256 diff = _mm256_sub_ps(v1, v2_dequant);
-
-    // Square difference and add to sum
-    sum = _mm256_add_ps(sum, _mm256_mul_ps(diff, diff));
-
-    // Advance pointers
-    pVect1 += 8;
-    pVect2 += 8;
-}
+/*
+ * Optimized asymmetric SQ8 L2 squared distance using algebraic identity:
+ *
+ *   ||x - y||² = Σx_i² - 2*IP(x, y) + Σy_i²
+ *              = x_sum_squares - 2 * IP(x, y) + y_sum_squares
+ *
+ * where:
+ *   - IP(x, y) = min * y_sum + delta * Σ(q_i * y_i)  (computed via SQ8_InnerProductImp_AVX2)
+ *   - x_sum_squares and y_sum_squares are precomputed
+ *
+ * This avoids dequantization in the hot loop.
+ */
 
 template <unsigned char residual> // 0..15
 float SQ8_L2SqrSIMD16_AVX2(const void *pVect1v, const void *pVect2v, size_t dimension) {
-    const float *pVect1 = static_cast<const float *>(pVect1v);
-    const uint8_t *pVect2 = static_cast<const uint8_t *>(pVect2v);
-    // Get dequantization parameters from the end of quantized vector
-    const float min_val = *reinterpret_cast<const float *>(pVect2 + dimension);
-    const float delta = *reinterpret_cast<const float *>(pVect2 + dimension + sizeof(float));
-    // Create broadcast vectors for SIMD operations
-    __m256 min_val_vec = _mm256_set1_ps(min_val);
-    __m256 delta_vec = _mm256_set1_ps(delta);
-
-    const float *pEnd1 = pVect1 + dimension;
-
-    __m256 sum = _mm256_setzero_ps();
-
-    // Deal with 1-7 floats with mask loading, if needed
-    if constexpr (residual % 8) {
-        __mmask8 constexpr mask = (1 << (residual % 8)) - 1;
-        __m256 v1 = my_mm256_maskz_loadu_ps<mask>(pVect1);
-        pVect1 += residual % 8;
-
-        // Direct load - safe because we only process the masked elements
-        __m128i v2_128 = _mm_loadl_epi64((__m128i *)pVect2);
-        pVect2 += residual % 8;
-
-        // Zero-extend uint8 to int32
-        __m256i v2_256 = _mm256_cvtepu8_epi32(v2_128);
+    // Get the raw inner product using the common SIMD implementation
+    const float ip = SQ8_InnerProductImp_AVX2<residual>(pVect1v, pVect2v, dimension);
 
-        // Convert int32 to float
-        __m256 v2_f = _mm256_cvtepi32_ps(v2_256);
-
-        // Dequantize: (val * delta) + min_val
-        __m256 v2_dequant = _mm256_add_ps(_mm256_mul_ps(v2_f, delta_vec), min_val_vec);
-
-        // Apply mask to zero out unused elements
-        v2_dequant = _mm256_blend_ps(_mm256_setzero_ps(), v2_dequant, mask);
-
-        __m256 diff = _mm256_sub_ps(v1, v2_dequant);
-        sum = _mm256_mul_ps(diff, diff);
-    }
-
-    // If the reminder is >= 8, have another step of 8 floats
-    if constexpr (residual >= 8) {
-        L2SqrStep(pVect1, pVect2, sum, min_val_vec, delta_vec);
-    }
+    // Get precomputed sum of squares from storage blob
+    const uint8_t *pVect2 = static_cast<const uint8_t *>(pVect2v);
+    const float *params = reinterpret_cast<const float *>(pVect2 + dimension);
+    const float x_sum_sq = params[sq8::SUM_SQUARES];
 
-    // We dealt with the residual part. We are left with some multiple of 16 floats.
-    // In each iteration we calculate 16 floats = 512 bits.
-    do {
-        L2SqrStep(pVect1, pVect2, sum, min_val_vec, delta_vec);
-        L2SqrStep(pVect1, pVect2, sum, min_val_vec, delta_vec);
-    } while (pVect1 < pEnd1);
+    // Get precomputed sum of squares from query blob
+    const float y_sum_sq = static_cast<const float *>(pVect1v)[dimension + sq8::SUM_SQUARES_QUERY];
 
-    return my_mm256_reduce_add_ps(sum);
+    // L2² = ||x||² + ||y||² - 2*IP(x, y)
+    return x_sum_sq + y_sum_sq - 2.0f * ip;
 }