unpack lo before high

GuyAv46 · GuyAv46 · commit 644329488b9f · 2024-12-30T16:53:09.000+02:00
diff --git a/src/VecSim/spaces/IP/IP_AVX512F_BW_VL_VNNI_UINT8.h b/src/VecSim/spaces/IP/IP_AVX512F_BW_VL_VNNI_UINT8.h
@@ -13,14 +13,14 @@ static inline void InnerProductStep(uint8_t *&pVect1, uint8_t *&pVect2, __m512i
     __m512i vb = _mm512_loadu_epi8(pVect2); // AVX512BW
     pVect2 += 64;
 
-    __m512i va_hi = _mm512_unpackhi_epi8(va, _mm512_setzero_si512()); // AVX512BW
-    __m512i vb_hi = _mm512_unpackhi_epi8(vb, _mm512_setzero_si512());
-    sum = _mm512_dpwssd_epi32(sum, va_hi, vb_hi);
-
     __m512i va_lo = _mm512_unpacklo_epi8(va, _mm512_setzero_si512()); // AVX512BW
     __m512i vb_lo = _mm512_unpacklo_epi8(vb, _mm512_setzero_si512());
     sum = _mm512_dpwssd_epi32(sum, va_lo, vb_lo);
 
+    __m512i va_hi = _mm512_unpackhi_epi8(va, _mm512_setzero_si512()); // AVX512BW
+    __m512i vb_hi = _mm512_unpackhi_epi8(vb, _mm512_setzero_si512());
+    sum = _mm512_dpwssd_epi32(sum, va_hi, vb_hi);
+
     // _mm512_dpwssd_epi32(src, a, b)
     // Multiply groups of 2 adjacent pairs of signed 16-bit integers in `a` with corresponding
     // 16-bit integers in `b`, producing 2 intermediate signed 32-bit results. Sum these 2 results
diff --git a/src/VecSim/spaces/L2/L2_AVX512F_BW_VL_VNNI_UINT8.h b/src/VecSim/spaces/L2/L2_AVX512F_BW_VL_VNNI_UINT8.h
@@ -13,16 +13,16 @@ static inline void L2SqrStep(uint8_t *&pVect1, uint8_t *&pVect2, __m512i &sum) {
     __m512i vb = _mm512_loadu_epi8(pVect2); // AVX512BW
     pVect2 += 64;
 
-    __m512i va_hi = _mm512_unpackhi_epi8(va, _mm512_setzero_si512()); // AVX512BW
-    __m512i vb_hi = _mm512_unpackhi_epi8(vb, _mm512_setzero_si512());
-    __m512i diff_hi = _mm512_sub_epi16(va_hi, vb_hi);
-    sum = _mm512_dpwssd_epi32(sum, diff_hi, diff_hi);
-
     __m512i va_lo = _mm512_unpacklo_epi8(va, _mm512_setzero_si512()); // AVX512BW
     __m512i vb_lo = _mm512_unpacklo_epi8(vb, _mm512_setzero_si512());
     __m512i diff_lo = _mm512_sub_epi16(va_lo, vb_lo);
     sum = _mm512_dpwssd_epi32(sum, diff_lo, diff_lo);
 
+    __m512i va_hi = _mm512_unpackhi_epi8(va, _mm512_setzero_si512()); // AVX512BW
+    __m512i vb_hi = _mm512_unpackhi_epi8(vb, _mm512_setzero_si512());
+    __m512i diff_hi = _mm512_sub_epi16(va_hi, vb_hi);
+    sum = _mm512_dpwssd_epi32(sum, diff_hi, diff_hi);
+
     // _mm512_dpwssd_epi32(src, a, b)
     // Multiply groups of 2 adjacent pairs of signed 16-bit integers in `a` with corresponding
     // 16-bit integers in `b`, producing 2 intermediate signed 32-bit results. Sum these 2 results