Enable use of zmm registers for (32bit,32bit) key-value sort

Raghuveer Devulapalli · Raghuveer Devulapalli · commit a876f964bb19 · 2024-01-04T10:26:49.000-08:00
diff --git a/src/avx512-32bit-qsort.hpp b/src/avx512-32bit-qsort.hpp
@@ -32,6 +32,7 @@ template <>
 struct zmm_vector<int32_t> {
     using type_t = int32_t;
     using reg_t = __m512i;
+    using regi_t = __m512i;
     using halfreg_t = __m256i;
     using opmask_t = __mmask16;
     static const uint8_t numlanes = 16;
@@ -65,6 +66,10 @@ struct zmm_vector<int32_t> {
     {
         return _mm512_cmp_epi32_mask(x, y, _MM_CMPINT_NLT);
     }
+    static opmask_t eq(reg_t x, reg_t y)
+    {
+        return _mm512_cmpeq_epi32_mask(x, y);
+    }
     static opmask_t get_partial_loadmask(uint64_t num_to_read)
     {
         return ((0x1ull << num_to_read) - 0x1ull);
@@ -123,6 +128,40 @@ struct zmm_vector<int32_t> {
     {
         return _mm512_set1_epi32(v);
     }
+    static regi_t seti(int v1,
+                       int v2,
+                       int v3,
+                       int v4,
+                       int v5,
+                       int v6,
+                       int v7,
+                       int v8,
+                       int v9,
+                       int v10,
+                       int v11,
+                       int v12,
+                       int v13,
+                       int v14,
+                       int v15,
+                       int v16)
+    {
+        return _mm512_set_epi32(v1,
+                                v2,
+                                v3,
+                                v4,
+                                v5,
+                                v6,
+                                v7,
+                                v8,
+                                v9,
+                                v10,
+                                v11,
+                                v12,
+                                v13,
+                                v14,
+                                v15,
+                                v16);
+    }
     template <uint8_t mask>
     static reg_t shuffle(reg_t zmm)
     {
@@ -171,6 +210,7 @@ template <>
 struct zmm_vector<uint32_t> {
     using type_t = uint32_t;
     using reg_t = __m512i;
+    using regi_t = __m512i;
     using halfreg_t = __m256i;
     using opmask_t = __mmask16;
     static const uint8_t numlanes = 16;
@@ -214,6 +254,10 @@ struct zmm_vector<uint32_t> {
     {
         return _mm512_cmp_epu32_mask(x, y, _MM_CMPINT_NLT);
     }
+    static opmask_t eq(reg_t x, reg_t y)
+    {
+        return _mm512_cmpeq_epu32_mask(x, y);
+    }
     static opmask_t get_partial_loadmask(uint64_t num_to_read)
     {
         return ((0x1ull << num_to_read) - 0x1ull);
@@ -262,6 +306,40 @@ struct zmm_vector<uint32_t> {
     {
         return _mm512_set1_epi32(v);
     }
+    static regi_t seti(int v1,
+                       int v2,
+                       int v3,
+                       int v4,
+                       int v5,
+                       int v6,
+                       int v7,
+                       int v8,
+                       int v9,
+                       int v10,
+                       int v11,
+                       int v12,
+                       int v13,
+                       int v14,
+                       int v15,
+                       int v16)
+    {
+        return _mm512_set_epi32(v1,
+                                v2,
+                                v3,
+                                v4,
+                                v5,
+                                v6,
+                                v7,
+                                v8,
+                                v9,
+                                v10,
+                                v11,
+                                v12,
+                                v13,
+                                v14,
+                                v15,
+                                v16);
+    }
     template <uint8_t mask>
     static reg_t shuffle(reg_t zmm)
     {
@@ -310,6 +388,7 @@ template <>
 struct zmm_vector<float> {
     using type_t = float;
     using reg_t = __m512;
+    using regi_t = __m512i;
     using halfreg_t = __m256;
     using opmask_t = __mmask16;
     static const uint8_t numlanes = 16;
@@ -343,6 +422,10 @@ struct zmm_vector<float> {
     {
         return _mm512_cmp_ps_mask(x, y, _CMP_GE_OQ);
     }
+    static opmask_t eq(reg_t x, reg_t y)
+    {
+        return _mm512_cmpeq_ps_mask(x, y);
+    }
     static opmask_t get_partial_loadmask(uint64_t num_to_read)
     {
         return ((0x1ull << num_to_read) - 0x1ull);
@@ -415,6 +498,40 @@ struct zmm_vector<float> {
     {
         return _mm512_set1_ps(v);
     }
+    static regi_t seti(int v1,
+                       int v2,
+                       int v3,
+                       int v4,
+                       int v5,
+                       int v6,
+                       int v7,
+                       int v8,
+                       int v9,
+                       int v10,
+                       int v11,
+                       int v12,
+                       int v13,
+                       int v14,
+                       int v15,
+                       int v16)
+    {
+        return _mm512_set_epi32(v1,
+                                v2,
+                                v3,
+                                v4,
+                                v5,
+                                v6,
+                                v7,
+                                v8,
+                                v9,
+                                v10,
+                                v11,
+                                v12,
+                                v13,
+                                v14,
+                                v15,
+                                v16);
+    }
     template <uint8_t mask>
     static reg_t shuffle(reg_t zmm)
     {
diff --git a/src/avx512-64bit-keyvaluesort.hpp b/src/avx512-64bit-keyvaluesort.hpp
@@ -267,12 +267,17 @@ template <typename T1, typename T2>
 X86_SIMD_SORT_INLINE void
 avx512_qsort_kv(T1 *keys, T2 *indexes, arrsize_t arrsize, bool hasnan = false)
 {
-    using keytype = typename std::conditional<sizeof(T1) == sizeof(int32_t),
-                                              ymm_vector<T1>,
-                                              zmm_vector<T1>>::type;
-    using valtype = typename std::conditional<sizeof(T2) == sizeof(int32_t),
-                                              ymm_vector<T2>,
-                                              zmm_vector<T2>>::type;
+    using keytype =
+            typename std::conditional<sizeof(T1) != sizeof(T2)
+                                              && sizeof(T1) == sizeof(int32_t),
+                                      ymm_vector<T1>,
+                                      zmm_vector<T1>>::type;
+    using valtype =
+            typename std::conditional<sizeof(T1) != sizeof(T2)
+                                              && sizeof(T2) == sizeof(int32_t),
+                                      ymm_vector<T2>,
+                                      zmm_vector<T2>>::type;
+
     if (arrsize > 1) {
         if constexpr (std::is_floating_point_v<T1>) {
             arrsize_t nan_count = 0;
diff --git a/src/xss-network-keyvaluesort.hpp b/src/xss-network-keyvaluesort.hpp
@@ -45,7 +45,112 @@ template <typename vtype1,
           typename vtype2,
           typename reg_t = typename vtype1::reg_t,
           typename index_type = typename vtype2::reg_t>
-X86_SIMD_SORT_INLINE reg_t sort_zmm_64bit(reg_t key_zmm, index_type &index_zmm)
+X86_SIMD_SORT_INLINE reg_t sort_reg_16lanes(reg_t key_zmm,
+                                            index_type &index_zmm)
+{
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(key_zmm),
+            index_zmm,
+            vtype2::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(index_zmm),
+            0xAAAA);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::template shuffle<SHUFFLE_MASK(0, 1, 2, 3)>(key_zmm),
+            index_zmm,
+            vtype2::template shuffle<SHUFFLE_MASK(0, 1, 2, 3)>(index_zmm),
+            0xCCCC);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(key_zmm),
+            index_zmm,
+            vtype2::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(index_zmm),
+            0xAAAA);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::permutexvar(vtype1::seti(NETWORK_32BIT_3), key_zmm),
+            index_zmm,
+            vtype2::permutexvar(vtype2::seti(NETWORK_32BIT_3), index_zmm),
+            0xF0F0);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(key_zmm),
+            index_zmm,
+            vtype2::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(index_zmm),
+            0xCCCC);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(key_zmm),
+            index_zmm,
+            vtype2::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(index_zmm),
+            0xAAAA);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::permutexvar(vtype1::seti(NETWORK_32BIT_5), key_zmm),
+            index_zmm,
+            vtype2::permutexvar(vtype2::seti(NETWORK_32BIT_5), index_zmm),
+            0xFF00);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::permutexvar(vtype1::seti(NETWORK_32BIT_6), key_zmm),
+            index_zmm,
+            vtype2::permutexvar(vtype2::seti(NETWORK_32BIT_6), index_zmm),
+            0xF0F0);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(key_zmm),
+            index_zmm,
+            vtype2::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(index_zmm),
+            0xCCCC);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(key_zmm),
+            index_zmm,
+            vtype2::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(index_zmm),
+            0xAAAA);
+    return key_zmm;
+}
+
+// Assumes zmm is bitonic and performs a recursive half cleaner
+template <typename vtype1,
+          typename vtype2,
+          typename reg_t = typename vtype1::reg_t,
+          typename index_type = typename vtype2::reg_t>
+X86_SIMD_SORT_INLINE reg_t bitonic_merge_reg_16lanes(reg_t key_zmm,
+                                                     index_type &index_zmm)
+{
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::permutexvar(vtype1::seti(NETWORK_32BIT_7), key_zmm),
+            index_zmm,
+            vtype2::permutexvar(vtype2::seti(NETWORK_32BIT_7), index_zmm),
+            0xFF00);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::permutexvar(vtype1::seti(NETWORK_32BIT_6), key_zmm),
+            index_zmm,
+            vtype2::permutexvar(vtype2::seti(NETWORK_32BIT_6), index_zmm),
+            0xF0F0);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(key_zmm),
+            index_zmm,
+            vtype2::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(index_zmm),
+            0xCCCC);
+    key_zmm = cmp_merge<vtype1, vtype2>(
+            key_zmm,
+            vtype1::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(key_zmm),
+            index_zmm,
+            vtype2::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(index_zmm),
+            0xAAAA);
+    return key_zmm;
+}
+
+template <typename vtype1,
+          typename vtype2,
+          typename reg_t = typename vtype1::reg_t,
+          typename index_type = typename vtype2::reg_t>
+X86_SIMD_SORT_INLINE reg_t sort_reg_8lanes(reg_t key_zmm, index_type &index_zmm)
 {
     const typename vtype1::regi_t rev_index1 = vtype1::seti(NETWORK_64BIT_2);
     const typename vtype2::regi_t rev_index2 = vtype2::seti(NETWORK_64BIT_2);
@@ -93,8 +198,8 @@ template <typename vtype1,
           typename vtype2,
           typename reg_t = typename vtype1::reg_t,
           typename index_type = typename vtype2::reg_t>
-X86_SIMD_SORT_INLINE reg_t bitonic_merge_zmm_64bit(reg_t key_zmm,
-                                                   index_type &index_zmm)
+X86_SIMD_SORT_INLINE reg_t bitonic_merge_reg_8lanes(reg_t key_zmm,
+                                                    index_type &index_zmm)
 {
 
     // 1) half_cleaner[8]: compare 0-4, 1-5, 2-6, 3-7
@@ -128,10 +233,13 @@ bitonic_merge_dispatch(typename keyType::reg_t &key,
 {
     constexpr int numlanes = keyType::numlanes;
     if constexpr (numlanes == 8) {
-        key = bitonic_merge_zmm_64bit<keyType, valueType>(key, value);
+        key = bitonic_merge_reg_8lanes<keyType, valueType>(key, value);
+    }
+    else if constexpr (numlanes == 16) {
+        key = bitonic_merge_reg_16lanes<keyType, valueType>(key, value);
     }
     else {
-        static_assert(numlanes == -1, "should not reach here");
+        static_assert(numlanes == -1, "No implementation");
         UNUSED(key);
         UNUSED(value);
     }
@@ -143,10 +251,13 @@ X86_SIMD_SORT_INLINE void sort_vec_dispatch(typename keyType::reg_t &key,
 {
     constexpr int numlanes = keyType::numlanes;
     if constexpr (numlanes == 8) {
-        key = sort_zmm_64bit<keyType, valueType>(key, value);
+        key = sort_reg_8lanes<keyType, valueType>(key, value);
+    }
+    else if constexpr (numlanes == 16) {
+        key = sort_reg_16lanes<keyType, valueType>(key, value);
     }
     else {
-        static_assert(numlanes == -1, "should not reach here");
+        static_assert(numlanes == -1, "No implementation");
         UNUSED(key);
         UNUSED(value);
     }