Changed partition code

sterrettm2 · sterrettm2 · commit 3561db30fecc · 2023-10-20T13:53:41.000-07:00
diff --git a/src/avx2-32bit-common.h b/src/avx2-32bit-common.h
@@ -129,14 +129,6 @@ struct avx2_vector<int32_t> {
     {
         return avx2_emu_mask_compressstoreu<type_t>(mem, mask, x);
     }
-    static int32_t double_compressstore(type_t *left_addr,
-                                        type_t *right_addr,
-                                        opmask_t k,
-                                        reg_t reg)
-    {
-        return avx2_double_compressstore32<type_t>(
-                left_addr, right_addr, k, reg);
-    }
     static reg_t maskz_loadu(opmask_t mask, void const *mem)
     {
         return _mm256_maskload_epi32((const int *)mem, mask);
@@ -210,6 +202,13 @@ struct avx2_vector<int32_t> {
     static __m256i cast_to(reg_t v){
         return v;
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx2_double_compressstore32<type_t>(left_addr, right_addr, k, reg);
+    }
 };
 template <>
 struct avx2_vector<uint32_t> {
@@ -277,14 +276,6 @@ struct avx2_vector<uint32_t> {
     {
         return avx2_emu_mask_compressstoreu<type_t>(mem, mask, x);
     }
-    static int32_t double_compressstore(type_t *left_addr,
-                                        type_t *right_addr,
-                                        opmask_t k,
-                                        reg_t reg)
-    {
-        return avx2_double_compressstore32<type_t>(
-                left_addr, right_addr, k, reg);
-    }
     static reg_t mask_loadu(reg_t x, opmask_t mask, void const *mem)
     {
         reg_t dst = _mm256_maskload_epi32((const int *)mem, mask);
@@ -353,6 +344,13 @@ struct avx2_vector<uint32_t> {
     static __m256i cast_to(reg_t v){
         return v;
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx2_double_compressstore32<type_t>(left_addr, right_addr, k, reg);
+    }
 };
 template <>
 struct avx2_vector<float> {
@@ -439,14 +437,6 @@ struct avx2_vector<float> {
     {
         return avx2_emu_mask_compressstoreu<type_t>(mem, mask, x);
     }
-    static int32_t double_compressstore(type_t *left_addr,
-                                        type_t *right_addr,
-                                        opmask_t k,
-                                        reg_t reg)
-    {
-        return avx2_double_compressstore32<type_t>(
-                left_addr, right_addr, k, reg);
-    }
     static reg_t mask_loadu(reg_t x, opmask_t mask, void const *mem)
     {
         reg_t dst = _mm256_maskload_ps((type_t *)mem, mask);
@@ -517,6 +507,13 @@ struct avx2_vector<float> {
     static __m256i cast_to(reg_t v){
         return _mm256_castps_si256(v);
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx2_double_compressstore32<type_t>(left_addr, right_addr, k, reg);
+    }
 };
 
 struct avx2_32bit_swizzle_ops{
diff --git a/src/avx2-emu-funcs.hpp b/src/avx2-emu-funcs.hpp
@@ -140,7 +140,7 @@ void avx2_emu_mask_compressstoreu(void *base_addr,
 }
 
 template <typename T>
-int32_t avx2_double_compressstore32(void *left_addr,
+int avx2_double_compressstore32(void *left_addr,
                                     void *right_addr,
                                     typename avx2_vector<T>::opmask_t k,
                                     typename avx2_vector<T>::reg_t reg)
diff --git a/src/avx512-16bit-qsort.hpp b/src/avx512-16bit-qsort.hpp
@@ -177,6 +177,13 @@ struct zmm_vector<float16> {
     {
         return v;
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<float16>>(left_addr, right_addr, k, reg);
+    }
 };
 
 template <>
@@ -301,6 +308,13 @@ struct zmm_vector<int16_t> {
     {
         return v;
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+    }
 };
 template <>
 struct zmm_vector<uint16_t> {
@@ -422,6 +436,13 @@ struct zmm_vector<uint16_t> {
     {
         return v;
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+    }
 };
 
 template <>
diff --git a/src/avx512-32bit-qsort.hpp b/src/avx512-32bit-qsort.hpp
@@ -154,6 +154,13 @@ struct zmm_vector<int32_t> {
     {
         return v;
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+    }
 };
 template <>
 struct zmm_vector<uint32_t> {
@@ -281,6 +288,13 @@ struct zmm_vector<uint32_t> {
     {
         return v;
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+    }
 };
 template <>
 struct zmm_vector<float> {
@@ -422,6 +436,13 @@ struct zmm_vector<float> {
     {
         return _mm512_castps_si512(v);
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+    }
 };
 
 /*
diff --git a/src/avx512-64bit-common.h b/src/avx512-64bit-common.h
@@ -660,6 +660,13 @@ struct zmm_vector<int64_t> {
     {
         return v;
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+    }
 };
 template <>
 struct zmm_vector<uint64_t> {
@@ -818,6 +825,13 @@ struct zmm_vector<uint64_t> {
     {
         return v;
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+    }
 };
 template <>
 struct zmm_vector<double> {
@@ -982,6 +996,13 @@ struct zmm_vector<double> {
     {
         return _mm512_castpd_si512(v);
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+    }
 };
 
 /*
diff --git a/src/avx512fp16-16bit-qsort.hpp b/src/avx512fp16-16bit-qsort.hpp
@@ -145,6 +145,13 @@ struct zmm_vector<_Float16> {
     {
         return _mm512_castph_si512(v);
     }
+    static int double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    opmask_t k,
+                                    reg_t reg)
+    {
+        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+    }
 };
 
 template <>
diff --git a/src/xss-common-qsort.h b/src/xss-common-qsort.h
@@ -162,73 +162,41 @@ X86_SIMD_SORT_INLINE reg_t cmp_merge(reg_t in1, reg_t in2, opmask_t mask)
     reg_t max = vtype::max(in2, in1);
     return vtype::mask_mov(min, mask, max); // 0 -> min, 1 -> max
 }
-/*
- * Parition one ZMM register based on the pivot and returns the
- * number of elements that are greater than or equal to the pivot.
- */
+
 template <typename vtype, typename type_t, typename reg_t>
-X86_SIMD_SORT_INLINE arrsize_t partition_vec_avx512(type_t *l_store,
-                                             type_t *r_store,
-                                             const reg_t curr_vec,
-                                             const reg_t pivot_vec,
-                                             reg_t &smallest_vec,
-                                             reg_t &biggest_vec)
+int avx512_double_compressstore(type_t *left_addr,
+                                    type_t *right_addr,
+                                    typename vtype::opmask_t k,
+                                    reg_t reg)
 {
-    typename vtype::opmask_t ge_mask = vtype::ge(curr_vec, pivot_vec);
-    int amount_ge_pivot = _mm_popcnt_u32((int)ge_mask);
+    int amount_ge_pivot = _mm_popcnt_u32((int)k);
 
-    vtype::mask_compressstoreu(l_store, vtype::knot_opmask(ge_mask), curr_vec);
+    vtype::mask_compressstoreu(left_addr, vtype::knot_opmask(k), reg);
     vtype::mask_compressstoreu(
-            r_store + vtype::numlanes - amount_ge_pivot, ge_mask, curr_vec);
-
-    smallest_vec = vtype::min(curr_vec, smallest_vec);
-    biggest_vec = vtype::max(curr_vec, biggest_vec);
-
+            right_addr + vtype::numlanes - amount_ge_pivot, k, reg);
+    
     return amount_ge_pivot;
 }
-/*
- * Parition one YMM register based on the pivot and returns the
- * number of elements that are greater than or equal to the pivot.
- */
+
+// Generic function dispatches to AVX2 or AVX512 code
 template <typename vtype, typename type_t, typename reg_t = typename vtype::reg_t>
-X86_SIMD_SORT_INLINE arrsize_t partition_vec_avx2(type_t *l_store,
+X86_SIMD_SORT_INLINE arrsize_t partition_vec(type_t *l_store,
                                              type_t *r_store,
                                              const reg_t curr_vec,
                                              const reg_t pivot_vec,
                                              reg_t &smallest_vec,
                                              reg_t &biggest_vec)
 {
-    /* which elements are larger than or equal to the pivot */
     typename vtype::opmask_t ge_mask = vtype::ge(curr_vec, pivot_vec);
-
-    int32_t amount_ge_pivot = vtype::double_compressstore(
-            l_store, r_store, ge_mask, curr_vec);
+    
+    int amount_ge_pivot = vtype::double_compressstore(l_store, r_store, ge_mask, curr_vec);
 
     smallest_vec = vtype::min(curr_vec, smallest_vec);
     biggest_vec = vtype::max(curr_vec, biggest_vec);
 
     return amount_ge_pivot;
 }
 
-// Generic function dispatches to AVX2 or AVX512 code
-template <typename vtype, typename type_t, typename reg_t = typename vtype::reg_t>
-X86_SIMD_SORT_INLINE arrsize_t partition_vec(type_t *l_store,
-                                             type_t *r_store,
-                                             const reg_t curr_vec,
-                                             const reg_t pivot_vec,
-                                             reg_t &smallest_vec,
-                                             reg_t &biggest_vec)
-{
-    if constexpr (sizeof(reg_t) == 64){
-        return partition_vec_avx512<vtype>(l_store, r_store, curr_vec, pivot_vec, smallest_vec, biggest_vec);
-    }else if constexpr (sizeof(reg_t) == 32){
-        return partition_vec_avx2<vtype>(l_store, r_store, curr_vec, pivot_vec, smallest_vec, biggest_vec);
-    }else{
-        static_assert(sizeof(reg_t) == -1, "should not reach here");
-        return 0;
-    }
-}
-
 /*
  * Parition an array based on the pivot and returns the index of the
  * first element that is greater than or equal to the pivot.

Original file line number	Diff line number	Diff line change
`@@ -140,7 +140,7 @@ void avx2_emu_mask_compressstoreu(void *base_addr,`
`140`	`140`	`}`
`141`	`141`
`142`	`142`	`template <typename T>`
`143`		`-int32_t avx2_double_compressstore32(void *left_addr,`
	`143`	`+int avx2_double_compressstore32(void *left_addr,`
`144`	`144`	`void *right_addr,`
`145`	`145`	`typename avx2_vector<T>::opmask_t k,`
`146`	`146`	`typename avx2_vector<T>::reg_t reg)`
Original file line number	Diff line number	Diff line change
`@@ -145,6 +145,13 @@ struct zmm_vector<_Float16> {`
`145`	`145`	`{`
`146`	`146`	`return _mm512_castph_si512(v);`
`147`	`147`	`}`
	`148`	`+ static int double_compressstore(type_t *left_addr,`
	`149`	`+ type_t *right_addr,`
	`150`	`+ opmask_t k,`
	`151`	`+ reg_t reg)`
	`152`	`+ {`
	`153`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`154`	`+ }`
`148`	`155`	`};`
`149`	`156`
`150`	`157`	`template <>`