format files

Raghuveer Devulapalli · Raghuveer Devulapalli · commit f8f611fbe4db · 2023-10-23T13:14:52.000-07:00
diff --git a/_clang-format b/_clang-format
@@ -74,7 +74,7 @@ PenaltyExcessCharacter: 1000000
 PenaltyReturnTypeOnItsOwnLine: 60
 PointerAlignment: Right
 ReflowComments:  false
-SortIncludes:    true
+SortIncludes:    false
 SortUsingDeclarations: true
 SpaceAfterCStyleCast: false
 SpaceAfterTemplateKeyword: true
diff --git a/src/avx2-32bit-common.h b/src/avx2-32bit-common.h
@@ -40,12 +40,16 @@ X86_SIMD_SORT_INLINE reg_t sort_ymm_32bit(reg_t ymm)
     ymm = cmp_merge<vtype>(
             ymm, vtype::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(ymm), oxAA);
     ymm = cmp_merge<vtype>(
-            ymm, vtype::permutexvar(vtype::seti(NETWORK_32BIT_AVX2_1), ymm), oxCC);
+            ymm,
+            vtype::permutexvar(vtype::seti(NETWORK_32BIT_AVX2_1), ymm),
+            oxCC);
     ymm = cmp_merge<vtype>(
             ymm, vtype::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(ymm), oxAA);
     ymm = cmp_merge<vtype>(ymm, vtype::permutexvar(rev_index, ymm), oxF0);
     ymm = cmp_merge<vtype>(
-            ymm, vtype::permutexvar(vtype::seti(NETWORK_32BIT_AVX2_3), ymm), oxCC);
+            ymm,
+            vtype::permutexvar(vtype::seti(NETWORK_32BIT_AVX2_3), ymm),
+            oxCC);
     ymm = cmp_merge<vtype>(
             ymm, vtype::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(ymm), oxAA);
     return ymm;
@@ -200,18 +204,21 @@ struct avx2_vector<int32_t> {
     {
         return sort_ymm_32bit<avx2_vector<type_t>>(x);
     }
-    static reg_t cast_from(__m256i v){
+    static reg_t cast_from(__m256i v)
+    {
         return v;
     }
-    static __m256i cast_to(reg_t v){
+    static __m256i cast_to(reg_t v)
+    {
         return v;
     }
     static int double_compressstore(type_t *left_addr,
                                     type_t *right_addr,
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx2_double_compressstore32<type_t>(left_addr, right_addr, k, reg);
+        return avx2_double_compressstore32<type_t>(
+                left_addr, right_addr, k, reg);
     }
 };
 template <>
@@ -346,18 +353,21 @@ struct avx2_vector<uint32_t> {
     {
         return sort_ymm_32bit<avx2_vector<type_t>>(x);
     }
-    static reg_t cast_from(__m256i v){
+    static reg_t cast_from(__m256i v)
+    {
         return v;
     }
-    static __m256i cast_to(reg_t v){
+    static __m256i cast_to(reg_t v)
+    {
         return v;
     }
     static int double_compressstore(type_t *left_addr,
                                     type_t *right_addr,
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx2_double_compressstore32<type_t>(left_addr, right_addr, k, reg);
+        return avx2_double_compressstore32<type_t>(
+                left_addr, right_addr, k, reg);
     }
 };
 template <>
@@ -419,9 +429,10 @@ struct avx2_vector<float> {
     template <int type>
     static opmask_t fpclass(reg_t x)
     {
-        if constexpr (type == (0x01 | 0x80)){
+        if constexpr (type == (0x01 | 0x80)) {
             return _mm256_castps_si256(_mm256_cmp_ps(x, x, _CMP_UNORD_Q));
-        }else{
+        }
+        else {
             static_assert(type == (0x01 | 0x80), "should not reach here");
         }
     }
@@ -514,75 +525,90 @@ struct avx2_vector<float> {
     {
         return sort_ymm_32bit<avx2_vector<type_t>>(x);
     }
-    static reg_t cast_from(__m256i v){
+    static reg_t cast_from(__m256i v)
+    {
         return _mm256_castsi256_ps(v);
     }
-    static __m256i cast_to(reg_t v){
+    static __m256i cast_to(reg_t v)
+    {
         return _mm256_castps_si256(v);
     }
     static int double_compressstore(type_t *left_addr,
                                     type_t *right_addr,
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx2_double_compressstore32<type_t>(left_addr, right_addr, k, reg);
+        return avx2_double_compressstore32<type_t>(
+                left_addr, right_addr, k, reg);
     }
 };
 
-struct avx2_32bit_swizzle_ops{
+struct avx2_32bit_swizzle_ops {
     template <typename vtype, int scale>
-    X86_SIMD_SORT_INLINE typename vtype::reg_t swap_n(typename vtype::reg_t reg){
+    X86_SIMD_SORT_INLINE typename vtype::reg_t swap_n(typename vtype::reg_t reg)
+    {
         __m256i v = vtype::cast_to(reg);
 
-        if constexpr (scale == 2){
+        if constexpr (scale == 2) {
             __m256 vf = _mm256_castsi256_ps(v);
             vf = _mm256_permute_ps(vf, 0b10110001);
             v = _mm256_castps_si256(vf);
-        }else if constexpr (scale == 4){
+        }
+        else if constexpr (scale == 4) {
             __m256 vf = _mm256_castsi256_ps(v);
             vf = _mm256_permute_ps(vf, 0b01001110);
             v = _mm256_castps_si256(vf);
-        }else if constexpr (scale == 8){
+        }
+        else if constexpr (scale == 8) {
             v = _mm256_permute2x128_si256(v, v, 0b00000001);
-        }else{
+        }
+        else {
             static_assert(scale == -1, "should not be reached");
         }
 
         return vtype::cast_from(v);
     }
 
     template <typename vtype, int scale>
-    X86_SIMD_SORT_INLINE typename vtype::reg_t reverse_n(typename vtype::reg_t reg){
+    X86_SIMD_SORT_INLINE typename vtype::reg_t
+    reverse_n(typename vtype::reg_t reg)
+    {
         __m256i v = vtype::cast_to(reg);
 
-        if constexpr (scale == 2){
-            return swap_n<vtype, 2>(reg);
-        }else if constexpr (scale == 4){
+        if constexpr (scale == 2) { return swap_n<vtype, 2>(reg); }
+        else if constexpr (scale == 4) {
             constexpr uint64_t mask = 0b00011011;
             __m256 vf = _mm256_castsi256_ps(v);
             vf = _mm256_permute_ps(vf, mask);
             v = _mm256_castps_si256(vf);
-        }else if constexpr (scale == 8){
+        }
+        else if constexpr (scale == 8) {
             return vtype::reverse(reg);
-        }else{
+        }
+        else {
             static_assert(scale == -1, "should not be reached");
         }
 
         return vtype::cast_from(v);
     }
 
     template <typename vtype, int scale>
-    X86_SIMD_SORT_INLINE typename vtype::reg_t merge_n(typename vtype::reg_t reg, typename vtype::reg_t other){
+    X86_SIMD_SORT_INLINE typename vtype::reg_t
+    merge_n(typename vtype::reg_t reg, typename vtype::reg_t other)
+    {
         __m256i v1 = vtype::cast_to(reg);
         __m256i v2 = vtype::cast_to(other);
 
-        if constexpr (scale == 2){
+        if constexpr (scale == 2) {
             v1 = _mm256_blend_epi32(v1, v2, 0b01010101);
-        }else if constexpr (scale == 4){
+        }
+        else if constexpr (scale == 4) {
             v1 = _mm256_blend_epi32(v1, v2, 0b00110011);
-        }else if constexpr (scale == 8){
+        }
+        else if constexpr (scale == 8) {
             v1 = _mm256_blend_epi32(v1, v2, 0b00001111);
-        }else{
+        }
+        else {
             static_assert(scale == -1, "should not be reached");
         }
 
diff --git a/src/avx2-emu-funcs.hpp b/src/avx2-emu-funcs.hpp
@@ -70,8 +70,10 @@ T avx2_emu_reduce_max32(typename avx2_vector<T>::reg_t x)
     using vtype = avx2_vector<T>;
     using reg_t = typename vtype::reg_t;
 
-    reg_t inter1 = vtype::max(x, vtype::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(x));
-    reg_t inter2 = vtype::max(inter1, vtype::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(inter1));
+    reg_t inter1 = vtype::max(
+            x, vtype::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(x));
+    reg_t inter2 = vtype::max(
+            inter1, vtype::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(inter1));
     T can1 = vtype::template extract<0>(inter2);
     T can2 = vtype::template extract<4>(inter2);
     return std::max(can1, can2);
@@ -83,8 +85,10 @@ T avx2_emu_reduce_min32(typename avx2_vector<T>::reg_t x)
     using vtype = avx2_vector<T>;
     using reg_t = typename vtype::reg_t;
 
-    reg_t inter1 = vtype::min(x, vtype::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(x));
-    reg_t inter2 = vtype::min(inter1, vtype::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(inter1));
+    reg_t inter1 = vtype::min(
+            x, vtype::template shuffle<SHUFFLE_MASK(2, 3, 0, 1)>(x));
+    reg_t inter2 = vtype::min(
+            inter1, vtype::template shuffle<SHUFFLE_MASK(1, 0, 3, 2)>(inter1));
     T can1 = vtype::template extract<0>(inter2);
     T can2 = vtype::template extract<4>(inter2);
     return std::min(can1, can2);
@@ -112,9 +116,9 @@ void avx2_emu_mask_compressstoreu(void *base_addr,
 
 template <typename T>
 int avx2_double_compressstore32(void *left_addr,
-                                    void *right_addr,
-                                    typename avx2_vector<T>::opmask_t k,
-                                    typename avx2_vector<T>::reg_t reg)
+                                void *right_addr,
+                                typename avx2_vector<T>::opmask_t k,
+                                typename avx2_vector<T>::reg_t reg)
 {
     using vtype = avx2_vector<T>;
 
@@ -137,7 +141,7 @@ int avx2_double_compressstore32(void *left_addr,
 
 template <typename T>
 typename avx2_vector<T>::reg_t avx2_emu_max(typename avx2_vector<T>::reg_t x,
-                                           typename avx2_vector<T>::reg_t y)
+                                            typename avx2_vector<T>::reg_t y)
 {
     using vtype = avx2_vector<T>;
     typename vtype::opmask_t nlt = vtype::ge(x, y);
@@ -148,7 +152,7 @@ typename avx2_vector<T>::reg_t avx2_emu_max(typename avx2_vector<T>::reg_t x,
 
 template <typename T>
 typename avx2_vector<T>::reg_t avx2_emu_min(typename avx2_vector<T>::reg_t x,
-                                           typename avx2_vector<T>::reg_t y)
+                                            typename avx2_vector<T>::reg_t y)
 {
     using vtype = avx2_vector<T>;
     typename vtype::opmask_t nlt = vtype::ge(x, y);
diff --git a/src/avx512-16bit-qsort.hpp b/src/avx512-16bit-qsort.hpp
@@ -190,7 +190,8 @@ struct zmm_vector<float16> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<float16>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<float16>>(
+                left_addr, right_addr, k, reg);
     }
 };
 
@@ -325,7 +326,8 @@ struct zmm_vector<int16_t> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<type_t>>(
+                left_addr, right_addr, k, reg);
     }
 };
 template <>
@@ -457,7 +459,8 @@ struct zmm_vector<uint16_t> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<type_t>>(
+                left_addr, right_addr, k, reg);
     }
 };
 
diff --git a/src/avx512-32bit-qsort.hpp b/src/avx512-32bit-qsort.hpp
@@ -163,7 +163,8 @@ struct zmm_vector<int32_t> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<type_t>>(
+                left_addr, right_addr, k, reg);
     }
 };
 template <>
@@ -301,7 +302,8 @@ struct zmm_vector<uint32_t> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<type_t>>(
+                left_addr, right_addr, k, reg);
     }
 };
 template <>
@@ -453,7 +455,8 @@ struct zmm_vector<float> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<type_t>>(
+                left_addr, right_addr, k, reg);
     }
 };
 
diff --git a/src/avx512-64bit-argsort.hpp b/src/avx512-64bit-argsort.hpp
@@ -65,7 +65,6 @@ std_argsort(T *arr, arrsize_t *arg, arrsize_t left, arrsize_t right)
               });
 }
 
-
 /* Workaround for NumPy failed build on macOS x86_64: implicit instantiation of
  * undefined template 'zmm_vector<unsigned long>'*/
 #ifdef __APPLE__
diff --git a/src/avx512-64bit-common.h b/src/avx512-64bit-common.h
@@ -677,7 +677,8 @@ struct zmm_vector<int64_t> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<type_t>>(
+                left_addr, right_addr, k, reg);
     }
 };
 template <>
@@ -846,7 +847,8 @@ struct zmm_vector<uint64_t> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<type_t>>(
+                left_addr, right_addr, k, reg);
     }
 };
 template <>
@@ -1021,7 +1023,8 @@ struct zmm_vector<double> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<type_t>>(
+                left_addr, right_addr, k, reg);
     }
 };
 
diff --git a/src/avx512fp16-16bit-qsort.hpp b/src/avx512fp16-16bit-qsort.hpp
@@ -154,7 +154,8 @@ struct zmm_vector<_Float16> {
                                     opmask_t k,
                                     reg_t reg)
     {
-        return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);
+        return avx512_double_compressstore<zmm_vector<type_t>>(
+                left_addr, right_addr, k, reg);
     }
 };
 
diff --git a/src/xss-common-includes.h b/src/xss-common-includes.h
@@ -75,4 +75,3 @@ struct ymm_vector;
 
 template <typename type>
 struct avx2_vector;
-
diff --git a/src/xss-common-qsort.h b/src/xss-common-qsort.h
diff --git a/src/xss-pivot-selection.hpp b/src/xss-pivot-selection.hpp

Original file line number	Diff line number	Diff line change
`@@ -190,7 +190,8 @@ struct zmm_vector<float16> {`
`190`	`190`	`opmask_t k,`
`191`	`191`	`reg_t reg)`
`192`	`192`	`{`
`193`		`- return avx512_double_compressstore<zmm_vector<float16>>(left_addr, right_addr, k, reg);`
	`193`	`+ return avx512_double_compressstore<zmm_vector<float16>>(`
	`194`	`+ left_addr, right_addr, k, reg);`
`194`	`195`	`}`
`195`	`196`	`};`
`196`	`197`
`@@ -325,7 +326,8 @@ struct zmm_vector<int16_t> {`
`325`	`326`	`opmask_t k,`
`326`	`327`	`reg_t reg)`
`327`	`328`	`{`
`328`		`- return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`329`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(`
	`330`	`+ left_addr, right_addr, k, reg);`
`329`	`331`	`}`
`330`	`332`	`};`
`331`	`333`	`template <>`
`@@ -457,7 +459,8 @@ struct zmm_vector<uint16_t> {`
`457`	`459`	`opmask_t k,`
`458`	`460`	`reg_t reg)`
`459`	`461`	`{`
`460`		`- return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`462`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(`
	`463`	`+ left_addr, right_addr, k, reg);`
`461`	`464`	`}`
`462`	`465`	`};`
`463`	`466`
Original file line number	Diff line number	Diff line change
`@@ -163,7 +163,8 @@ struct zmm_vector<int32_t> {`
`163`	`163`	`opmask_t k,`
`164`	`164`	`reg_t reg)`
`165`	`165`	`{`
`166`		`- return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`166`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(`
	`167`	`+ left_addr, right_addr, k, reg);`
`167`	`168`	`}`
`168`	`169`	`};`
`169`	`170`	`template <>`
`@@ -301,7 +302,8 @@ struct zmm_vector<uint32_t> {`
`301`	`302`	`opmask_t k,`
`302`	`303`	`reg_t reg)`
`303`	`304`	`{`
`304`		`- return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`305`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(`
	`306`	`+ left_addr, right_addr, k, reg);`
`305`	`307`	`}`
`306`	`308`	`};`
`307`	`309`	`template <>`
`@@ -453,7 +455,8 @@ struct zmm_vector<float> {`
`453`	`455`	`opmask_t k,`
`454`	`456`	`reg_t reg)`
`455`	`457`	`{`
`456`		`- return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`458`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(`
	`459`	`+ left_addr, right_addr, k, reg);`
`457`	`460`	`}`
`458`	`461`	`};`
`459`	`462`
Original file line number	Diff line number	Diff line change
`@@ -65,7 +65,6 @@ std_argsort(T arr, arrsize_t arg, arrsize_t left, arrsize_t right)`
`65`	`65`	`});`
`66`	`66`	`}`
`67`	`67`
`68`		`-`
`69`	`68`	`/* Workaround for NumPy failed build on macOS x86_64: implicit instantiation of`
`70`	`69`	`* undefined template 'zmm_vector<unsigned long>'*/`
`71`	`70`	`#ifdef __APPLE__`
Original file line number	Diff line number	Diff line change
`@@ -677,7 +677,8 @@ struct zmm_vector<int64_t> {`
`677`	`677`	`opmask_t k,`
`678`	`678`	`reg_t reg)`
`679`	`679`	`{`
`680`		`- return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`680`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(`
	`681`	`+ left_addr, right_addr, k, reg);`
`681`	`682`	`}`
`682`	`683`	`};`
`683`	`684`	`template <>`
`@@ -846,7 +847,8 @@ struct zmm_vector<uint64_t> {`
`846`	`847`	`opmask_t k,`
`847`	`848`	`reg_t reg)`
`848`	`849`	`{`
`849`		`- return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`850`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(`
	`851`	`+ left_addr, right_addr, k, reg);`
`850`	`852`	`}`
`851`	`853`	`};`
`852`	`854`	`template <>`
`@@ -1021,7 +1023,8 @@ struct zmm_vector<double> {`
`1021`	`1023`	`opmask_t k,`
`1022`	`1024`	`reg_t reg)`
`1023`	`1025`	`{`
`1024`		`- return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`1026`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(`
	`1027`	`+ left_addr, right_addr, k, reg);`
`1025`	`1028`	`}`
`1026`	`1029`	`};`
`1027`	`1030`
Original file line number	Diff line number	Diff line change
`@@ -154,7 +154,8 @@ struct zmm_vector<_Float16> {`
`154`	`154`	`opmask_t k,`
`155`	`155`	`reg_t reg)`
`156`	`156`	`{`
`157`		`- return avx512_double_compressstore<zmm_vector<type_t>>(left_addr, right_addr, k, reg);`
	`157`	`+ return avx512_double_compressstore<zmm_vector<type_t>>(`
	`158`	`+ left_addr, right_addr, k, reg);`
`158`	`159`	`}`
`159`	`160`	`};`
`160`	`161`
Original file line number	Diff line number	Diff line change
`@@ -75,4 +75,3 @@ struct ymm_vector;`
`75`	`75`
`76`	`76`	`template <typename type>`
`77`	`77`	`struct avx2_vector;`
`78`		`-`