Reformat store bool to match other function's style

serge-sans-paille · serge-sans-paille · commit 8bf44e44cd8e · 2025-10-11T23:24:30.000+02:00
diff --git a/include/xsimd/arch/xsimd_avx2.hpp b/include/xsimd/arch/xsimd_avx2.hpp
@@ -978,59 +978,58 @@ namespace xsimd
         }
 
         // store<batch_bool>
-        namespace detail
+        template <class T, class A, class = typename std::enable_if<std::is_integral<T>::value, void>::type>
+        XSIMD_INLINE void store(batch_bool<T, A> b, bool* mem, requires_arch<avx2>) noexcept
         {
-            template <class T>
-            XSIMD_INLINE void store_bool_avx2(__m256i b, bool* mem, T) noexcept
+            // GCC <12 have missing or buggy unaligned store intrinsics; use memcpy to work around this.
+            // GCC/Clang/MSVC will turn it into the correct store.
+            XSIMD_IF_CONSTEXPR(sizeof(T) == 1)
+            {
+                // negate mask to convert to 0 or 1
+                auto val = _mm256_sub_epi8(_mm256_set1_epi8(0), b);
+                memcpy(mem, &val, sizeof(val));
+            }
+            else XSIMD_IF_CONSTEXPR(sizeof(T) == 2)
             {
-                // GCC <12 have missing or buggy unaligned store intrinsics; use memcpy to work around this.
-                // GCC/Clang/MSVC will turn it into the correct store.
-                XSIMD_IF_CONSTEXPR(sizeof(T) == 1)
-                {
-                    // negate mask to convert to 0 or 1
-                    auto val = _mm256_sub_epi8(_mm256_set1_epi8(0), b);
-                    memcpy(mem, &val, sizeof(val));
-                    return;
-                }
-
                 auto b_hi = _mm256_extractf128_si256(b, 1);
                 auto b_lo = _mm256_castsi256_si128(b);
-                XSIMD_IF_CONSTEXPR(sizeof(T) == 2)
-                {
-                    auto val = _mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(b_lo, b_hi));
-                    memcpy(mem, &val, sizeof(val));
-                }
-                else XSIMD_IF_CONSTEXPR(sizeof(T) == 4)
-                {
-                    auto pack_16 = _mm_packs_epi32(b_lo, b_hi);
-                    auto val = _mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(pack_16, pack_16));
+                auto val = _mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(b_lo, b_hi));
+                memcpy(mem, &val, sizeof(val));
+            }
+            else XSIMD_IF_CONSTEXPR(sizeof(T) == 4)
+            {
+                auto b_hi = _mm256_extractf128_si256(b, 1);
+                auto b_lo = _mm256_castsi256_si128(b);
+                auto pack_16 = _mm_packs_epi32(b_lo, b_hi);
+                auto val = _mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(pack_16, pack_16));
 #if defined(__x86_64__)
-                    auto val_lo = _mm_cvtsi128_si64(val);
-                    memcpy(mem, &val_lo, sizeof(val_lo));
+                auto val_lo = _mm_cvtsi128_si64(val);
+                memcpy(mem, &val_lo, sizeof(val_lo));
 #else
-                    memcpy(mem, &val, sizeof(uint64_t));
+                memcpy(mem, &val, sizeof(uint64_t));
 #endif
-                }
-                else XSIMD_IF_CONSTEXPR(sizeof(T) == 8)
-                {
-                    uint32_t mask = _mm256_movemask_epi8(_mm256_srli_epi64(b, 56));
-                    memcpy(mem, &mask, sizeof(mask));
-                }
-                else
-                {
-                    assert(false && "unsupported arch/op combination");
-                }
             }
+            else XSIMD_IF_CONSTEXPR(sizeof(T) == 8)
+            {
+                uint32_t mask = _mm256_movemask_epi8(_mm256_srli_epi64(b, 56));
+                memcpy(mem, &mask, sizeof(mask));
+            }
+            else
+            {
+                assert(false && "unsupported arch/op combination");
+            }
+        }
 
-            XSIMD_INLINE __m256i avx_to_i(__m256 x) { return _mm256_castps_si256(x); }
-            XSIMD_INLINE __m256i avx_to_i(__m256d x) { return _mm256_castpd_si256(x); }
-            XSIMD_INLINE __m256i avx_to_i(__m256i x) { return x; }
+        template <class A>
+        XSIMD_INLINE void store(batch_bool<float, A> b, bool* mem, requires_arch<avx2>) noexcept
+        {
+            return store(batch_bool<uint32_t, A>(b.data), mem, A {});
         }
 
-        template <class T, class A>
-        XSIMD_INLINE void store(batch_bool<T, A> b, bool* mem, requires_arch<avx2>) noexcept
+        template <class A>
+        XSIMD_INLINE void store(batch_bool<double, A> b, bool* mem, requires_arch<avx2>) noexcept
         {
-            detail::store_bool_avx2(detail::avx_to_i(b), mem, T {});
+            return store(batch_bool<uint64_t, A>(b.data), mem, A {});
         }
 
         // ssub
diff --git a/include/xsimd/arch/xsimd_sse2.hpp b/include/xsimd/arch/xsimd_sse2.hpp
@@ -1718,57 +1718,56 @@ namespace xsimd
         }
 
         // store<batch_bool>
-        namespace detail
+        template <class T, class A, class = typename std::enable_if<std::is_integral<T>::value, void>::type>
+        XSIMD_INLINE void store(batch_bool<T, A> b, bool* mem, requires_arch<sse2>) noexcept
         {
-            template <class T>
-            XSIMD_INLINE void store_bool_sse2(__m128i b, bool* mem, T) noexcept
+            // GCC <12 have missing or buggy unaligned store intrinsics; use memcpy to work around this.
+            // GCC/Clang/MSVC will turn it into the correct store.
+            XSIMD_IF_CONSTEXPR(sizeof(T) == 1)
             {
-                // GCC <12 have missing or buggy unaligned store intrinsics; use memcpy to work around this.
-                // GCC/Clang/MSVC will turn it into the correct store.
-                XSIMD_IF_CONSTEXPR(sizeof(T) == 1)
-                {
-                    // negate mask to convert to 0 or 1
-                    auto val = _mm_sub_epi8(_mm_set1_epi8(0), b);
-                    memcpy(mem, &val, sizeof(val));
-                }
-                else XSIMD_IF_CONSTEXPR(sizeof(T) == 2)
-                {
-                    auto val = _mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(b, b));
+                // negate mask to convert to 0 or 1
+                auto val = _mm_sub_epi8(_mm_set1_epi8(0), b);
+                memcpy(mem, &val, sizeof(val));
+            }
+            else XSIMD_IF_CONSTEXPR(sizeof(T) == 2)
+            {
+                auto val = _mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(b, b));
 #if defined(__x86_64__)
-                    auto val_lo = _mm_cvtsi128_si64(val);
-                    memcpy(mem, &val_lo, sizeof(val_lo));
+                auto val_lo = _mm_cvtsi128_si64(val);
+                memcpy(mem, &val_lo, sizeof(val_lo));
 #else
-                    memcpy(mem, &val, sizeof(uint64_t));
+                memcpy(mem, &val, sizeof(uint64_t));
 #endif
-                }
-                else XSIMD_IF_CONSTEXPR(sizeof(T) == 4)
-                {
-                    auto pack_16 = _mm_packs_epi32(b, b);
-                    uint32_t val = _mm_cvtsi128_si32(_mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(pack_16, pack_16)));
-                    memcpy(mem, &val, sizeof(val));
-                }
-                else XSIMD_IF_CONSTEXPR(sizeof(T) == 8)
-                {
-                    auto pack_32 = _mm_packs_epi32(b, b);
-                    auto pack_16 = _mm_packs_epi32(pack_32, pack_32);
-                    uint16_t val = _mm_cvtsi128_si32(_mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(pack_16, pack_16)));
-                    memcpy(mem, &val, sizeof(val));
-                }
-                else
-                {
-                    assert(false && "unsupported arch/op combination");
-                }
             }
+            else XSIMD_IF_CONSTEXPR(sizeof(T) == 4)
+            {
+                auto pack_16 = _mm_packs_epi32(b, b);
+                uint32_t val = _mm_cvtsi128_si32(_mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(pack_16, pack_16)));
+                memcpy(mem, &val, sizeof(val));
+            }
+            else XSIMD_IF_CONSTEXPR(sizeof(T) == 8)
+            {
+                auto pack_32 = _mm_packs_epi32(b, b);
+                auto pack_16 = _mm_packs_epi32(pack_32, pack_32);
+                uint16_t val = _mm_cvtsi128_si32(_mm_sub_epi8(_mm_set1_epi8(0), _mm_packs_epi16(pack_16, pack_16)));
+                memcpy(mem, &val, sizeof(val));
+            }
+            else
+            {
+                assert(false && "unsupported arch/op combination");
+            }
+        }
 
-            XSIMD_INLINE __m128i sse_to_i(__m128 x) { return _mm_castps_si128(x); }
-            XSIMD_INLINE __m128i sse_to_i(__m128d x) { return _mm_castpd_si128(x); }
-            XSIMD_INLINE __m128i sse_to_i(__m128i x) { return x; }
+        template <class A>
+        XSIMD_INLINE void store(batch_bool<float, A> b, bool* mem, requires_arch<sse2>) noexcept
+        {
+            store(batch_bool<uint32_t, A>(b.data), mem, A {});
         }
 
-        template <class T, class A>
-        XSIMD_INLINE void store(batch_bool<T, A> b, bool* mem, requires_arch<sse2>) noexcept
+        template <class A>
+        XSIMD_INLINE void store(batch_bool<double, A> b, bool* mem, requires_arch<sse2>) noexcept
         {
-            detail::store_bool_sse2(detail::sse_to_i(b), mem, T {});
+            store(batch_bool<uint64_t, A>(b.data), mem, A {});
         }
 
         // store_aligned