Add {load,store}_unaligned for batch_bool

kalenedrael · kalenedrael · commit 4a672afe6369 · 2025-09-28T17:45:08.000-05:00
These work around GCC not being able to optimize the baseline
implementations to SIMD operations, and compilers in general not being
able to know that the vector representation is a bitmask of all 0 or all
1, thus integer 0 or -1.

Also added some more robust tests for bool load/store that test for
bitwise correctness (either 0 or 1).
diff --git a/include/xsimd/arch/xsimd_avx2.hpp b/include/xsimd/arch/xsimd_avx2.hpp
@@ -570,6 +570,42 @@ namespace xsimd
             batch_type imag = _mm256_permute4x64_pd(_mm256_unpackhi_pd(hi, lo), _MM_SHUFFLE(3, 1, 2, 0));
             return { real, imag };
         }
+
+        // load_unaligned<batch_bool>
+        namespace detail {
+            template <class T>
+            XSIMD_INLINE __m256i load_bool_avx2(bool const* mem, T) noexcept {
+                XSIMD_IF_CONSTEXPR(sizeof(T) == 1) {
+                    auto maskz = _mm256_cmpeq_epi8(_mm256_loadu_si256((__m256i const*)mem), _mm256_set1_epi8(0));
+                    return _mm256_xor_si256(maskz, _mm256_set1_epi8(-1));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 2) {
+                    auto bpack = _mm_loadu_si128((__m128i const*)mem);
+                    return _mm256_cmpgt_epi16(_mm256_cvtepu8_epi16(bpack), _mm256_set1_epi16(0));
+                }
+                // GCC <12 have missing or buggy unaligned load intrinsics; use memcpy to work around this.
+                // GCC/Clang/MSVC will turn it into the correct load.
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 4) {
+                    uint64_t tmp;
+                    memcpy(&tmp, mem, sizeof(tmp));
+                    auto bpack = _mm_cvtsi64_si128(tmp);
+                    return _mm256_cmpgt_epi32(_mm256_cvtepu8_epi32(bpack), _mm256_set1_epi32(0));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 8) {
+                    uint32_t tmp;
+                    memcpy(&tmp, mem, sizeof(tmp));
+                    auto bpack = _mm_cvtsi32_si128(tmp);
+                    return _mm256_cmpgt_epi64(_mm256_cvtepu8_epi64(bpack), _mm256_set1_epi64x(0));
+                }
+            }
+        }
+
+        template <class T, class A>
+        XSIMD_INLINE batch_bool<T, A> load_unaligned(bool const* mem, batch_bool<T, A>, requires_arch<avx2>) noexcept
+        {
+            return batch_bool_cast<T, A>(detail::load_bool_avx2(mem, T{}), avx2{});
+        }
+
         // mask
         template <class A, class T, class = typename std::enable_if<std::is_integral<T>::value, void>::type>
         XSIMD_INLINE uint64_t mask(batch_bool<T, A> const& self, requires_arch<avx2>) noexcept
@@ -923,6 +959,55 @@ namespace xsimd
             return _mm256_or_si256(y, w);
         }
 
+        // store<batch_bool>
+        namespace detail {
+            template <class T>
+            XSIMD_INLINE void store_bool_avx2(__m256i b, bool* mem, T) noexcept {
+                // GCC <12 have missing or buggy unaligned store intrinsics; use memcpy to work around this.
+                // GCC/Clang/MSVC will turn it into the correct store.
+                XSIMD_IF_CONSTEXPR(sizeof(T) == 1) {
+                    // negate mask to convert to 0 or 1
+                    auto val = _mm256_sub_epi8(_mm256_set1_epi8(0), b);
+                    memcpy(mem, &val, sizeof(val));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 2) {
+                    auto packed = _mm256_castsi256_si128(_mm256_packs_epi16(b, b));
+                    auto val = _mm_sub_epi8(_mm_set1_epi8(0), packed);
+                    memcpy(mem, &val, sizeof(val));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 4) {
+                    auto bmask = _mm256_set_epi8(
+                        -1, -1, -1, -1, -1, -1, -1, -1,
+                        -1, -1, -1, -1, -1, -1, -1, -1,
+                        -1, -1, -1, -1, -1, -1, -1, -1,
+                        28, 24, 20, 16, 12,  8,  4,  0);
+                    auto packed = _mm256_castsi256_si128(_mm256_shuffle_epi8(b, bmask));
+                    auto val = _mm_extract_epi64(_mm_sub_epi8(_mm_set1_epi8(0), packed), 0);
+                    memcpy(mem, &val, sizeof(val));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 8) {
+                    auto bmask = _mm256_set_epi8(
+                        -1, -1, -1, -1, -1, -1, -1, -1,
+                        -1, -1, -1, -1, -1, -1, -1, -1,
+                        -1, -1, -1, -1, -1, -1, -1, -1,
+                        -1, -1, -1, -1, 24, 16,  8,  0);
+                    auto packed = _mm256_castsi256_si128(_mm256_shuffle_epi8(b, bmask));
+                    uint32_t val = _mm_extract_epi32(_mm_sub_epi8(_mm_set1_epi8(0), packed), 0);
+                    memcpy(mem, &val, sizeof(val));
+                }
+            }
+
+            XSIMD_INLINE __m256i avx_to_i(__m256  x) { return _mm256_castps_si256(x); }
+            XSIMD_INLINE __m256i avx_to_i(__m256d x) { return _mm256_castpd_si256(x); }
+            XSIMD_INLINE __m256i avx_to_i(__m256i x) { return x; }
+        }
+
+        template <class T, class A>
+        XSIMD_INLINE void store(batch_bool<T, A> b, bool* mem, requires_arch<avx2>) noexcept
+        {
+            detail::store_bool_avx2(detail::avx_to_i(b), mem, T{});
+        }
+
         // ssub
         template <class A, class T, class = typename std::enable_if<std::is_integral<T>::value, void>::type>
         XSIMD_INLINE batch<T, A> ssub(batch<T, A> const& self, batch<T, A> const& other, requires_arch<avx2>) noexcept
diff --git a/include/xsimd/arch/xsimd_sse3.hpp b/include/xsimd/arch/xsimd_sse3.hpp
@@ -60,6 +60,51 @@ namespace xsimd
             return _mm_cvtss_f32(tmp2);
         }
 
+        // store<batch_bool>
+        namespace detail {
+            template <class T>
+            XSIMD_INLINE void store_bool_sse3(__m128i b, bool* mem, T) noexcept {
+                // GCC <12 have missing or buggy unaligned store intrinsics; use memcpy to work around this.
+                // GCC/Clang/MSVC will turn it into the correct store.
+                XSIMD_IF_CONSTEXPR(sizeof(T) == 1) {
+                    // negate mask to convert to 0 or 1
+                    auto val = _mm_sub_epi8(_mm_set1_epi8(0), b);
+                    memcpy(mem, &val, sizeof(val));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 2) {
+                    auto packed = _mm_packs_epi16(b, b);
+                    uint64_t val = _mm_extract_epi64(_mm_sub_epi8(_mm_set1_epi8(0), packed), 0);
+                    memcpy(mem, &val, sizeof(val));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 4) {
+                    const auto bmask = _mm_set_epi8(
+                        -1, -1, -1, -1, -1, -1, -1, -1,
+                        -1, -1, -1, -1, 12,  8,  4,  0);
+                    auto packed = _mm_shuffle_epi8(b, bmask);
+                    uint32_t val = _mm_extract_epi32(_mm_sub_epi8(_mm_set1_epi8(0), packed), 0);
+                    memcpy(mem, &val, sizeof(val));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 8) {
+                    const auto bmask = _mm_set_epi8(
+                        -1, -1, -1, -1, -1, -1, -1, -1,
+                        -1, -1, -1, -1, -1, -1,  8,  0);
+                    auto packed = _mm_shuffle_epi8(b, bmask);
+                    uint16_t val = _mm_extract_epi16(_mm_sub_epi8(_mm_set1_epi8(0), packed), 0);
+                    memcpy(mem, &val, sizeof(val));
+                }
+            }
+
+            XSIMD_INLINE __m128i sse_to_i(__m128 x) { return _mm_castps_si128(x); }
+            XSIMD_INLINE __m128i sse_to_i(__m128d x) { return _mm_castpd_si128(x); }
+            XSIMD_INLINE __m128i sse_to_i(__m128i x) { return x; }
+        }
+
+        template <class T, class A>
+        XSIMD_INLINE void store(batch_bool<T, A> b, bool* mem, requires_arch<sse3>) noexcept
+        {
+            detail::store_bool_sse3(detail::sse_to_i(b), mem, T{});
+        }
+
     }
 
 }
diff --git a/include/xsimd/arch/xsimd_sse4_1.hpp b/include/xsimd/arch/xsimd_sse4_1.hpp
@@ -122,6 +122,43 @@ namespace xsimd
             }
         }
 
+        // load_unaligned<batch_bool>
+        namespace detail {
+            template <class T>
+            XSIMD_INLINE __m128i load_bool_sse4(bool const* mem, T) noexcept {
+                XSIMD_IF_CONSTEXPR(sizeof(T) == 1) {
+                    auto maskz = _mm_cmpeq_epi8(_mm_loadu_si128((__m128i const*)mem), _mm_set1_epi8(0));
+                    return _mm_xor_si128(maskz, _mm_set1_epi8(-1));
+                }
+                // GCC <12 have missing or buggy unaligned load intrinsics; use memcpy to work around this.
+                // GCC/Clang/MSVC will turn it into the correct load.
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 2) {
+                    uint64_t tmp;
+                    memcpy(&tmp, mem, sizeof(tmp));
+                    auto bpack = _mm_cvtsi64_si128(tmp);
+                    return _mm_cmpgt_epi16(_mm_cvtepu8_epi16(bpack), _mm_set1_epi16(0));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 4) {
+                    uint32_t tmp;
+                    memcpy(&tmp, mem, sizeof(tmp));
+                    auto bpack = _mm_cvtsi32_si128(tmp);
+                    return _mm_cmpgt_epi32(_mm_cvtepu8_epi32(bpack), _mm_set1_epi32(0));
+                }
+                else XSIMD_IF_CONSTEXPR(sizeof(T) == 8) {
+                    uint16_t tmp;
+                    memcpy(&tmp, mem, sizeof(tmp));
+                    auto bpack = _mm_cvtsi16_si128(tmp);
+                    return _mm_cmpgt_epi64(_mm_cvtepu8_epi64(bpack), _mm_set1_epi64x(0));
+                }
+            }
+        }
+
+        template <class T, class A>
+        XSIMD_INLINE batch_bool<T, A> load_unaligned(bool const* mem, batch_bool<T, A>, requires_arch<sse4_1>) noexcept
+        {
+            return batch_bool_cast<T, A>(detail::load_bool_sse4(mem, T{}), sse4_1{});
+        }
+
         // max
         template <class A, class T, class = typename std::enable_if<std::is_integral<T>::value, void>::type>
         XSIMD_INLINE batch<T, A> max(batch<T, A> const& self, batch<T, A> const& other, requires_arch<sse4_1>) noexcept
diff --git a/test/test_batch_bool.cpp b/test/test_batch_bool.cpp
@@ -185,26 +185,22 @@ struct batch_bool_test
     {
     };
 
-    template <size_t... Values>
-    void check_constructor_from_sequence(std::integral_constant<size_t, 0>, pack<Values...>) const
+    template <typename F, size_t... Values>
+    static batch_bool_type make_batch_impl(F&& f, std::integral_constant<size_t, 0>, pack<Values...>)
     {
-        bool_array_type res = { bool(Values % 3)... };
-        bool_array_type tmp;
-        batch_bool_type b0(bool(Values % 3)...);
-        b0.store_unaligned(tmp.data());
-        INFO("batch_bool(values...)");
-        CHECK_EQ(tmp, res);
-
-        batch_bool_type b1 { bool(Values % 3)... };
-        b1.store_unaligned(tmp.data());
-        INFO("batch_bool{values...}");
-        CHECK_EQ(tmp, res);
+        return batch_bool_type(bool(f(Values))...);
     }
 
-    template <size_t I, size_t... Values>
-    void check_constructor_from_sequence(std::integral_constant<size_t, I>, pack<Values...>) const
+    template <typename F, size_t I, size_t... Values>
+    static batch_bool_type make_batch_impl(F&& f, std::integral_constant<size_t, I>, pack<Values...>)
     {
-        return check_constructor_from_sequence(std::integral_constant<size_t, I - 1>(), pack<Values..., I>());
+        return make_batch_impl(std::forward<F>(f), std::integral_constant<size_t, I - 1>(), pack<I - 1, Values...>());
+    }
+
+    template <typename F>
+    static batch_bool_type make_batch(F&& f)
+    {
+        return make_batch_impl(std::forward<F>(f), std::integral_constant<size_t, size>(), pack<>{});
     }
 
     void test_constructors() const
@@ -213,18 +209,38 @@ struct batch_bool_test
         // value uninitialized, cannot test it.
         (void)a;
 
-        bool_array_type res;
-        batch_bool_type b(true);
-        b.store_unaligned(res.data());
-        INFO("batch_bool{value}");
-        CHECK_EQ(res, all_true);
+        {
+            bool_array_type res;
+            batch_bool_type b(true);
+            b.store_unaligned(res.data());
+            INFO("batch_bool{value}");
+            CHECK_EQ(res, all_true);
+
+            batch_bool_type c { true };
+            c.store_unaligned(res.data());
+            INFO("batch_bool{value}");
+            CHECK_EQ(res, all_true);
+        }
+
+        {
+            auto f_bool = [](size_t i) { return bool(i % 3); };
 
-        batch_bool_type c { true };
-        c.store_unaligned(res.data());
-        INFO("batch_bool{value}");
-        CHECK_EQ(res, all_true);
+            bool_array_type res;
+            for (size_t i = 0; i < res.size(); i++) {
+                res[i] = f_bool(i);
+            }
+
+            bool_array_type tmp;
+            batch_bool_type b0 = make_batch(f_bool);
+            b0.store_unaligned(tmp.data());
+            INFO("batch_bool(values...)");
+            CHECK_EQ(tmp, res);
 
-        check_constructor_from_sequence(std::integral_constant<size_t, size>(), pack<>());
+            batch_bool_type b1 = make_batch(f_bool);
+            b1.store_unaligned(tmp.data());
+            INFO("batch_bool{values...}");
+            CHECK_EQ(tmp, res);
+        }
     }
 
     void test_load_store() const
@@ -239,6 +255,35 @@ struct batch_bool_test
         b = batch_bool_type::load_aligned(arhs.data());
         b.store_aligned(ares.data());
         CHECK_EQ(ares, arhs);
+
+        auto bool_g = xsimd::get_bool<batch_bool_type> {};
+        // load/store, almost all false
+        {
+            size_t i = 0;
+            for (const auto& vec : bool_g.almost_all_false()) {
+                batch_bool_type b = batch_bool_type::load_unaligned(vec.data());
+                batch_bool_type expected = make_batch([i](size_t x) { return x == i; });
+                i++;
+                CHECK_UNARY(xsimd::all(b == expected));
+                b.store_unaligned(res.data());
+                // Check that the representation is bitwise exact.
+                CHECK_UNARY(memcmp(res.data(), vec.data(), sizeof(res)) == 0);
+            }
+        }
+
+        // load/store, almost all true
+        {
+            size_t i = 0;
+            for (const auto& vec : bool_g.almost_all_true()) {
+                batch_bool_type b = batch_bool_type::load_unaligned(vec.data());
+                batch_bool_type expected = make_batch([i](size_t x) { return x != i; });
+                i++;
+                CHECK_UNARY(xsimd::all(b == expected));
+                b.store_unaligned(res.data());
+                CHECK_EQ(res, vec);
+                CHECK_UNARY(memcmp(res.data(), vec.data(), sizeof(res)) == 0);
+            }
+        }
     }
 
     void test_any_all() const