WIP

serge-sans-paille · serge-sans-paille · commit bf059a0d0725 · 2025-08-09T15:21:10.000+02:00
diff --git a/include/xsimd/arch/xsimd_neon.hpp b/include/xsimd/arch/xsimd_neon.hpp
@@ -2916,6 +2916,24 @@ namespace xsimd
             return vreinterpretq_s64_u64(swizzle(vreinterpretq_u64_s64(self), mask, A {}));
         }
 
+        namespace detail
+        {
+            template <uint32_t Va, uint32_t Vb>
+            uint8x8_t make_mask()
+            {
+                return {
+                    static_cast<uint8_t>((Va % 2) * 4 + 0),
+                    static_cast<uint8_t>((Va % 2) * 4 + 1),
+                    static_cast<uint8_t>((Va % 2) * 4 + 2),
+                    static_cast<uint8_t>((Va % 2) * 4 + 3),
+                    static_cast<uint8_t>((Vb % 2) * 4 + 0),
+                    static_cast<uint8_t>((Vb % 2) * 4 + 1),
+                    static_cast<uint8_t>((Vb % 2) * 4 + 2),
+                    static_cast<uint8_t>((Vb % 2) * 4 + 3),
+                };
+            }
+        }
+
         template <class A, uint32_t V0, uint32_t V1, uint32_t V2, uint32_t V3>
         XSIMD_INLINE batch<uint32_t, A> swizzle(batch<uint32_t, A> const& self,
                                                 batch_constant<uint32_t, A, V0, V1, V2, V3> mask,
@@ -2956,60 +2974,37 @@ namespace xsimd
             XSIMD_IF_CONSTEXPR(V0 < 2 && V1 < 2 && V2 < 2 && V3 < 2)
             {
                 uint8x8_t low = vreinterpret_u8_u64(vget_low_u64(vreinterpretq_u64_u32(self)));
-                uint8x8_t mask_lo = {
-                    static_cast<uint8_t>(V0 * 4 + 0),
-                    static_cast<uint8_t>(V0 * 4 + 1),
-                    static_cast<uint8_t>(V0 * 4 + 2),
-                    static_cast<uint8_t>(V0 * 4 + 3),
-                    static_cast<uint8_t>(V1 * 4 + 0),
-                    static_cast<uint8_t>(V1 * 4 + 1),
-                    static_cast<uint8_t>(V1 * 4 + 2),
-                    static_cast<uint8_t>(V1 * 4 + 3),
-                };
-                uint8x8_t mask_hi = {
-                    static_cast<uint8_t>(V2 * 4 + 0),
-                    static_cast<uint8_t>(V2 * 4 + 1),
-                    static_cast<uint8_t>(V2 * 4 + 2),
-                    static_cast<uint8_t>(V2 * 4 + 3),
-                    static_cast<uint8_t>(V3 * 4 + 0),
-                    static_cast<uint8_t>(V3 * 4 + 1),
-                    static_cast<uint8_t>(V3 * 4 + 2),
-                    static_cast<uint8_t>(V3 * 4 + 3),
-                };
+                uint8x8_t mask_lo = detail::make_mask<V0, V1>();
+                uint8x8_t mask_hi = detail::make_mask<V2, V3>();
                 uint8x8_t lo = vtbl1_u8(low, mask_lo);
                 uint8x8_t hi = vtbl1_u8(low, mask_hi);
                 return vreinterpretq_u32_u8(vcombine_u8(lo, hi));
             }
             XSIMD_IF_CONSTEXPR(V0 >= 2 && V1 >= 2 && V2 >= 2 && V3 >= 2)
             {
                 uint8x8_t high = vreinterpret_u8_u64(vget_high_u64(vreinterpretq_u64_u32(self)));
-                uint8x8_t mask_lo = {
-                    static_cast<uint8_t>((V0 - 2) * 4 + 0),
-                    static_cast<uint8_t>((V0 - 2) * 4 + 1),
-                    static_cast<uint8_t>((V0 - 2) * 4 + 2),
-                    static_cast<uint8_t>((V0 - 2) * 4 + 3),
-                    static_cast<uint8_t>((V1 - 2) * 4 + 0),
-                    static_cast<uint8_t>((V1 - 2) * 4 + 1),
-                    static_cast<uint8_t>((V1 - 2) * 4 + 2),
-                    static_cast<uint8_t>((V1 - 2) * 4 + 3),
-                };
-                uint8x8_t mask_hi = {
-                    static_cast<uint8_t>((V2 - 2) * 4 + 0),
-                    static_cast<uint8_t>((V2 - 2) * 4 + 1),
-                    static_cast<uint8_t>((V2 - 2) * 4 + 2),
-                    static_cast<uint8_t>((V2 - 2) * 4 + 3),
-                    static_cast<uint8_t>((V3 - 2) * 4 + 0),
-                    static_cast<uint8_t>((V3 - 2) * 4 + 1),
-                    static_cast<uint8_t>((V3 - 2) * 4 + 2),
-                    static_cast<uint8_t>((V3 - 2) * 4 + 3),
-                };
+                uint8x8_t mask_lo = detail::make_mask<V0, V1>();
+                uint8x8_t mask_hi = detail::make_mask<V2, V3>();
                 uint8x8_t lo = vtbl1_u8(high, mask_lo);
                 uint8x8_t hi = vtbl1_u8(high, mask_hi);
                 return vreinterpretq_u32_u8(vcombine_u8(lo, hi));
             }
-            std::array<uint32_t, 4> data;
-            self.store_aligned(data.data());
-            return set(batch<uint32_t, A>(), A(), data[V0], data[V1], data[V2], data[V3]);
+
+            uint8x8_t mask_lo = detail::make_mask<V0, V1>();
+            uint8x8_t mask_hi = detail::make_mask<V2, V3>();
+
+            uint8x8_t low = vreinterpret_u8_u64(vget_low_u64(vreinterpretq_u64_u32(self)));
+            uint8x8_t lol = vtbl1_u8(low, mask_lo);
+            uint8x8_t loh = vtbl1_u8(low, mask_hi);
+            uint32x4_t true_br = vreinterpretq_u32_u8(vcombine_u8(lol, loh));
+
+            uint8x8_t high = vreinterpret_u8_u64(vget_high_u64(vreinterpretq_u64_u32(self)));
+            uint8x8_t hil = vtbl1_u8(high, mask_lo);
+            uint8x8_t hih = vtbl1_u8(high, mask_hi);
+            uint32x4_t false_br = vreinterpretq_u32_u8(vcombine_u8(hil, hih));
+
+            batch_bool_constant<uint32_t, A, (V0 < 2), (V1 < 2), (V2 < 2), (V3 < 2)> blend_mask;
+            return select(blend_mask, batch<uint32_t, A>(true_br), batch<uint32_t, A>(false_br), A {});
         }
 
         template <class A, uint32_t V0, uint32_t V1>