VcDevel · iburyl · May 7, 2020 · May 7, 2020 · May 7, 2020 · May 8, 2020
diff --git a/experimental/bits/simd.h b/experimental/bits/simd.h
@@ -59,6 +59,12 @@ using __m512d [[__gnu__::__vector_size__(64)]] = double;
 using __m512i [[__gnu__::__vector_size__(64)]] = long long;
 #endif
 
+#if __clang__
+template<typename T> auto __builtin_ia32_ps256_ps   (T x) { return __builtin_shufflevector(x, _mm_setzero_ps()   , 0, 1, 2, 3, 4, 4, 4, 4); }
+template<typename T> auto __builtin_ia32_ps512_ps   (T x) { return __builtin_shufflevector(x, _mm_setzero_ps()   , 0, 1, 2, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4); }
+template<typename T> auto __builtin_ia32_ps512_256ps(T x) { return __builtin_shufflevector(x, _mm256_setzero_ps(), 0, 1, 2, 3, 4, 5, 6, 7, 8, 8, 8, 8, 8, 8, 8, 8); }
+#endif
+
 // __next_power_of_2{{{
 /**
  * \internal
@@ -178,7 +184,7 @@ using __value_type_or_identity_t
 // }}}
 // __is_vectorizable {{{
 template <typename _Tp>
-struct __is_vectorizable : public std::is_arithmetic<_Tp>
+struct __is_vectorizable : public std::is_arithmetic<std::remove_reference_t<_Tp>>
 {
 };
 template <> struct __is_vectorizable<bool> : public false_type
@@ -1039,7 +1045,7 @@ template <size_t _Np, bool _Sanitized> struct _BitMask
 		  "not implemented for bitmasks larger than one ullong");
     if constexpr (_NewSize == 1) // must sanitize because the return _Tp is bool
       return _SanitizedBitMask<1>{
-	{static_cast<bool>(_M_bits[0] & (_Tp(1) << _DropLsb))}};
+	(static_cast<bool>(_M_bits[0] & (_Tp(1) << _DropLsb)))};
     else
       return _BitMask<_NewSize,
 		      ((_NewSize + _DropLsb == sizeof(_Tp) * CHAR_BIT
@@ -1285,7 +1291,7 @@ struct __vector_type_n<_Tp, _Np,
   static constexpr size_t _Bytes = _Np * sizeof(_Tp) < __min_vector_size<_Tp>
 				     ? __min_vector_size<_Tp>
 				     : __next_power_of_2(_Np * sizeof(_Tp));
-  using type [[__gnu__::__vector_size__(_Bytes)]] = _Tp;
+  using type [[__gnu__::__vector_size__(_Bytes)]] = std::remove_reference_t<_Tp>;
 };
 
 template <typename _Tp, size_t _Bytes, size_t = _Bytes % sizeof(_Tp)>
@@ -2068,7 +2074,7 @@ struct __intrinsic_type<
   static constexpr std::size_t _VBytes
     = _Bytes <= 16 ? 16 : _Bytes <= 32 ? 32 : 64;
   using type [[__gnu__::__vector_size__(_VBytes)]]
-  = std::conditional_t<std::is_integral_v<_Tp>, long long int, _Tp>;
+  = std::conditional_t<std::is_integral_v<std::remove_reference_t<_Tp>>, long long int, std::remove_reference_t<_Tp>>;
 };
 #endif // _GLIBCXX_SIMD_HAVE_SSE
 
@@ -3559,8 +3565,7 @@ split(const simd_mask<typename _V::simd_type::value_type, _Ap>& __x)
 
 // }}}
 // split<_Sizes...>(simd) {{{
-template <size_t... _Sizes, typename _Tp, typename _Ap,
-	  typename = enable_if_t<((_Sizes + ...) == simd<_Tp, _Ap>::size())>>
+template <size_t... _Sizes, typename _Tp, typename _Ap, typename>
 _GLIBCXX_SIMD_ALWAYS_INLINE
   std::tuple<simd<_Tp, simd_abi::deduce_t<_Tp, _Sizes>>...>
   split(const simd<_Tp, _Ap>& __x)

diff --git a/experimental/bits/simd_builtin.h b/experimental/bits/simd_builtin.h
@@ -624,7 +624,7 @@ __convert_all(_From __v)
 	    return __vector_bitcast<_FromT, decltype(__n)::value>(__vv);
 	  };
 	  [[maybe_unused]] const auto __vi = __to_intrin(__v);
-	  auto&& __make_array = [](std::initializer_list<auto> __xs) {
+	  auto&& __make_array = [](auto __xs) {
 	    return __call_with_subscripts(
 	      __xs.begin(), std::make_index_sequence<_Np>(),
 	      [](auto... __ys) { return _R{__vector_bitcast<_ToT>(__ys)...}; });

diff --git a/experimental/bits/simd_x86.h b/experimental/bits/simd_x86.h
@@ -4225,7 +4225,7 @@ struct _MaskImplX86 : _MaskImplX86Mixin, _MaskImplBuiltin<_Abi>
 	    __m128i __a = {};
 	    __builtin_memcpy(&__a, __mem, 16);
 	    const auto __b = _mm512_cvtepi8_epi32(__a);
-	    __builtin_memcpy(&__a, __mem + 16, size<_Tp> - 16);
+	    __builtin_memcpy(&__a, static_cast<const char*>(__mem) + 16, size<_Tp> - 16);
 	    const auto __c = _mm512_cvtepi8_epi32(__a);
 	    return _mm512_test_epi32_mask(__b, __b)
 		   | (_mm512_test_epi32_mask(__c, __c) << 16);
@@ -4235,21 +4235,21 @@ struct _MaskImplX86 : _MaskImplX86Mixin, _MaskImplBuiltin<_Abi>
 	    __m128i __a = {};
 	    __builtin_memcpy(&__a, __mem, 16);
 	    const auto __b = _mm512_cvtepi8_epi32(__a);
-	    __builtin_memcpy(&__a, __mem + 16, 16);
+	    __builtin_memcpy(&__a, static_cast<const char*>(__mem) + 16, 16);
 	    const auto __c = _mm512_cvtepi8_epi32(__a);
 	    if constexpr (size<_Tp> <= 48)
 	      {
-		__builtin_memcpy(&__a, __mem + 32, size<_Tp> - 32);
+		__builtin_memcpy(&__a, static_cast<const char*>(__mem) + 32, size<_Tp> - 32);
 		const auto __d = _mm512_cvtepi8_epi32(__a);
 		return _mm512_test_epi32_mask(__b, __b)
 		       | (_mm512_test_epi32_mask(__c, __c) << 16)
 		       | (_ULLong(_mm512_test_epi32_mask(__d, __d)) << 32);
 	      }
 	    else
 	      {
-		__builtin_memcpy(&__a, __mem + 16, 32);
+		__builtin_memcpy(&__a, static_cast<const char*>(__mem) + 16, 32);
 		const auto __d = _mm512_cvtepi8_epi32(__a);
-		__builtin_memcpy(&__a, __mem + 32, size<_Tp> - 48);
+		__builtin_memcpy(&__a, static_cast<const char*>(__mem) + 32, size<_Tp> - 48);
 		const auto __e = _mm512_cvtepi8_epi32(__a);
 		return _mm512_test_epi32_mask(__b, __b)
 		       | (_mm512_test_epi32_mask(__c, __c) << 16)

diff --git a/experimental/simd b/experimental/simd
@@ -41,7 +41,9 @@
 #pragma GCC diagnostic push
 // Many [[gnu::vector_size(N)]] types might lead to a -Wpsabi warning which is
 // irrelevant as those functions never appear on ABI borders
+#if !__clang__
 #pragma GCC diagnostic ignored "-Wpsabi"
+#endif
 
 // If __OPTIMIZE__ is not defined some intrinsics are defined as macros, making
 // use of C casts internally. This requires us to disable the warning as it