BUG: Fix definition, one more incorrect check and remove incorrect assert

seberg · seberg · commit b43e62a783c9 · 2024-07-24T16:16:10.000+02:00
diff --git a/numpy/_core/src/umath/loops_umath_fp.dispatch.c.src b/numpy/_core/src/umath/loops_umath_fp.dispatch.c.src
@@ -160,13 +160,12 @@ NPY_NO_EXPORT void NPY_CPU_DISPATCH_CURFX(HALF_@func@)
 #if NPY_SIMD && defined(NPY_CAN_LINK_SVML)
     const npy_half *src = (npy_half*)args[0];
           npy_half *dst = (npy_half*)args[1];
-    const int lsize = sizeof(src[0]);
-    const npy_intp ssrc = steps[0] / lsize;
-    const npy_intp sdst = steps[1] / lsize;
+
     const npy_intp len = dimensions[0];
+
     if (!is_mem_overlap(src, steps[0], dst, steps[1], len) &&
-        (ssrc == 1) &&
-        (sdst == 1)) {
+        (steps[0] == sizeof(npy_half)) &&
+        (steps[1] == sizeof(npy_half))) {
 #if defined(NPY_HAVE_AVX512_SPR)
         __svml_@intrin@s32(src, dst, len);
         return;
@@ -199,14 +198,15 @@ NPY_NO_EXPORT void NPY_CPU_DISPATCH_CURFX(@TYPE@_@func@)
 (char **args, npy_intp const *dimensions, npy_intp const *steps, void *NPY_UNUSED(data))
 {
 #if NPY_SIMD && defined(NPY_HAVE_AVX512_SKX) && defined(NPY_CAN_LINK_SVML)
+    const @type@ *src = (@type@*)args[0];
+          @type@ *dst = (@type@*)args[1];
+
     const npy_intp len = dimensions[0];
 
     if (!is_mem_overlap(src, steps[0], dst, steps[1], len) &&
         npyv_loadable_stride_@sfx@(steps[0]) &&
         npyv_storable_stride_@sfx@(steps[1]))
     {
-        const @type@ *src = (@type@*)args[0];
-              @type@ *dst = (@type@*)args[1];
         const npy_intp ssrc = steps[0] / sizeof(@type@);
         const npy_intp sdst = steps[1] / sizeof(@type@);
         simd_@intrin@_@sfx@(src, ssrc, dst, sdst, len);
@@ -289,7 +289,7 @@ NPY_NO_EXPORT void NPY_CPU_DISPATCH_CURFX(@TYPE@_@func@)
           @type@ *dst  = (@type@*)args[2];
 
     const npy_intp len = dimensions[0];
-    assert(len <= 1 || (steps[0] % lsize == 0 && steps[1] % lsize == 0));
+
     if (!is_mem_overlap(src1, steps[0], dst, steps[2], len) &&
         !is_mem_overlap(src2, steps[1], dst, steps[2], len) &&
         npyv_loadable_stride_@sfx@(steps[0]) &&