IntelPython · vtavana · May 7, 2025 · Apr 29, 2025 · Apr 30, 2025 · May 5, 2025
@@ -45,7 +45,6 @@ if(WIN32)
    string(CONCAT PRECISION_FLAGS
      "/fp:fast=2 "
      "/Qimf-precision=high "
-     "/Qprec-sqrt "
      "/Qprotect-parens "
    )
    set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} /Ox ${WARNING_FLAGS} ${SDL_FLAGS} ${PRECISION_FLAGS}")
@@ -82,7 +81,6 @@ elseif(UNIX)
      "${SDL_FLAGS}"
    )
    string(CONCAT PRECISION_FLAGS
-     "-prec-sqrt "
      "-fprotect-parens "
      "-fimf-precision=high "
      "-fp-model fast=2 "

@@ -74,10 +74,11 @@
         type *in1p = (type *) (in1);                     \
         type *op1p = (type *) (op1);                     \
         while (_n_ > _chunk_size) {                      \
-            vml_func((MKL_INT) _chunk_size, in1p, op1p); \
-            _n_ -= _chunk_size;                          \
-            in1p += _chunk_size;                         \
-            op1p += _chunk_size;                         \
+            npy_intp _current_chunk = (_n_ > _chunk_size) ? _chunk_size : _n_; \
+            vml_func((MKL_INT) _current_chunk, in1p, op1p); \
+            _n_ -= _current_chunk;                          \
+            in1p += _current_chunk;                         \
+            op1p += _current_chunk;                         \
         }                                                \
         if (_n_) {                                       \
             vml_func((MKL_INT) _n_, in1p, op1p);         \
@@ -92,11 +93,12 @@
         type *in2p = (type *) (in2);                            \
         type *op1p = (type *) (op1);                            \
         while (_n_ > _chunk_size) {                             \
-            vml_func((MKL_INT) _chunk_size, in1p, in2p, op1p);  \
-            _n_ -= _chunk_size;                                 \
-            in1p += _chunk_size;                                \
-            in2p += _chunk_size;                                \
-            op1p += _chunk_size;                                \
+            npy_intp _current_chunk = (_n_ > _chunk_size) ? _chunk_size : _n_; \
+            vml_func((MKL_INT) _current_chunk, in1p, in2p, op1p);  \
+            _n_ -= _current_chunk;                                 \
+            in1p += _current_chunk;                                \
+            in2p += _current_chunk;                                \
+            op1p += _current_chunk;                                \
         }                                                       \
         if (_n_) {                                              \
             vml_func((MKL_INT)_n_, in1p, in2p, op1p);           \
@@ -115,10 +117,11 @@
         const type _scaleB = (scaleB);                                                           \
         const type _shiftB = (shiftB);                                                           \
         while (_n_ > _chunk_size) {                                                              \
-            vml_func(_chunk_size, in1p, in1p, _scaleA, _shiftA, _scaleB, _shiftB, op1p);         \
-            _n_ -= _chunk_size;                                                                  \
-            in1p += _chunk_size;                                                                 \
-            op1p += _chunk_size;                                                                 \
+            npy_intp _current_chunk = (_n_ > _chunk_size) ? _chunk_size : _n_; \
+            vml_func(_current_chunk, in1p, in1p, _scaleA, _shiftA, _scaleB, _shiftB, op1p);         \
+            _n_ -= _current_chunk;                                                                  \
+            in1p += _current_chunk;                                                                 \
+            op1p += _current_chunk;                                                                 \
         }                                                                                        \
         if (_n_) {                                                                               \
             vml_func((MKL_INT)_n_, in1p, in1p, _scaleA, _shiftA, _scaleB, _shiftB, op1p);        \