Merge branch 'fix/stable-deploy'

henrique-borba · henrique-borba · commit 52a746c0eff8 · 2024-05-11T08:02:40.000-03:00
diff --git a/numpower.c b/numpower.c
@@ -3157,6 +3157,41 @@ PHP_METHOD(NDArray, expand_dims) {
     RETURN_NDARRAY(rtn, return_value);
 }
 
+/**
+* NDArray::expand_dims
+*/
+ZEND_BEGIN_ARG_INFO(arginfo_ndarray_flip, 0)
+    ZEND_ARG_INFO(0, a)
+    ZEND_ARG_INFO(0, axis)
+ZEND_END_ARG_INFO()
+PHP_METHOD(NDArray, flip) {
+    NDArray *rtn = NULL;
+    zval *a;
+    zval *axis = NULL;
+    ZEND_PARSE_PARAMETERS_START(1, 2)
+        Z_PARAM_ZVAL(a)
+        Z_PARAM_ZVAL(axis)
+    ZEND_PARSE_PARAMETERS_END();
+
+    if (Z_TYPE_P(axis) != IS_ARRAY && Z_TYPE_P(axis) != IS_LONG && Z_TYPE_P(axis) != IS_OBJECT) {
+        zend_throw_error(NULL, "expected array, integer or ndarray");
+        return;
+    }
+    NDArray *nda = ZVAL_TO_NDARRAY(a);
+    NDArray *ndaxis = ZVAL_TO_NDARRAY(axis);
+    if (nda == NULL || ndaxis == NULL) {
+        return;
+    }
+    rtn = NDArray_Flip(nda, ndaxis);
+
+    CHECK_INPUT_AND_FREE(a, nda);
+    CHECK_INPUT_AND_FREE(axis, ndaxis);
+    if (rtn == NULL) {
+        return;
+    }
+    RETURN_NDARRAY(rtn, return_value);
+}
+
 /**
  * NDArray::append
  */
diff --git a/src/manipulation.c b/src/manipulation.c
@@ -545,3 +545,9 @@ NDArray_AtLeast3D(NDArray *a) {
     return output;
 }
 
+NDArray*
+NDArray_Flip(NDArray *a, NDArray *axis)
+{
+
+}
+
diff --git a/src/manipulation.h b/src/manipulation.h
@@ -17,4 +17,5 @@ NDArray* NDArray_AtLeast1D(NDArray *a);
 NDArray* NDArray_AtLeast2D(NDArray *a);
 NDArray* NDArray_AtLeast3D(NDArray *a);
 NDArray* NDArray_ConcatenateFlat(NDArray **arrays, int num_arrays);
+NDArray* NDArray_Flip(NDArray *a, NDArray *axis);
 #endif //PHPSCI_NDARRAY_MANIPULATION_H
diff --git a/src/ndmath/arithmetics.c b/src/ndmath/arithmetics.c
@@ -161,24 +161,25 @@ NDArray_Median_Float(NDArray* a) {
 
 NDArray*
 NDArray_Add_Float(NDArray* a, NDArray* b) {
-    if (NDArray_DEVICE(a) != NDArray_DEVICE(b)) {
+    NDArray *a_temp = NULL, *b_temp = NULL;
+    if (NDArray_DEVICE(a) != NDArray_DEVICE(b) && NDArray_NDIM(a) != 0 && NDArray_NDIM(b) != 0) {
         zend_throw_error(NULL, "Device mismatch, both NDArray MUST be in the same device.");
         return NULL;
     }
 
-    if (NDArray_NDIM(a) == 0 && NDArray_NDIM(b) == 0) {
-        int* shape = ecalloc(1, sizeof(int));
-        NDArray *rtn = NDArray_Zeros(shape, 0, NDARRAY_TYPE_FLOAT32, NDArray_DEVICE(a));
-#ifdef HAVE_CUBLAS
-        if (NDArray_DEVICE(a) == NDARRAY_DEVICE_GPU) {
-            cuda_add_float(2, NDArray_FDATA(a), NDArray_FDATA(b), NDArray_FDATA(rtn), 1);
-        } else {
-#endif
-            NDArray_FDATA(rtn)[0] = NDArray_FDATA(a)[0] + NDArray_FDATA(b)[0];
-#ifdef HAVE_CUBLAS
-        }
-#endif
-        return rtn;
+    // If a or b are scalars, reshape
+    if (NDArray_NDIM(a) == 0 && NDArray_NDIM(b) > 0) {
+        a_temp = a;
+        int *n_shape = emalloc(sizeof(int) * NDArray_NDIM(b));
+        copy(NDArray_SHAPE(b), n_shape, NDArray_NDIM(b));
+        a = NDArray_Zeros(n_shape, NDArray_NDIM(b), NDArray_TYPE(b), NDArray_DEVICE(b));
+        a = NDArray_Fill(a, NDArray_FDATA(a_temp)[0]);
+    } else if (NDArray_NDIM(b) == 0 && NDArray_NDIM(a) > 0) {
+        b_temp = b;
+        int *n_shape = emalloc(sizeof(int) * NDArray_NDIM(a));
+        copy(NDArray_SHAPE(a), n_shape, NDArray_NDIM(a));
+        b = NDArray_Zeros(n_shape, NDArray_NDIM(a), NDArray_TYPE(a), NDArray_DEVICE(a));
+        b = NDArray_Fill(b, NDArray_FDATA(b_temp)[0]);
     }
 
     NDArray *broadcasted = NULL;
@@ -209,72 +210,69 @@ NDArray_Add_Float(NDArray* a, NDArray* b) {
     }
 
     // Create a new NDArray to store the result
-    NDArray* result = (NDArray*)emalloc(sizeof(NDArray));
-    result->strides = (int*)emalloc(a_broad->ndim * sizeof(int));
-    result->dimensions = (int*)emalloc(a_broad->ndim * sizeof(int));
+    NDArray *result = (NDArray *) emalloc(sizeof(NDArray));
+    result->strides = (int *) emalloc(a_broad->ndim * sizeof(int));
+    result->dimensions = (int *) emalloc(a_broad->ndim * sizeof(int));
     result->ndim = a_broad->ndim;
     if (NDArray_DEVICE(a_broad) == NDARRAY_DEVICE_GPU) {
 #if HAVE_CUBLAS
         vmalloc((void **) &result->data, NDArray_NUMELEMENTS(a_broad) * sizeof(float));
+        cudaDeviceSynchronize();
         result->device = NDARRAY_DEVICE_GPU;
 #endif
     } else {
         result->data = (char *) emalloc(a_broad->descriptor->numElements * sizeof(float));
     }
     result->base = NULL;
     result->flags = 0;  // Set appropriate flags
-    result->descriptor = (NDArrayDescriptor*)emalloc(sizeof(NDArrayDescriptor));
+    result->descriptor = (NDArrayDescriptor *) emalloc(sizeof(NDArrayDescriptor));
     result->descriptor->type = NDARRAY_TYPE_FLOAT32;
     result->descriptor->elsize = sizeof(float);
-    result->device = NDArray_DEVICE(a_broad);
     result->descriptor->numElements = a_broad->descriptor->numElements;
     result->refcount = 1;
+    result->device = NDArray_DEVICE(a_broad);
 
-    // Perform element-wise addition
+    // Perform element-wise subtraction
     result->strides = memcpy(result->strides, a_broad->strides, a_broad->ndim * sizeof(int));
     result->dimensions = memcpy(result->dimensions, a_broad->dimensions, a_broad->ndim * sizeof(int));
-    float* resultData = (float*)result->data;
-    float* aData = (float*)a_broad->data;
-    float* bData = (float*)b_broad->data;
+    float *resultData = (float *) result->data;
+    float *aData = (float *) a_broad->data;
+    float *bData = (float *) b_broad->data;
     int numElements = a_broad->descriptor->numElements;
     NDArrayIterator_INIT(result);
     if (NDArray_DEVICE(a_broad) == NDARRAY_DEVICE_GPU && NDArray_DEVICE(b_broad) == NDARRAY_DEVICE_GPU) {
 #if HAVE_CUBLAS
-        cuda_add_float(NDArray_NUMELEMENTS(a_broad), NDArray_FDATA(a_broad), NDArray_FDATA(b_broad), NDArray_FDATA(result), NDArray_NUMELEMENTS(a_broad));
-        result->device = NDARRAY_DEVICE_GPU;
+        cuda_add_float(NDArray_NUMELEMENTS(a_broad), NDArray_FDATA(a_broad), NDArray_FDATA(b_broad), NDArray_FDATA(result),
+                            NDArray_NUMELEMENTS(a_broad));
 #endif
     } else {
 #ifdef HAVE_AVX2
         int i;
-        __m256 vec1, vec2, mul;
+        __m256 vec1, vec2, sub;
 
         for (i = 0; i < NDArray_NUMELEMENTS(a) - 7; i += 8) {
             vec1 = _mm256_loadu_ps(&aData[i]);
             vec2 = _mm256_loadu_ps(&bData[i]);
-            mul = _mm256_add_ps(vec1, vec2);
-            _mm256_storeu_ps(&resultData[i], mul);
+            sub = _mm256_add_ps(vec1, vec2);
+            _mm256_storeu_ps(&resultData[i], sub);
         }
+
         // Handle remaining elements if the length is not a multiple of 4
         for (; i < numElements; i++) {
             resultData[i] = aData[i] + bData[i];
         }
-#elif HAVE_CBLAS
-        if (NDArray_NUMELEMENTS(a_broad) == NDArray_NUMELEMENTS(b_broad)) {
-            memcpy(resultData, NDArray_FDATA(b_broad), NDArray_ELSIZE(b_broad) * NDArray_NUMELEMENTS(b_broad));
-            cblas_saxpy(NDArray_NUMELEMENTS(a_broad), 1.0F, NDArray_FDATA(a_broad), 1, resultData,
-                        1);
-        } else {
-            for (int i = 0; i < numElements; i++) {
-                resultData[i] = aData[i] + bData[i];
-            }
-        }
 #else
         for (int i = 0; i < numElements; i++) {
             resultData[i] = aData[i] + bData[i];
         }
 #endif
     }
-
+    if (a_temp != NULL) {
+        NDArray_FREE(a);
+    }
+    if (b_temp != NULL) {
+        NDArray_FREE(b);
+    }
     if (broadcasted != NULL) {
         NDArray_FREE(broadcasted);
     }
@@ -292,7 +290,7 @@ NDArray*
 NDArray_Multiply_Float(NDArray* a, NDArray* b) {
     NDArray *broadcasted = NULL;
     NDArray *a_temp = NULL, *b_temp = NULL;
-    if (NDArray_DEVICE(a) != NDArray_DEVICE(b)) {
+    if (NDArray_DEVICE(a) != NDArray_DEVICE(b) && NDArray_NDIM(a) != 0 && NDArray_NDIM(b) != 0) {
         zend_throw_error(NULL, "Device mismatch, both NDArray MUST be in the same device.");
         return NULL;
     }
@@ -433,7 +431,7 @@ NDArray_Multiply_Float(NDArray* a, NDArray* b) {
 NDArray*
 NDArray_Subtract_Float(NDArray* a, NDArray* b) {
     NDArray *a_temp = NULL, *b_temp = NULL;
-    if (NDArray_DEVICE(a) != NDArray_DEVICE(b)) {
+    if (NDArray_DEVICE(a) != NDArray_DEVICE(b) && NDArray_NDIM(a) != 0 && NDArray_NDIM(b) != 0) {
         zend_throw_error(NULL, "Device mismatch, both NDArray MUST be in the same device.");
         return NULL;
     }
@@ -561,7 +559,7 @@ NDArray*
 NDArray_Divide_Float(NDArray* a, NDArray* b) {
     NDArray *a_temp = NULL, *b_temp = NULL;
 
-    if (NDArray_DEVICE(a) != NDArray_DEVICE(b)) {
+    if (NDArray_DEVICE(a) != NDArray_DEVICE(b) && NDArray_NDIM(a) != 0 && NDArray_NDIM(b) != 0) {
         zend_throw_error(NULL, "Device mismatch, both NDArray MUST be in the same device.");
         return NULL;
     }
@@ -694,18 +692,11 @@ NDArray_Divide_Float(NDArray* a, NDArray* b) {
 NDArray*
 NDArray_Mod_Float(NDArray* a, NDArray* b) {
     NDArray *a_temp = NULL, *b_temp = NULL;
-    if (NDArray_DEVICE(a) != NDArray_DEVICE(b)) {
+    if (NDArray_DEVICE(a) != NDArray_DEVICE(b) && NDArray_NDIM(a) != 0 && NDArray_NDIM(b) != 0) {
         zend_throw_error(NULL, "Device mismatch, both NDArray MUST be in the same device.");
         return NULL;
     }
 
-    if (NDArray_NDIM(a) == 0) {
-        int* shape = ecalloc(1, sizeof(int));
-        NDArray *rtn = NDArray_Zeros(shape, 0, NDARRAY_TYPE_FLOAT32, NDArray_DEVICE(a));
-        NDArray_FDATA(rtn)[0] = NDArray_FDATA(a)[0] + NDArray_FDATA(b)[0];
-        return rtn;
-    }
-
     // If a or b are scalars, reshape
     if (NDArray_NDIM(a) == 0 && NDArray_NDIM(b) > 0) {
         a_temp = a;
@@ -723,6 +714,7 @@ NDArray_Mod_Float(NDArray* a, NDArray* b) {
 
     NDArray *broadcasted = NULL;
     NDArray *a_broad = NULL, *b_broad = NULL;
+
     if (NDArray_NUMELEMENTS(a) < NDArray_NUMELEMENTS(b)) {
         broadcasted = NDArray_Broadcast(a, b);
         a_broad = broadcasted;
@@ -748,9 +740,9 @@ NDArray_Mod_Float(NDArray* a, NDArray* b) {
     }
 
     // Create a new NDArray to store the result
-    NDArray* result = (NDArray*)emalloc(sizeof(NDArray));
-    result->strides = (int*)emalloc(a_broad->ndim * sizeof(int));
-    result->dimensions = (int*)emalloc(a_broad->ndim * sizeof(int));
+    NDArray *result = (NDArray *) emalloc(sizeof(NDArray));
+    result->strides = (int *) emalloc(a_broad->ndim * sizeof(int));
+    result->dimensions = (int *) emalloc(a_broad->ndim * sizeof(int));
     result->ndim = a_broad->ndim;
     if (NDArray_DEVICE(a_broad) == NDARRAY_DEVICE_GPU) {
 #if HAVE_CUBLAS
@@ -763,7 +755,7 @@ NDArray_Mod_Float(NDArray* a, NDArray* b) {
     }
     result->base = NULL;
     result->flags = 0;  // Set appropriate flags
-    result->descriptor = (NDArrayDescriptor*)emalloc(sizeof(NDArrayDescriptor));
+    result->descriptor = (NDArrayDescriptor *) emalloc(sizeof(NDArrayDescriptor));
     result->descriptor->type = NDARRAY_TYPE_FLOAT32;
     result->descriptor->elsize = sizeof(float);
     result->descriptor->numElements = a_broad->descriptor->numElements;
@@ -773,9 +765,9 @@ NDArray_Mod_Float(NDArray* a, NDArray* b) {
     // Perform element-wise subtraction
     result->strides = memcpy(result->strides, a_broad->strides, a_broad->ndim * sizeof(int));
     result->dimensions = memcpy(result->dimensions, a_broad->dimensions, a_broad->ndim * sizeof(int));
-    float* resultData = (float*)result->data;
-    float* aData = (float*)a_broad->data;
-    float* bData = (float*)b_broad->data;
+    float *resultData = (float *) result->data;
+    float *aData = (float *) a_broad->data;
+    float *bData = (float *) b_broad->data;
     int numElements = a_broad->descriptor->numElements;
     NDArrayIterator_INIT(result);
     if (NDArray_DEVICE(a_broad) == NDARRAY_DEVICE_GPU && NDArray_DEVICE(b_broad) == NDARRAY_DEVICE_GPU) {
@@ -784,11 +776,27 @@ NDArray_Mod_Float(NDArray* a, NDArray* b) {
                        NDArray_NUMELEMENTS(a_broad));
 #endif
     } else {
+#ifdef HAVE_AVX2
+        int i;
+        __m256 vec1, vec2, vout;
+
+        for (i = 0; i < NDArray_NUMELEMENTS(a) - 7; i += 8) {
+            vec1 = _mm256_loadu_ps(&aData[i]);
+            vec2 = _mm256_loadu_ps(&bData[i]);
+            vout = _mm256_sub_ps(vec1, _mm256_mul_ps(_mm256_floor_ps(_mm256_div_ps(vec1, vec2)), vec2));
+            _mm256_storeu_ps(&resultData[i], vout);
+        }
+
+        // Handle remaining elements if the length is not a multiple of 4
+        for (; i < numElements; i++) {
+            resultData[i] = fmodf(aData[i], bData[i]);
+        }
+#else
         for (int i = 0; i < numElements; i++) {
             resultData[i] = fmodf(aData[i], bData[i]);
         }
+#endif
     }
-
     if (a_temp != NULL) {
         NDArray_FREE(a);
     }
@@ -809,18 +817,11 @@ NDArray_Mod_Float(NDArray* a, NDArray* b) {
 NDArray*
 NDArray_Pow_Float(NDArray* a, NDArray* b) {
     NDArray *a_temp = NULL, *b_temp = NULL;
-    if (NDArray_DEVICE(a) != NDArray_DEVICE(b)) {
+    if (NDArray_DEVICE(a) != NDArray_DEVICE(b) && NDArray_NDIM(a) != 0 && NDArray_NDIM(b) != 0) {
         zend_throw_error(NULL, "Device mismatch, both NDArray MUST be in the same device.");
         return NULL;
     }
 
-    if (NDArray_NDIM(a) == 0) {
-        int *shape = ecalloc(1, sizeof(int));
-        NDArray *rtn = NDArray_Zeros(shape, 0, NDARRAY_TYPE_FLOAT32, NDArray_DEVICE(a));
-        NDArray_FDATA(rtn)[0] = NDArray_FDATA(a)[0] + NDArray_FDATA(b)[0];
-        return rtn;
-    }
-
     // If a or b are scalars, reshape
     if (NDArray_NDIM(a) == 0 && NDArray_NDIM(b) > 0) {
         a_temp = a;
@@ -870,12 +871,12 @@ NDArray_Pow_Float(NDArray* a, NDArray* b) {
     result->ndim = a_broad->ndim;
     if (NDArray_DEVICE(a_broad) == NDARRAY_DEVICE_GPU) {
 #if HAVE_CUBLAS
-        vmalloc((void **) &result->data, NDArray_NUMELEMENTS(a) * sizeof(float));
+        vmalloc((void **) &result->data, NDArray_NUMELEMENTS(a_broad) * sizeof(float));
         cudaDeviceSynchronize();
         result->device = NDARRAY_DEVICE_GPU;
 #endif
     } else {
-        result->data = (char *) emalloc(a->descriptor->numElements * sizeof(float));
+        result->data = (char *) emalloc(a_broad->descriptor->numElements * sizeof(float));
     }
     result->base = NULL;
     result->flags = 0;  // Set appropriate flags
@@ -886,13 +887,13 @@ NDArray_Pow_Float(NDArray* a, NDArray* b) {
     result->refcount = 1;
     result->device = NDArray_DEVICE(a_broad);
 
-    // Perform element-wise
+    // Perform element-wise subtraction
     result->strides = memcpy(result->strides, a_broad->strides, a_broad->ndim * sizeof(int));
     result->dimensions = memcpy(result->dimensions, a_broad->dimensions, a_broad->ndim * sizeof(int));
     float *resultData = (float *) result->data;
     float *aData = (float *) a_broad->data;
     float *bData = (float *) b_broad->data;
-    int numElements = a->descriptor->numElements;
+    int numElements = a_broad->descriptor->numElements;
     NDArrayIterator_INIT(result);
     if (NDArray_DEVICE(a_broad) == NDARRAY_DEVICE_GPU && NDArray_DEVICE(b_broad) == NDARRAY_DEVICE_GPU) {
 #if HAVE_CUBLAS

Original file line number	Diff line number	Diff line change
`@@ -545,3 +545,9 @@ NDArray_AtLeast3D(NDArray *a) {`
`545`	`545`	`return output;`
`546`	`546`	`}`
`547`	`547`
	`548`	`+NDArray*`
	`549`	`+NDArray_Flip(NDArray a, NDArray axis)`
	`550`	`+{`
	`551`	`+`
	`552`	`+}`
	`553`	`+`