op: add software SUM support for MPIX_C_FLOAT16

hzhou · hzhou · commit 4cc92dd03af3 · 2025-03-20T18:15:07.000-05:00
Provide half-precision float sum operation by casting to C float.
diff --git a/src/mpi/coll/op/op_fns.c b/src/mpi/coll/op/op_fns.c
@@ -12,6 +12,7 @@
 #define MPIR_LSUM(a,b) ((a)+(b))
 
 static void bfloat16_sum(void *invec, void *inoutvec, MPI_Aint len);
+static void f16_sum(void *invec, void *inoutvec, MPI_Aint len);
 
 void MPIR_SUM(void *invec, void *inoutvec, MPI_Aint * Len, MPI_Datatype * type)
 {
@@ -40,6 +41,11 @@ void MPIR_SUM(void *invec, void *inoutvec, MPI_Aint * Len, MPI_Datatype * type)
         case MPIR_BFLOAT16:
             bfloat16_sum(invec, inoutvec, len);
             break;
+#ifndef MPIR_FLOAT16_CTYPE
+        case MPIR_FLOAT16:
+            f16_sum(invec, inoutvec, len);
+            break;
+#endif
         default:
             MPIR_Assert(0);
             break;
@@ -483,3 +489,39 @@ static void bfloat16_sum(void *invec, void *inoutvec, MPI_Aint len)
         bfloat16_store((char *) inoutvec + i, a + b);
     }
 }
+
+/* IEEE half-precision 16-bit float - software arithemetics
+ */
+static float f16_load(void *p)
+{
+    uint16_t a = *(uint16_t *) p;
+    /* expand exponent from 5 bit to 8 bit, fraction from 10 bit to 23 bit */
+    uint32_t u = ((uint32_t) ((a & 0x8000) | ((((a & 0x3c00) >> 10) + 0x70) << 7)) << 16) |
+        ((uint32_t) (a & 0x3ff) << 13);
+    float v;
+    memcpy(&v, &u, sizeof(float));
+    return v;
+}
+
+static void f16_store(void *p, float v)
+{
+    uint32_t u;
+    memcpy(&u, &v, sizeof(float));
+    /* shrink exponent from 8 bit to 5 bit, fraction from 23 bit to 10 bit */
+    uint16_t a = ((u & 0x80000000) >> 16) | ((((u & 0x7f800000) >> 23) - 0x70) << 10) |
+        ((u & 0x7fffff) >> 16);
+    if (u & 0x1000) {
+        /* round up */
+        a += 1;
+    }
+    *(uint16_t *) p = a;
+}
+
+static void f16_sum(void *invec, void *inoutvec, MPI_Aint len)
+{
+    for (MPI_Aint i = 0; i < len * 2; i += 2) {
+        float a = f16_load((char *) inoutvec + i);
+        float b = f16_load((char *) invec + i);
+        f16_store((char *) inoutvec + i, a + b);
+    }
+}