Modularize vector single-width instruction

vestata · vestata · commit aa0d15fb562c · 2025-01-24T22:09:03.000+08:00
Since we are using `uint32_t * n` to emulate vector registers with length
`vlen`, modularize the handling of `SEW=*` by introducing
`sew_*b_handler`, which also handles lmuls.
These macros allows RVOP to pass the corresponding operation in `OPT()`,
mapping to the respective handling in `VI_LOOP`, `VV_LOOP`, and `VX_LOOP`.

`V*_LOOP` steps:
1. Copy the operand op1(op2).
2. Align `op1` to the right.
3. Perform the specified operation between `op1` and `op2`.
4. Mask to the corresponding `sew`.
5. Shift the result left to align with the corresponing position.
6. Accumulate the result into `vd`.

Notice that in vector register group should be using vector register
v2*n, v2*n+1 when lmul = 2 etc. The Implementation right now allows
using any vector registers except of the ones exceed v31.
diff --git a/src/rv32_template.c b/src/rv32_template.c
@@ -3092,6 +3092,149 @@ RVOP(
     GEN({/* no operation */}))
 #undef vl_setting
 
+/* clang-format off */
+#define OPT(des, op1, op2, op, op_type) {                                  \
+    switch (8 << ((rv->csr_vtype >> 3) & 0b111)) {                         \
+    case 8:                                                                \
+        sew_8b_handler(des, op1, op2, op, op_type);                        \
+        break;                                                             \
+    case 16:                                                               \
+        sew_16b_handler(des, op1, op2, op, op_type);                       \
+        break;                                                             \
+    case 32:                                                               \
+        sew_32b_handler(des, op1, op2, op, op_type);                       \
+        break;                                                             \
+    default:                                                               \
+        break;                                                             \
+    }                                                                      \
+}
+
+#define VI_LOOP(des, op1, op2, op, SHIFT, MASK, i, j, itr)                 \
+    uint32_t tmp_1 = rv->V[op1 + j][i];                                    \
+    rv->V[des + j][i] = 0;                                                 \
+    for (uint8_t ___cnt = 0; ___cnt < itr; ___cnt++) {                     \
+        rv->V[des + j][i] +=                                               \
+            (                                                              \
+                ( (tmp_1 >> (___cnt << (SHIFT))) op (op2) ) & (MASK)       \
+            ) << (___cnt << (SHIFT));                                      \
+    }
+
+#define VI_LOOP_LEFT(des, op1, op2, op, SHIFT, MASK, i, j, itr)            \
+    uint32_t tmp_1 = rv->V[op1 + j][i];                                    \
+    for (uint8_t __cnt = 0; __cnt < (rv->csr_vl % 4); __cnt++) {           \
+        assert((des + j) < 32);                                            \
+        rv->V[des + j][i] +=                                               \
+            (                                                              \
+                ( (tmp_1 >> (__cnt << (SHIFT))) op (op2) ) & (MASK)        \
+            ) << (__cnt << (SHIFT));                                       \
+    }
+
+#define VV_LOOP(des, op1, op2, op, SHIFT, MASK, i, j, itr)                 \
+    uint32_t tmp_1 = rv->V[op1 + j][i];                                    \
+    uint32_t tmp_2 = rv->V[op2 + j][i];                                    \
+    rv->V[des + j][i] = 0;                                                 \
+    for (uint8_t ___cnt = 0; ___cnt < itr; ___cnt++) {                     \
+        rv->V[des + j][i] +=                                               \
+            (                                                              \
+                ( (tmp_1 >> (___cnt << (SHIFT))) op (tmp_2) ) & (MASK)     \
+            ) << (___cnt << (SHIFT));                                      \
+    }
+
+#define VV_LOOP_LEFT(des, op1, op2, op, SHIFT, MASK, i, j, itr)            \
+    uint32_t tmp_1 = rv->V[op1 + j][i];                                    \
+    uint32_t tmp_2 = rv->V[op2 + j][i];                                    \
+    for (uint8_t __cnt = 0; __cnt < (rv->csr_vl % 4); __cnt++) {           \
+        assert((des + j) < 32);                                            \
+        rv->V[des + j][i] +=                                               \
+            (                                                              \
+                ( (tmp_1 >> (__cnt << (SHIFT))) op (tmp_2) ) & (MASK)      \
+            ) << (__cnt << (SHIFT));                                       \
+    }
+
+#define VX_LOOP(des, op1, op2, op, SHIFT, MASK, i, j, itr)                 \
+    uint32_t tmp_1 = rv->V[op1 + j][i];                                    \
+    uint32_t tmp_2 = rv->X[op2];                                           \
+    rv->V[des + j][i] = 0;                                                 \
+    for (uint8_t ___cnt = 0; ___cnt < itr; ___cnt++) {                     \
+        rv->V[des + j][i] +=                                               \
+            (                                                              \
+                ( (tmp_1 >> (___cnt << (SHIFT))) op (tmp_2) ) & (MASK)     \
+            ) << (___cnt << (SHIFT));                                      \
+    }
+
+#define VX_LOOP_LEFT(des, op1, op2, op, SHIFT, MASK, i, j, itr)            \
+    uint32_t tmp_1 = rv->V[op1 + j][i];                                    \
+    uint32_t tmp_2 = rv->X[op2];                                           \
+    for (uint8_t __cnt = 0; __cnt < (rv->csr_vl % 4); __cnt++) {           \
+        assert((des + j) < 32);                                            \
+        rv->V[des + j][i] +=                                               \
+            (                                                              \
+                ( (tmp_1 >> (__cnt << (SHIFT))) op (tmp_2) ) & (MASK)      \
+            ) << (__cnt << (SHIFT));                                       \
+    }
+
+#define sew_8b_handler(des, op1, op2, op, op_type)                         \
+{                                                                          \
+    uint8_t __i = 0;                                                       \
+    uint8_t __j = 0;                                                       \
+    for (uint32_t __cnt = 0; (rv->csr_vl - __cnt) >= 4;) {                 \
+        __i %= LEN;                                                        \
+        assert((des + __j) < 32);                                          \
+        op_type##_LOOP(des, op1, op2, op, 3, 0xFF, __i, __j, 4);           \
+        __cnt += 4;                                                        \
+        __i++;                                                             \
+        if (!(__cnt & ((LEN << 2) - 1))) {                                 \
+            __j++;                                                         \
+            __i = 0;                                                       \
+        }                                                                  \
+    }                                                                      \
+    if (rv->csr_vl % 4) {                                                  \
+        rv->V[des + __j][__i] &=                                           \
+            (0xFFFFFFFF << ((rv->csr_vl % 4) << 3));                       \
+    }                                                                      \
+    op_type##_LOOP_LEFT(des, op1, op2, op, 3, 0xFF, __i, __j, 4);          \
+}
+
+#define sew_16b_handler(des, op1, op2, op, op_type)                        \
+{                                                                          \
+    uint8_t __i = 0;                                                       \
+    uint8_t __j = 0;                                                       \
+    for (uint32_t __cnt = 0; (rv->csr_vl - __cnt) >= 2;) {                 \
+        __i %= LEN;                                                        \
+        assert((des + __j) < 32);                                          \
+        op_type##_LOOP(des, op1, op2, op, 4, 0xFFFF, __i, __j, 2);         \
+        __cnt += 2;                                                        \
+        __i++;                                                             \
+        if (!(__cnt & ((LEN << 1) - 1))) {                                 \
+            __j++;                                                         \
+            __i = 0;                                                       \
+        }                                                                  \
+    }                                                                      \
+    if (rv->csr_vl % 2) {                                                  \
+        rv->V[des + __j][__i] &=                                           \
+            (0xFFFFFFFF << ((rv->csr_vl % 4) << 3));                       \
+    }                                                                      \
+    op_type##_LOOP_LEFT(des, op1, op2, op, 4, 0xFFFF, __i, __j, 2);        \
+}
+
+#define sew_32b_handler(des, op1, op2, op, op_type)                        \
+{                                                                          \
+    uint8_t __i = 0;                                                       \
+    uint8_t __j = 0;                                                       \
+    for (uint32_t __cnt = 0; rv->csr_vl > __cnt;) {                        \
+        __i %= LEN;                                                        \
+        assert((des + __j) < 32);                                          \
+        op_type##_LOOP(des, op1, op2, op, 0, 0xFFFFFFFF, __i, __j, 1);     \
+        __cnt += 1;                                                        \
+        __i++;                                                             \
+        if (!(__cnt & (LEN - 1))) {                                        \
+            __j++;                                                         \
+            __i = 0;                                                       \
+        }                                                                  \
+    }                                                                      \
+}
+/* clang-format on */
+
 /*
  * j sets (v*n + j)
  * i sets (rv->V[ir->vd][0,1,2,3] for 128 as example)
@@ -5769,25 +5912,19 @@ RVOP(
 RVOP(
     vadd_vv,
     {
-        for (int i = 0; i < 4; i++) {
-            rv->V[rv_reg_zero][i] = 0;
-        }
+        OPT(ir->vd, ir->vs2, ir->vs1, +, VV)
     },
     GEN({/* no operation */}))
 RVOP(
     vadd_vx,
     {
-        for (int i = 0; i < 4; i++) {
-            rv->V[rv_reg_zero][i] = 0;
-        }
+        OPT(ir->vd, ir->vs2, ir->rs1, +, VX)
     },
     GEN({/* no operation */}))
 RVOP(
     vadd_vi,
     {
-        for (int i = 0; i < 4; i++) {
-            rv->V[rv_reg_zero][i] = 0;
-        }
+        OPT(ir->vd, ir->vs2, ir->imm, +, VI)
     },
     GEN({/* no operation */}))
 RVOP(
@@ -6145,9 +6282,7 @@ RVOP(
 RVOP(
     vmv_v_i,
     {
-        for (int i = 0; i < 4; i++) {
-            rv->V[rv_reg_zero][i] = 0;
-        }
+        OPT(ir->vd, 0, ir->imm, +, VI)
     },
     GEN({/* no operation */}))
 RVOP(