Merge branch 'bug_fixes' of https://github.com/vortexgpgpu/vortex into bug_fixes

tinebp · tinebp · commit 7c71d86d85d3 · 2026-01-15T22:27:10.000-08:00
diff --git a/ci/regression.sh.in b/ci/regression.sh.in
@@ -435,6 +435,9 @@ tensor()
     make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=uint4 -DOTYPE=int32" make -C tests/regression/sgemm_tcu
     CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu
 
+    make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=mxint8 -DOTYPE=int32" make -C tests/regression/sgemm_tcu
+    CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu
+
     make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=8 -DITYPE=fp16 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu
     CONFIGS="-DNUM_THREADS=8 -DEXT_TCU_ENABLE -DISSUE_WIDTH=2" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu
 
@@ -447,13 +450,22 @@ tensor()
     make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=16 -DITYPE=bf8 -DOTYPE=bf8" make -C tests/regression/sgemm_tcu
     CONFIGS="-DNUM_THREADS=16 -DEXT_TCU_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu
 
+    make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=mxfp8 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu
+    CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu
+
+    make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=nvfp4 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu
+    CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu
+
     # rtlsim tests
     make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=int8 -DOTYPE=int32" make -C tests/regression/sgemm_tcu
     CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE -DTCU_TYPE_DPI" ./ci/blackbox.sh --driver=rtlsim --app=sgemm_tcu
 
     make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=uint4 -DOTYPE=int32" make -C tests/regression/sgemm_tcu
     CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE -DTCU_TYPE_DPI" ./ci/blackbox.sh --driver=rtlsim --app=sgemm_tcu
 
+    #make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=mxint8 -DOTYPE=int32" make -C tests/regression/sgemm_tcu
+    #CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE -DTCU_TYPE_DPI" ./ci/blackbox.sh --driver=rtlsim --app=sgemm_tcu
+
     make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=fp16 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu
     CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE -DTCU_TYPE_DPI" ./ci/blackbox.sh --driver=rtlsim --app=sgemm_tcu
 
@@ -466,6 +478,12 @@ tensor()
     make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=bf8 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu
     CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE -DTCU_TYPE_DPI" ./ci/blackbox.sh --driver=rtlsim --app=sgemm_tcu
 
+    #make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=mxfp8 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu
+    #CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE -DTCU_TYPE_DPI" ./ci/blackbox.sh --driver=rtlsim --app=sgemm_tcu
+
+    #make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=4 -DITYPE=nvfp4 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu
+    #CONFIGS="-DNUM_THREADS=4 -DEXT_TCU_ENABLE -DTCU_TYPE_DPI" ./ci/blackbox.sh --driver=rtlsim --app=sgemm_tcu
+
     make -C tests/regression/sgemm_tcu clean && CONFIGS="-DNUM_THREADS=8 -DITYPE=fp16 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu
     CONFIGS="-DNUM_THREADS=8 -DEXT_TCU_ENABLE -DTCU_TYPE_DPI -DISSUE_WIDTH=2" ./ci/blackbox.sh --driver=rtlsim --app=sgemm_tcu
 
@@ -476,7 +494,7 @@ tensor()
     make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DPI" NUM_REGS=1 LATENCY=4 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=1  --no-fused
     make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_BHF" NUM_REGS=1 LATENCY=10 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=1 --no-fused
     make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DSP" NUM_REGS=1 LATENCY=31 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=1 --no-fused --ulp=3
-    make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DRL -DUSE_FEDP" NUM_REGS=2 LATENCY=4 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=1 --ulp=2
+    make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DRL -DUSE_FEDP" NUM_REGS=2 LATENCY=4 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=1 --no-zeros --no-subnormals --no-infinities --no-nans
 
     # test bf16
     make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DPI" NUM_REGS=1 LATENCY=4  make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=2 --no-fused
@@ -494,6 +512,16 @@ tensor()
     make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_BHF" NUM_REGS=1 LATENCY=10 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=4 --no-fused --ulp=4
     #make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DRL -DUSE_FEDP" NUM_REGS=2 LATENCY=4 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=4 --no-zeros --no-subnormals --no-infinities --no-nans
 
+    # test mxfp8
+    #make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DPI" NUM_REGS=1 LATENCY=4 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=5  --no-fused
+    #make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_BHF" NUM_REGS=1 LATENCY=10 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=5 --no-fused
+    #make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DRL -DUSE_FEDP" NUM_REGS=2 LATENCY=4 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=5
+
+    # test nvfp4
+    #make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DPI" NUM_REGS=1 LATENCY=4 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=7  --no-fused
+    #make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_BHF" NUM_REGS=1 LATENCY=10 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=7 --no-fused
+    #make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DRL -DUSE_FEDP" NUM_REGS=2 LATENCY=4 make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=7
+
     # test int8
     make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DPI" make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=9
     make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DRL" make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=9
@@ -510,6 +538,10 @@ tensor()
     make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DPI" make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=12
     make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DRL" make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=12
 
+    # test mxint8
+    #make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DPI" make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=13
+    #make -C hw/unittest/tcu_fedp clean && CONFIGS="-DTCU_TYPE_DRL" make -C hw/unittest/tcu_fedp && hw/unittest/tcu_fedp/tcu_fedp --fmt=13
+
     echo "tensor tests done!"
 }
 
diff --git a/hw/rtl/tcu/drl/VX_tcu_fedp_drl.sv b/hw/rtl/tcu/drl/VX_tcu_fedp_drl.sv
@@ -16,7 +16,7 @@
 module VX_tcu_fedp_drl #(
     parameter LATENCY = 0,
     parameter N = 2,
-    parameter W = 53
+    parameter W = 25
 ) (
     input  wire clk,
     input  wire reset,
diff --git a/hw/unittest/tcu_fedp/fedp.h b/hw/unittest/tcu_fedp/fedp.h
@@ -22,7 +22,7 @@
 #include <unordered_map>
 #include <vector>
 
-#if FEDP_TRACE
+#ifdef FEDP_TRACE
 #include <cstdio>
 #define LOG(...) std::fprintf(stderr, __VA_ARGS__);
 #else
diff --git a/hw/unittest/tcu_fedp/main.cpp b/hw/unittest/tcu_fedp/main.cpp
@@ -43,7 +43,7 @@
 #include <bitmanip.h>
 #include "softfloat_ext.h"
 
-#ifdef FEDP_EMUL
+#ifdef USE_FEDP
 #include "fedp.h"
 #endif
 
@@ -280,7 +280,7 @@ static void pack_elements(const std::vector<uint32_t> &elements, int element_bit
   }
 }
 
-#ifndef FEDP_EMUL
+#ifndef USE_FEDP
 // Calculate expected fp dot product
 static float dot_product(const uint32_t* A, const uint32_t* B, uint32_t C, int n, int eb, int sb, bool fused) {
   auto to_float = [&](uint32_t x, int ebits, int sbits) -> long double {
@@ -679,7 +679,7 @@ class Testbench {
     const uint32_t NF = features_to_test.size();
     const uint32_t tests_per_feature = (NT + NF - 1) / NF;
 
-  #ifdef FEDP_EMUL
+  #ifdef USE_FEDP
     FEDP fedp(config_.exp_bits, config_.sig_bits, NUM_REGS * 2, (int)config_.frm, config_.W, config_.renorm);
   #endif
 
@@ -746,7 +746,7 @@ class Testbench {
       std::memcpy(&dut_result, &dut_result_bits, sizeof(float));
 
       // Calculate expected result
-    #ifdef FEDP_EMUL
+    #ifdef USE_FEDP
       float expected = fedp(a_packed.data(), b_packed.data(), c_value_float, NUM_REGS);
     #else
       float expected = dot_product(a_value_hex.data(), b_value_hex.data(),
diff --git a/sim/common/rvfloats.cpp b/sim/common/rvfloats.cpp
@@ -597,6 +597,48 @@ uint8_t rv_ftoe5m2_s(uint32_t a, uint32_t frm, uint32_t* fflags) {
   return bf8.v;
 }
 
+uint32_t rv_mxfp8tof_s(uint8_t a, uint8_t sf, uint32_t frm, uint32_t* fflags) {
+  rv_init(frm);
+  mxfloat8_t mxfp8;
+  mxfp8.v = a;
+  mxfp8.sf = sf;
+  float32_t f32 = mxfp8_to_f32(mxfp8);
+  if (fflags) { *fflags = softfloat_exceptionFlags; }
+  return f32.v;
+}
+
+uint8_t rv_ftomxfp8_s(uint32_t a, uint8_t sf, uint32_t frm, uint32_t* fflags) {
+  rv_init(frm);
+  float32_t f32;
+  f32.v = a;
+  sfexp8_t scale_factor;
+  scale_factor.sf = sf;
+  mxfloat8_t mxfp8 = f32_to_mxfp8(f32, scale_factor);
+  if (fflags) { *fflags = softfloat_exceptionFlags; }
+  return mxfp8.v;
+}
+
+uint32_t rv_nvfp4tof_s(uint8_t a, uint8_t sf, uint32_t frm, uint32_t* fflags) {
+  rv_init(frm);
+  nvfloat4_t nvfp4;
+  nvfp4.v = a;
+  nvfp4.sf = sf;
+  float32_t f32 = nvfp4_to_f32(nvfp4);
+  if (fflags) { *fflags = softfloat_exceptionFlags; }
+  return f32.v;
+}
+
+uint8_t rv_ftonvfp4_s(uint32_t a, uint8_t sf, uint32_t frm, uint32_t* fflags) {
+  rv_init(frm);
+  float32_t f32;
+  f32.v = a;
+  sffloat8_t scale_factor;
+  scale_factor.sf = sf;
+  nvfloat4_t nvfp4 = f32_to_nvfp4(f32, scale_factor);
+  if (fflags) { *fflags = softfloat_exceptionFlags; }
+  return nvfp4.v;
+}
+
 #ifdef __cplusplus
 }
 #endif
diff --git a/sim/common/rvfloats.h b/sim/common/rvfloats.h
@@ -107,6 +107,14 @@ uint8_t rv_ftoe4m3_s(uint32_t a, uint32_t frm, uint32_t* fflags);
 uint32_t rv_e5m2tof_s(uint8_t a, uint32_t frm, uint32_t* fflags);
 uint8_t rv_ftoe5m2_s(uint32_t a, uint32_t frm, uint32_t* fflags);
 
+// mxfp8 <--> fp32 conversions
+uint32_t rv_mxfp8tof_s(uint8_t a, uint8_t sf, uint32_t frm, uint32_t* fflags);
+uint8_t rv_ftomxfp8_s(uint32_t a, uint8_t sf, uint32_t frm, uint32_t* fflags);
+
+// nvfp4 <--> fp32 conversions
+uint32_t rv_nvfp4tof_s(uint8_t a, uint8_t sf, uint32_t frm, uint32_t* fflags);
+uint8_t rv_ftonvfp4_s(uint32_t a, uint8_t sf, uint32_t frm, uint32_t* fflags);
+
 #ifdef __cplusplus
 }
 #endif
diff --git a/sim/common/softfloat_ext.cpp b/sim/common/softfloat_ext.cpp
@@ -905,6 +905,64 @@ bfloat8_t f32_to_f8e5m2(float32_t a) {
   return res;
 }
 
+float32_t mxfp8_to_f32(mxfloat8_t a) {
+  //convert e4m3 value to f32
+  uint32_t fflags = 0;
+  auto base_value = cvt_custom_to_f32(a.v, 4, 3, softfloat_roundingMode, &fflags);
+  //convert e8m0 scale factor to f32 (bias = 127)
+  int32_t scale_exp = (int32_t)a.sf - 127;
+  float scale_factor = std::ldexp(1.0f, scale_exp);
+  float out = base_value * scale_factor;
+  softfloat_exceptionFlags |= fflags;
+  float32_t res;
+  res.v = vortex::bit_cast<uint32_t>(out);
+  return res;
+}
+
+mxfloat8_t f32_to_mxfp8(float32_t a, sfexp8_t scale_factor) {
+  //extract e8m0 scale factor
+  int32_t scale_exp = (int32_t)scale_factor.sf - 127;
+  float scale = std::ldexp(1.0f, scale_exp);
+  //divide input by scale factor
+  float scaled_value = vortex::bit_cast<float>(a.v) / scale;
+  //convert scaled value to e4m3
+  uint32_t fflags = 0;
+  auto out = cvt_f32_to_custom(scaled_value, 4, 3, softfloat_roundingMode, &fflags);
+  softfloat_exceptionFlags |= fflags;
+  mxfloat8_t res;
+  res.v = out & 0xff;
+  res.sf = scale_factor.sf;
+  return res;
+}
+
+float32_t nvfp4_to_f32(nvfloat4_t a) {
+  //convert e2m1 value to f32
+  uint32_t fflags = 0;
+  auto base_value = cvt_custom_to_f32(a.v, 2, 1, softfloat_roundingMode, &fflags);
+  //convert e4m3 scale factor to f32
+  auto scale_factor = cvt_custom_to_f32(a.sf, 4, 3, softfloat_roundingMode, &fflags);
+  float out = base_value * scale_factor;
+  softfloat_exceptionFlags |= fflags;
+  float32_t res;
+  res.v = vortex::bit_cast<uint32_t>(out);
+  return res;
+}
+
+nvfloat4_t f32_to_nvfp4(float32_t a, sffloat8_t scale_factor) {
+  //extract e4m3 scale factor
+  uint32_t fflags = 0;
+  float scale = cvt_custom_to_f32(scale_factor.sf, 4, 3, softfloat_roundingMode, &fflags);
+  //divide input by scale factor
+  float scaled_value = vortex::bit_cast<float>(a.v) / scale;
+  //conver scaled value to e2m1
+  auto out = cvt_f32_to_custom(scaled_value, 2, 1, softfloat_roundingMode, &fflags);
+  softfloat_exceptionFlags |= fflags;
+  nvfloat4_t res;
+  res.v = out & 0x0f;
+  res.sf = scale_factor.sf;
+  return res;
+}
+
 #ifdef __cplusplus
 }
 #endif
diff --git a/sim/common/softfloat_ext.h b/sim/common/softfloat_ext.h
@@ -7,6 +7,10 @@ extern "C" {
 
 typedef struct { uint8_t v; } float8_t;  // e4m3
 typedef struct { uint8_t v; } bfloat8_t; // e5m2
+typedef struct { uint8_t v, sf; } mxfloat8_t; // e4m3 with e8m0 scale
+typedef struct { uint8_t v, sf; } nvfloat4_t; // e2m1 with e4m3 scale
+typedef struct { uint8_t sf; } sfexp8_t;   // e8m0 scale factor
+typedef struct { uint8_t sf; } sffloat8_t; // e4m3 scale factor
 
 uint_fast16_t f16_classify(float16_t);
 float16_t f16_rsqrte7(float16_t);
@@ -26,6 +30,12 @@ float32_t f8e4m3_to_f32(float8_t);
 bfloat8_t f32_to_f8e5m2(float32_t);
 float32_t f8e5m2_to_f32(bfloat8_t);
 
+mxfloat8_t f32_to_mxfp8(float32_t, sfexp8_t);
+float32_t mxfp8_to_f32(mxfloat8_t);
+
+nvfloat4_t f32_to_nvfp4(float32_t, sffloat8_t);
+float32_t nvfp4_to_f32(nvfloat4_t);
+
 uint32_t cvt_f32_to_custom(float value, uint32_t exp_bits, uint32_t sig_bits,
                            uint32_t frm, uint32_t *fflags);
 
diff --git a/sim/common/tensor_cfg.h b/sim/common/tensor_cfg.h
@@ -43,22 +43,38 @@ struct bf16 {
   static constexpr const char* name = "bf16";
 };
 
-// e4m3 (use for forward pass)
 struct fp8 {
   using dtype = uint8_t;
   static constexpr uint32_t id = 3;
   static constexpr uint32_t bits = 8;
   static constexpr const char* name = "fp8";
 };
 
-// e5m2 (use for backprop)
 struct bf8 {
   using dtype = uint8_t;
   static constexpr uint32_t id = 4;
   static constexpr uint32_t bits = 8;
   static constexpr const char* name = "bf8";
 };
 
+struct mxfp8 {
+  using dtype = uint8_t;
+  static constexpr uint32_t id = 5;
+  static constexpr uint32_t bits = 8;
+  static constexpr uint32_t scale_bits = 8;
+  static constexpr uint32_t ele_block = 32;    //elements per block
+  static constexpr const char* name = "mxfp8";
+};
+
+struct nvfp4 {
+  using dtype = uint8_t;
+  static constexpr uint32_t id = 7;
+  static constexpr uint32_t bits = 4;
+  static constexpr uint32_t scale_bits = 8;
+  static constexpr uint32_t ele_block = 16;
+  static constexpr const char* name = "nvfp4";
+};
+
 struct int32 {
   using dtype = int32_t;
   static constexpr uint32_t id = 8;
@@ -94,19 +110,31 @@ struct uint4 {
   static constexpr const char* name = "u4";
 };
 
+struct mxint8 {
+  using dtype = int8_t;
+  static constexpr uint32_t id = 13;
+  static constexpr uint32_t bits = 8;
+  static constexpr uint32_t scale_bits = 8;
+  static constexpr uint32_t ele_blcok = 32;
+  static constexpr const char* name = "mxi8";
+};
+
 inline const char* fmt_string(uint32_t fmt) {
   switch (fmt) {
-  case fp32::id:  return fp32::name;
-  case fp16::id:  return fp16::name;
-  case bf16::id:  return bf16::name;
-  case fp8::id:   return fp8::name;
-  case bf8::id:   return bf8::name;
-  case int32::id: return int32::name;
-  case int8::id:  return int8::name;
-  case uint8::id: return uint8::name;
-  case int4::id:  return int4::name;
-  case uint4::id: return uint4::name;
-  default:        return "";
+  case fp32::id:   return fp32::name;
+  case fp16::id:   return fp16::name;
+  case bf16::id:   return bf16::name;
+  case fp8::id:    return fp8::name;
+  case bf8::id:    return bf8::name;
+  case mxfp8::id:  return mxfp8::name;
+  case nvfp4::id:  return nvfp4::name;
+  case int32::id:  return int32::name;
+  case int8::id:   return int8::name;
+  case uint8::id:  return uint8::name;
+  case int4::id:   return int4::name;
+  case uint4::id:  return uint4::name;
+  case mxint8::id: return mxint8::name;
+  default:         return "";
   }
 }
 
diff --git a/sim/simx/tensor_unit.cpp b/sim/simx/tensor_unit.cpp
diff --git a/tests/regression/sgemm_tcu/main.cpp b/tests/regression/sgemm_tcu/main.cpp
diff --git a/tests/regression/sgemm_tcu/tensor_generic.cpp b/tests/regression/sgemm_tcu/tensor_generic.cpp