vortexgpgpu
diff --git a/‎kernel/include/vx_intrinsics.h‎
Lines changed: 64 additions & 0 deletions b/‎kernel/include/vx_intrinsics.h‎
Lines changed: 64 additions & 0 deletions
diff --git a/‎kernel/include/vx_sparse.h‎
Lines changed: 55 additions & 11 deletions b/‎kernel/include/vx_sparse.h‎
Lines changed: 55 additions & 11 deletions
diff --git a/‎sim/simx/core.cpp‎
Lines changed: 27 additions & 3 deletions b/‎sim/simx/core.cpp‎
Lines changed: 27 additions & 3 deletions
diff --git a/‎sim/simx/core.h‎
Lines changed: 13 additions & 0 deletions b/‎sim/simx/core.h‎
Lines changed: 13 additions & 0 deletions
@@ -281,6 +281,70 @@ inline __attribute__((const)) int vx_shfl_idx(size_t value, int bval, int cval,
     return ret;
 }
 
+// -----------------------------------------------------------------------------
+// VEGETA tile memory operations (Load/Store)
+// -----------------------------------------------------------------------------
+
+// TILE LOAD T: Load 1KB from ptr[TILE] to tile register index 'dst_treg'
+// Each load uses I-type encoding: rd=dst tile index, rs1=src_gpr, imm=ptr immediate
+inline void vx_lt(int dst_treg, int src_gpr, size_t ptr_imm) {
+    __asm__ volatile (".insn i %0, 0, x%1, %2, %3"
+        :: "i"(RISCV_CUSTOM1), "i"(dst_treg), "r"(src_gpr), "i"(ptr_imm) : "memory");
+}
+
+// TILE LOAD U: Load 1KB from ptr[TILE] to ureg index 'dst_ureg'
+inline void vx_lu(int dst_ureg, int src_gpr, size_t ptr_imm) {
+    __asm__ volatile (".insn i %0, 1, x%1, %2, %3"
+        :: "i"(RISCV_CUSTOM1), "i"(dst_ureg), "r"(src_gpr), "i"(ptr_imm) : "memory");
+}
+
+// TILE LOAD V: Load 1KB from ptr[TILE] to vreg index 'dst_vreg'
+inline void vx_lv(int dst_vreg, int src_gpr, size_t ptr_imm) {
+    __asm__ volatile (".insn i %0, 2, x%1, %2, %3"
+        :: "i"(RISCV_CUSTOM1), "i"(dst_vreg), "r"(src_gpr), "i"(ptr_imm) : "memory");
+}
+
+// TILE LOAD M: Load 1KB from ptr[TILE] to mreg index 'dst_mreg'
+inline void vx_lm(int dst_mreg, int src_gpr, size_t ptr_imm) {
+    __asm__ volatile (".insn i %0, 3, x%1, %2, %3"
+        :: "i"(RISCV_CUSTOM1), "i"(dst_mreg), "r"(src_gpr), "i"(ptr_imm) : "memory");
+}
+
+// TILE STORE T: Store 1KB from treg index 'src_treg' to ptr[TILE]
+// Store uses S-type encoding: rs1=src_gpr, rs2=src_treg index, imm=ptr immediate
+inline void vx_st(int src_gpr, size_t ptr_imm, int src_treg) {
+    __asm__ volatile (".insn s %0, 0, %1, x%2, %3"
+        :: "i"(RISCV_CUSTOM2), "r"(src_gpr), "i"(src_treg), "i"(ptr_imm) : "memory");
+}
+
+// -----------------------------------------------------------------------------
+// VEGETA tile compute (GEMM variants)
+// -----------------------------------------------------------------------------
+
+// TGEMM: Multiply dense tile src1 with dense tile src2, accumulate into dst
+inline void vx_tgemm(int dst_treg, int src1_treg, int src2_treg) {
+    __asm__ volatile (".insn r %0, 0, 0, x%1, x%2, x%3"
+        :: "i"(RISCV_CUSTOM3), "i"(dst_treg), "i"(src1_treg), "i"(src2_treg));
+}
+
+// UGEMM: Multiply sparse (2:4) tile src1 with dense tile src2, accumulate into dst
+inline void vx_ugemm(int dst_treg, int src1_treg, int src2_ureg) {
+    __asm__ volatile (".insn r %0, 0, 1, x%1, x%2, x%3"
+        :: "i"(RISCV_CUSTOM3), "i"(dst_treg), "i"(src1_treg), "i"(src2_ureg));
+}
+
+// VGEMM: Multiply sparse (1:4) tile src1 with dense tile src2, accumulate into dst
+inline void vx_vgemm(int dst_treg, int src1_treg, int src2_vreg) {
+    __asm__ volatile (".insn r %0, 0, 2, x%1, x%2, x%3"
+        :: "i"(RISCV_CUSTOM3), "i"(dst_treg), "i"(src1_treg), "i"(src2_vreg));
+}
+
+// RGEMM: Multiply sparse (row-wise N:4) tile src1 with dense tile src2, accumulate into dst
+inline void vx_rgemm(int dst_ureg, int src1_treg, int src2_ureg) {
+    __asm__ volatile (".insn r %0, 0, 3, x%1, x%2, x%3"
+        :: "i"(RISCV_CUSTOM3), "i"(dst_ureg), "i"(src1_treg), "i"(src2_ureg));
+}
+
 #ifdef __cplusplus
 }
 #endif
 
@@ -138,6 +138,8 @@ struct wmma_context {
     static constexpr frag_use_t Use = U;
     static constexpr uint32_t NR = N;
     std::array<vreg_t, N> data;
+    using metadata_array_t = std::conditional_t<U == matrix_a, std::array<uint32_t, N>, std::array<uint32_t, 0>>;
+    metadata_array_t metadata{};
   };
 
 public:
@@ -175,7 +177,7 @@ struct wmma_context {
   }
 
   template <mem_layout src_layout = row_major, typename Frag>
-  static __attribute__((always_inline)) void load_matrix_sync(Frag &dst, const void *src, size_t ldm) {
+  static __attribute__((always_inline)) void load_matrix_sync(Frag &dst, const void *src, size_t ldm, const void *meta_src = nullptr) {
     uint32_t lane = vx_thread_id();
     if constexpr (Frag::Use == matrix_a) {
       // Load row-major matrix A
@@ -188,24 +190,46 @@ struct wmma_context {
       if constexpr (src_layout == col_major) {
         std::swap(block_row, block_col);
       }
-      auto base = reinterpret_cast<const input_t*>(src) + block_row * ldm + block_col;
+      // For sparse format: when meta_src is provided, data stride is K/2 (not K)
+      // because each row has K/2 values (2 per block of 4)
+      size_t data_ldm = (meta_src != nullptr) ? (ldm / 2) : ldm;
+      auto base = reinterpret_cast<const input_t*>(src) + block_row * data_ldm + block_col;
+      const uint8_t* meta_base = meta_src ? reinterpret_cast<const uint8_t*>(meta_src) : nullptr;
+      uint32_t meta_ldm = meta_src ? (ldm / 4) : 0; // Number of metadata bytes per row (K/4 blocks)
+      
       detail::unroll_for<Frag::NR>([&](auto r) {
         uint32_t block_m  = r / cfg::k_steps;
         uint32_t block_k  = r % cfg::k_steps;
         uint32_t elem_row = block_m * m_stride;
         uint32_t elem_col = block_k * k_stride;
+        uint32_t meta_value = 0;
+
+        if (meta_base) {
+          uint32_t matrix_row = block_row + elem_row;
+          uint32_t k_elem_idx = elem_col / i_ratio;
+          uint32_t meta_block_k = k_elem_idx / 4;
+          if (meta_block_k < meta_ldm) {
+            uint32_t meta_offset = matrix_row * meta_ldm + meta_block_k;
+            meta_value = static_cast<uint32_t>(meta_base[meta_offset]);
+          }
+        }
+
+        if constexpr (Frag::Use == matrix_a) {
+          dst.metadata[r] = meta_value;
+        }
         if constexpr (src_layout == col_major) {
           static_assert(input_is_subbyte == false, "col_major layout is not supported for sub-byte matrix_a");
           std::swap(elem_row, elem_col);
-          auto ptr = base + elem_row * ldm + elem_col;
+          auto ptr = base + elem_row * data_ldm + elem_col;
           if constexpr (sizeof(vreg_t) == sizeof(input_t) && !input_is_subbyte) {
             dst.data[r] = *reinterpret_cast<const vreg_t*>(ptr);
           } else {
-            dst.data[r] = input_acessor_t::pack_row(ptr, ldm);
+            dst.data[r] = input_acessor_t::pack_row(ptr, data_ldm);
           }
         } else {
-          // raw_major layout
-          auto ptr = base + elem_row * ldm + elem_col;
+          // row_major layout
+          // For sparse format, use data_ldm (K/2) instead of ldm (K)
+          auto ptr = base + elem_row * data_ldm + elem_col;
           assert(reinterpret_cast<uintptr_t>(ptr) % alignof(vreg_t) == 0 && "pointer must be aligned to 4 bytes");
           dst.data[r] = *reinterpret_cast<const vreg_t *>(ptr);
         }
@@ -310,6 +334,24 @@ struct wmma_context {
     static_assert(FragC::Use == accumulator, "C must be accumulator");
     static_assert(FragD::Use == accumulator, "D must be accumulator");
 
+    auto meta_value = [&](uint32_t idx) -> uint32_t {
+      if constexpr (FragA::Use == matrix_a) {
+        if (idx < FragA::NR) {
+          return fragA.metadata[idx];
+        }
+      }
+      return 0u;
+    };
+
+    register uint32_t ma0 __asm__("a0") = meta_value(0);
+    register uint32_t ma1 __asm__("a1") = meta_value(1);
+    register uint32_t ma2 __asm__("a2") = meta_value(2);
+    register uint32_t ma3 __asm__("a3") = meta_value(3);
+    register uint32_t ma4 __asm__("a4") = meta_value(4);
+    register uint32_t ma5 __asm__("a5") = meta_value(5);
+    register uint32_t ma6 __asm__("a6") = meta_value(6);
+    register uint32_t ma7 __asm__("a7") = meta_value(7);
+
     // fragA: caller-saved registers (f0-f7)
     register float fa0 __asm__("f0")  = fragA.data[0];
     register float fa1 __asm__("f1")  = fragA.data[1];
@@ -348,15 +390,16 @@ struct wmma_context {
       register float fd3 __asm__("f27");
       register float fd4 __asm__("f28");
       register float fd5 __asm__("f29");
-      register float fd6 __asm__("f30");
+      register float fd6 __asm__("f30"); 
       register float fd7 __asm__("f31");
 
-      __asm__ volatile (".insn r %[insn], 0, 2, x%[fmd], x%[fms], x0"
+      __asm__ volatile (".insn r %[insn], 0, 3, x%[fmd], x%[fms], x0"
         : "=f"(fd0), "=f"(fd1), "=f"(fd2), "=f"(fd3), "=f"(fd4), "=f"(fd5), "=f"(fd6), "=f"(fd7)
         : [insn]"i"(RISCV_CUSTOM0), [fmd]"i"(Ot::id), [fms]"i"(It::id),
           "f"(fa0), "f"(fa1), "f"(fa2), "f"(fa3), "f"(fa4), "f"(fa5), "f"(fa6), "f"(fa7),
           "f"(fb0), "f"(fb1), "f"(fb2), "f"(fb3), "f"(fb4), "f"(fb5), "f"(fb6), "f"(fb7),
-          "f"(fc0), "f"(fc1), "f"(fc2), "f"(fc3), "f"(fc4), "f"(fc5), "f"(fc6), "f"(fc7)
+          "f"(fc0), "f"(fc1), "f"(fc2), "f"(fc3), "f"(fc4), "f"(fc5), "f"(fc6), "f"(fc7),
+          "r"(ma0), "r"(ma1), "r"(ma2), "r"(ma3), "r"(ma4), "r"(ma5), "r"(ma6), "r"(ma7)
       );
 
       // Write results to fragD
@@ -389,12 +432,13 @@ struct wmma_context {
       register float fd6 __asm__("f16");
       register float fd7 __asm__("f17");
 
-      __asm__ volatile (".insn r %[insn], 0, 2, x%[fmd], x%[fms], x0"
+      __asm__ volatile (".insn r %[insn], 0, 3, x%[fmd], x%[fms], x0"
         : "=f"(fd0), "=f"(fd1), "=f"(fd2), "=f"(fd3), "=f"(fd4), "=f"(fd5), "=f"(fd6), "=f"(fd7)
         : [insn]"i"(RISCV_CUSTOM0), [fmd]"i"(Ot::id), [fms]"i"(It::id),
           "f"(fa0), "f"(fa1), "f"(fa2), "f"(fa3), "f"(fa4), "f"(fa5), "f"(fa6), "f"(fa7),
           "f"(fb0), "f"(fb1), "f"(fb2), "f"(fb3),
-          "f"(fc0), "f"(fc1), "f"(fc2), "f"(fc3), "f"(fc4), "f"(fc5), "f"(fc6), "f"(fc7)
+          "f"(fc0), "f"(fc1), "f"(fc2), "f"(fc3), "f"(fc4), "f"(fc5), "f"(fc6), "f"(fc7),
+          "r"(ma0), "r"(ma1), "r"(ma2), "r"(ma3), "r"(ma4), "r"(ma5), "r"(ma6), "r"(ma7)
       );
 
       // Write results to fragD
 
@@ -23,6 +23,23 @@
 #include "debug.h"
 #include "constants.h"
 
+#ifdef EXT_VEGETA_ENABLE
+#ifndef NUM_VEGETA_BLOCKS
+#ifdef NUM_TCU_BLOCKS
+#define NUM_VEGETA_BLOCKS NUM_TCU_BLOCKS
+#else
+#define NUM_VEGETA_BLOCKS ISSUE_WIDTH
+#endif
+#endif
+#ifndef NUM_VEGETA_LANES
+#ifdef NUM_TCU_LANES
+#define NUM_VEGETA_LANES NUM_TCU_LANES
+#else
+#define NUM_VEGETA_LANES NUM_THREADS
+#endif
+#endif
+#endif
+
 using namespace vortex;
 
 Core::Core(const SimContext& ctx,
@@ -44,6 +61,9 @@ Core::Core(const SimContext& ctx,
 #endif
 #ifdef EXT_V_ENABLE
   , vec_unit_(VecUnit::Create("vpu", arch, this))
+#endif
+#ifdef EXT_VEGETA_ENABLE
+  , sparse_unit_(SparseUnit::Create("spu", arch, this))
 #endif
   , emulator_(arch, dcrs, this)
   , ibuffers_(arch.num_warps(), IBUF_SIZE)
@@ -133,7 +153,7 @@ Core::Core(const SimContext& ctx,
       dcache_rsp_ports.at(p).bind(&lsu_dcache_adapter.at(b)->RspOut.at(c));
     }
   }
-
+  
   // initialize dispatchers
   dispatchers_.at((int)FUType::ALU) = SimPlatform::instance().create_object<Dispatcher>(this, 2, NUM_ALU_BLOCKS, NUM_ALU_LANES);
   dispatchers_.at((int)FUType::FPU) = SimPlatform::instance().create_object<Dispatcher>(this, 2, NUM_FPU_BLOCKS, NUM_FPU_LANES);
@@ -145,6 +165,9 @@ Core::Core(const SimContext& ctx,
 #ifdef EXT_TCU_ENABLE
   dispatchers_.at((int)FUType::TCU) = SimPlatform::instance().create_object<Dispatcher>(this, 2, NUM_TCU_BLOCKS, NUM_TCU_LANES);
 #endif
+#ifdef EXT_VEGETA_ENABLE
+  dispatchers_.at((int)FUType::VEGETA) = SimPlatform::instance().create_object<Dispatcher>(this, 2, NUM_VEGETA_BLOCKS, NUM_VEGETA_LANES);
+#endif
 
   // initialize execute units
   func_units_.at((int)FUType::ALU) = SimPlatform::instance().create_object<AluUnit>(this);
@@ -157,7 +180,9 @@ Core::Core(const SimContext& ctx,
 #ifdef EXT_TCU_ENABLE
   func_units_.at((int)FUType::TCU) = SimPlatform::instance().create_object<TcuUnit>(this);
 #endif
-
+#ifdef EXT_VEGETA_ENABLE
+  func_units_.at((int)FUType::VEGETA) = SimPlatform::instance().create_object<VegetaUnit>(this);
+#endif
   // bind commit arbiters
   for (uint32_t iw = 0; iw < ISSUE_WIDTH; ++iw) {
     snprintf(sname, 100, "%s-commit-arb%d", this->name().c_str(), iw);
@@ -223,7 +248,6 @@ void Core::schedule() {
 
   // suspend warp until decode
   emulator_.suspend(trace->wid);
-
   DT(3, "pipeline-schedule: " << *trace);
 
   // advance to fetch stage
 
@@ -29,6 +29,9 @@
 #else
 #include "operands.h"
 #endif
+#ifdef EXT_VEGETA_ENABLE
+#include "sparse_unit.h"
+#endif
 
 #include "dispatcher.h"
 #include "func_unit.h"
@@ -171,6 +174,12 @@ class Core : public SimObject<Core> {
   }
 #endif
 
+#ifdef EXT_VEGETA_ENABLE
+  SparseUnit::Ptr& sparse_unit() {
+    return sparse_unit_;
+  }
+#endif
+
   auto& trace_pool() {
     return trace_pool_;
   }
@@ -200,6 +209,10 @@ class Core : public SimObject<Core> {
   VecUnit::Ptr vec_unit_;
 #endif
 
+#ifdef EXT_VEGETA_ENABLE
+  SparseUnit::Ptr sparse_unit_;
+#endif
+
   Emulator emulator_;
 
   std::vector<IBuffer> ibuffers_;