fix: remaining batch stuff

RivinHD · RivinHD · commit 530fd92f695a · 2025-05-15T16:24:16.000Z
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -28,7 +28,7 @@ option(SAVE_JITS_TO_FILE "Saves the jitted kernels into a file if activated." OF
 
 if(SAVE_JITS_TO_FILE)
     message(NOTICE "The saved kernels can be disassembled with: 'objdump -D -b binary -m aarch64 <inputFile> > <outputFile>'")
-    add_compile_definitions(SAVE_JITS_TO_FILE)
+    # set per target
 endif()
 
 # ==============================================================
@@ -222,10 +222,12 @@ endforeach()
 # TARGETS
 # =============================================================
 add_executable(tests "${SOURCE_FILEPATHS}" "${TEST_FILEPATHS}")
+if(SAVE_JITS_TO_FILE)
+target_compile_definitions(tests PUBLIC SAVE_JITS_TO_FILE)
+endif(SAVE_JITS_TO_FILE)
 target_link_libraries(tests PRIVATE Catch2::Catch2WithMain)
 
 add_executable(benchmarks "${SOURCE_FILEPATHS}" "${BENCH_FILEPATHS}")
-target_compile_definitions(benchmarks PUBLIC SAVE_JITS_TO_FILE=0)
 target_link_libraries(benchmarks benchmark::benchmark_main)
 
 # ==============================================================
diff --git a/src/main/Brgemm.cpp b/src/main/Brgemm.cpp
@@ -19,15 +19,12 @@ mini_jit::Brgemm::error_t mini_jit::Brgemm::generate(uint32_t m, uint32_t n, uin
   {
     return error_t::err_row_major_order_not_supported;
   }
-  if (br_size != 1)
-  {
-    return error_t::err_batch_reduce_size_not_supported;
-  }
+
   if (br_size == 1 && (trans_a + trans_b + trans_c) == 0 && dtype == dtype_t::fp32)
   {
     fill_with_matmuls_no_batch_dim_column_major_fp32(m, n, k);
   }
-  if (br_size > 1 && (trans_a + trans_b + trans_c) == 0 && dtype == dtype_t::fp32)
+  else if (br_size > 1 && (trans_a + trans_b + trans_c) == 0 && dtype == dtype_t::fp32)
   {
     fill_with_matmuls_batch_dim_column_major_fp32(m, n, k, br_size);
   }
@@ -152,4 +149,7 @@ void mini_jit::Brgemm::fill_with_matmuls_batch_dim_column_major_fp32(uint32_t m,
     kernels::br_matmul_lt16_lt4nRest_k(native_kernel, n / 4, k, br_size, m % 16, n % 4);
     return;
   }
+
+  throw std::logic_error(
+    std::format("Unhandled combination found for MxNxKxBatch matmul: m='{}', n='{}', k='{}', batch='{}'", m, n, k, br_size));
 }
diff --git a/src/main/kernels/br_matmul_16mRest_lt4nRest_k.cpp b/src/main/kernels/br_matmul_16mRest_lt4nRest_k.cpp
@@ -12,7 +12,6 @@ void mini_jit::kernels::br_matmul_16mRest_lt4nRest_k(mini_jit::Kernel &kernel, c
   using namespace mini_jit::arm_instructions;
 
   release_assert(m_loop_16 != 0, "Cannot proccess matrix with m loop of 0.");
-  release_assert(n_loop_4 != 0, "Cannot proccess matrix with n loop of 0.");
   release_assert(k_loop != 0, "Cannot proccess matrix with k loop of 0.");
   release_assert(m_loop_rest != 0, "Cannot create a matrix with a rest of m equal to 0!");
   release_assert(m_loop_rest <= 15, "Cannot create a matrix with a rest of m larger than 15!");
@@ -106,7 +105,10 @@ void mini_jit::kernels::br_matmul_16mRest_lt4nRest_k(mini_jit::Kernel &kernel, c
   // ========================================================================================
   // Calculate m + rest but n is multiple of 4
   // ========================================================================================
-  matmul_16mRest_4n_k(kernel, m_loop_16, n_loop_4, k_loop, m_loop_rest, false);
+  if (n_loop_4 != 0)
+  {
+    matmul_16mRest_4n_k(kernel, m_loop_16, n_loop_4, k_loop, m_loop_rest, false);
+  }
 
   // Offset to the next matrix block
   // Here we want to start with the initial m value but n should be offset by the already calculated amount.
diff --git a/src/test/Brgemm.test.cpp b/src/test/Brgemm.test.cpp
@@ -173,3 +173,79 @@ TEST_CASE("Test gemm generation (1≤M≤64, 1≤N≤64, K∈[1,16,32,64,128],ld
   generatorTest.SetKernel(kernel);
   generatorTest.RunTest(lda, ldb, ldc, lda * K, ldb * N);
 }
+
+TEST_CASE("Test gemm generation (1≤M≤64, 1≤N≤64, K∈[1,16,32,64,128], 1≤BatchSize≤16, lda=M, ldb=K, and ldc=M) on random data",
+          "[generation][correctness][gemm]")
+{
+  auto M = GENERATE(range(1u, 64u + 1u, 1u));
+  auto N = GENERATE(range(1u, 64u + 1u, 1u));
+  auto K = GENERATE(1u, 16u, 32u, 64u, 128u);
+  auto BatchSize = GENERATE(range(1u, 16u + 1u, 1u));
+
+  CAPTURE(M, N, K, BatchSize);
+
+  mini_jit::Brgemm gemm;
+  mini_jit::Brgemm::error_t error = gemm.generate(M, N, K, BatchSize, 0, 0, 0, mini_jit::Brgemm::dtype_t::fp32);
+
+  switch (error)
+  {
+  case mini_jit::Brgemm::error_t::success:
+    break;
+  case mini_jit::Brgemm::error_t::err_batch_reduce_size_not_supported:
+    FAIL("Error batch reduce size not supported.");
+    break;
+  case mini_jit::Brgemm::error_t::err_row_major_order_not_supported:
+    FAIL("Error row major order not supported.");
+    break;
+  case mini_jit::Brgemm::error_t::err_wrong_dimension:
+    FAIL("Error err wrong dimension.");
+    break;
+  case mini_jit::Brgemm::error_t::err_wrong_dtype:
+    FAIL("Error wrong dtype.");
+    break;
+  default:
+    FAIL("Found unprocessed error type");
+    break;
+  }
+
+  mini_jit::Brgemm::kernel_t kernel = gemm.get_kernel();
+  REQUIRE(kernel != nullptr);
+}
+
+TEST_CASE("Test gemm generation (1≤M≤64, 1≤N≤64, K∈[1,16,32,64,128], 1≤BatchSize≤16, lda=M, ldb=K, and ldc=M) on counting data",
+          "[generation][correctness][gemm]")
+{
+  auto M = GENERATE(range(1u, 64u + 1u, 1u));
+  auto N = GENERATE(range(1u, 64u + 1u, 1u));
+  auto K = GENERATE(1u, 16u, 32u, 64u, 128u);
+  auto BatchSize = GENERATE(range(1u, 16u + 1u, 1u));
+
+  CAPTURE(M, N, K, BatchSize);
+
+  mini_jit::Brgemm gemm;
+  mini_jit::Brgemm::error_t error = gemm.generate(M, N, K, BatchSize, 0, 0, 0, mini_jit::Brgemm::dtype_t::fp32);
+
+  switch (error)
+  {
+  case mini_jit::Brgemm::error_t::success:
+    break;
+  case mini_jit::Brgemm::error_t::err_batch_reduce_size_not_supported:
+    FAIL("Error batch reduce size not supported.");
+    break;
+  case mini_jit::Brgemm::error_t::err_row_major_order_not_supported:
+    FAIL("Error row major order not supported.");
+    break;
+  case mini_jit::Brgemm::error_t::err_wrong_dimension:
+    FAIL("Error err wrong dimension.");
+    break;
+  case mini_jit::Brgemm::error_t::err_wrong_dtype:
+    FAIL("Error wrong dtype.");
+    break;
+  default:
+    FAIL("Found unprocessed error type");
+    break;
+  }
+
+  mini_jit::Brgemm::kernel_t kernel = gemm.get_kernel();
+  REQUIRE(kernel != nullptr);
+}
diff --git a/src/test/kernels/matmul.bench.cpp b/src/test/kernels/matmul.bench.cpp
@@ -61,4 +61,68 @@ BENCHMARK_REGISTER_F(GemmFixture, BM_matmul)
   ->ArgNames({"M", "N", "K"})
   ->DisplayAggregatesOnly(true)
   ->Apply(CustomArguments)
-  ->MinWarmUpTime(1.0);  // WarmUp in seconds
+  ->MinWarmUpTime(1.0);  // WarmUp in seconds
+
+class BrGemmFixture : public benchmark::Fixture
+{
+public:
+  std::vector<float> matrix_a, matrix_b, matrix_c;
+  double flops;
+
+  void SetUp(::benchmark::State &state) override
+  {
+    flops = 0;
+
+    int M = state.range(0);
+    int N = state.range(1);
+    int K = state.range(2);
+    int Batch = state.range(3);
+
+    matrix_a.resize(M * K * Batch);
+    matrix_b.resize(K * N * Batch);
+    matrix_c.resize(M * N * Batch);
+
+    fill_random_matrix_args(matrix_a.data(), M * K * Batch);
+    fill_random_matrix_args(matrix_b.data(), K * N * Batch);
+    fill_random_matrix_args(matrix_c.data(), M * N * Batch);
+  }
+
+  void TearDown(::benchmark::State &state) override
+  {
+    state.counters["FLOPS"] = benchmark::Counter(flops, benchmark::Counter::kIsRate);
+  }
+};
+
+BENCHMARK_DEFINE_F(BrGemmFixture, BM_brMatmul)(benchmark::State &state)
+{
+  int M = state.range(0);
+  int N = state.range(1);
+  int K = state.range(2);
+  int Batch = state.range(3);
+
+  mini_jit::Brgemm brgemm;
+  brgemm.generate(M, N, K, Batch, 0, 0, 0, mini_jit::Brgemm::dtype_t::fp32);
+  auto kernel = brgemm.get_kernel();
+
+  for (auto _ : state)
+  {
+    kernel(matrix_a.data(), matrix_b.data(), matrix_c.data(), M, K, M, M * K, K * N);
+  }
+
+  flops = M * N * K * Batch * 2 * state.iterations();
+}
+
+static void CustomArgumentsBatch(benchmark::internal::Benchmark *b)
+{
+  int Batch = 16;
+  for (int M = 1; M <= 64; M += 1)
+    for (int N = 1; N <= 64; N += 1)
+      for (int K : {1, 16, 32, 64, 128})
+        b->Args({M, N, K, Batch});
+}
+
+BENCHMARK_REGISTER_F(BrGemmFixture, BM_brMatmul)
+  ->ArgNames({"M", "N", "K", "Batch"})
+  ->DisplayAggregatesOnly(true)
+  ->Apply(CustomArgumentsBatch)
+  ->MinWarmUpTime(0.3);  // WarmUp in seconds

Original file line number	Diff line number	Diff line change
`@@ -19,15 +19,12 @@ mini_jit::Brgemm::error_t mini_jit::Brgemm::generate(uint32_t m, uint32_t n, uin`
`19`	`19`	`{`
`20`	`20`	`return error_t::err_row_major_order_not_supported;`
`21`	`21`	`}`
`22`		`- if (br_size != 1)`
`23`		`- {`
`24`		`- return error_t::err_batch_reduce_size_not_supported;`
`25`		`- }`
	`22`	`+`
`26`	`23`	`if (br_size == 1 && (trans_a + trans_b + trans_c) == 0 && dtype == dtype_t::fp32)`
`27`	`24`	`{`
`28`	`25`	`fill_with_matmuls_no_batch_dim_column_major_fp32(m, n, k);`
`29`	`26`	`}`
`30`		`- if (br_size > 1 && (trans_a + trans_b + trans_c) == 0 && dtype == dtype_t::fp32)`
	`27`	`+ else if (br_size > 1 && (trans_a + trans_b + trans_c) == 0 && dtype == dtype_t::fp32)`
`31`	`28`	`{`
`32`	`29`	`fill_with_matmuls_batch_dim_column_major_fp32(m, n, k, br_size);`
`33`	`30`	`}`
`@@ -152,4 +149,7 @@ void mini_jit::Brgemm::fill_with_matmuls_batch_dim_column_major_fp32(uint32_t m,`
`152`	`149`	`kernels::br_matmul_lt16_lt4nRest_k(native_kernel, n / 4, k, br_size, m % 16, n % 4);`
`153`	`150`	`return;`
`154`	`151`	`}`
	`152`	`+`
	`153`	`+ throw std::logic_error(`
	`154`	`+ std::format("Unhandled combination found for MxNxKxBatch matmul: m='{}', n='{}', k='{}', batch='{}'", m, n, k, br_size));`
`155`	`155`	`}`