Adding support for BackendKernelSelectorConfig in SBGEMM

patryk-kaiser-ARM · patryk-kaiser-ARM · commit bb7d2cdf4b12 · 2026-03-02T12:10:38.000Z
Signed-off-by: Patryk Kaiser &lt;patryk.kaiser@arm.com&gt;
diff --git a/onnxruntime/core/mlas/inc/mlas.h b/onnxruntime/core/mlas/inc/mlas.h
@@ -2016,14 +2016,17 @@ struct MLAS_SBGEMM_DATA_PARAMS {
  * Note:  We only support uniform batching, so shapes and types of the
  *        input must be same across all parameter blocks.
  *
- * @param[in]  TransA  Supplies the transpose operation for matrix A.
- * @param[in]  TransB  Supplies the transpose operation for matrix B.
- * @param[in]  M       row size of matrix A and C
- * @param[in]  N       column size of matrix B and C
- * @param[in]  K       column size of matrix A and row size of matrix B
- * @param[in]  BatchN  number of batches
- * @param[inout]  DataParams  An array (size BatchN) of parameter blocks
+ * @param[in]  TransA                       Supplies the transpose operation for matrix A.
+ * @param[in]  TransB                       Supplies the transpose operation for matrix B.
+ * @param[in]  M                            row size of matrix A and C
+ * @param[in]  N                            column size of matrix B and C
+ * @param[in]  K                            column size of matrix A and row size of matrix B
+ * @param[in]  BatchN                       number of batches
+ * @param[inout]  DataParams                An array (size BatchN) of parameter blocks
  * @param[in]  ThreadPool
+ * @param[in]  BackendKernelSelectorConfig  Supplies the backend kernel selector
+                                            configuration options, else nullptr if the
+                                            default configuration should be used.
  * @return
  */
 void MLASCALL
@@ -2035,41 +2038,49 @@ MlasSBGemmBatch(
     const size_t K,
     const size_t BatchN,
     const MLAS_SBGEMM_DATA_PARAMS* DataParams,
-    MLAS_THREADPOOL* ThreadPool = nullptr
+    MLAS_THREADPOOL* ThreadPool,
+    const MLAS_BACKEND_KERNEL_SELECTOR_CONFIG* BackendKernelSelectorConfig
 );
 
 /**
  * @brief For bfloat16 precision GEMM, returns size of the
  *        packing buffer needed for right hand side
- * @param[in] TransA     Supplies the transpose operation for matrix A.
- * @param[in] TransB     Supplies the transpose operation for matrix B.
- * @param[in] BIsfp32    Is matrix B datatype FP32
- * @param[in] N          Number of columns
- * @param[in] K          Number of rows
- * @return  size of the packing buffer,
- *          0 if operation not supported
+ * @param[in] TransA                       Supplies the transpose operation for matrix A.
+ * @param[in] TransB                       Supplies the transpose operation for matrix B.
+ * @param[in] BIsfp32                      Is matrix B datatype FP32
+ * @param[in] N                            Number of columns
+ * @param[in] K                            Number of rows
+ * @param[in] BackendKernelSelectorConfig  Supplies the backend kernel selector
+                                           configuration options, else nullptr if the
+                                           default configuration should be used.
+ * @return                                 size of the packing buffer,
+ *                                         0 if operation not supported
  */
 size_t MLASCALL
 MlasSBGemmPackBSize(
     CBLAS_TRANSPOSE TransA,
     CBLAS_TRANSPOSE TransB,
     bool BIsfp32,
     size_t N,
-    size_t K
+    size_t K,
+    const MLAS_BACKEND_KERNEL_SELECTOR_CONFIG* BackendKernelSelectorConfig
 );
 
 /**
  * @brief For bfloat16 precision GEMM, convert the float matrix B
  *        to blfoat16 precision and pack it into a packing buffer
  *
- * @param[in]  TransA    Supplies the transpose operation for matrix A.
- * @param[in]  TransB    Supplies the transpose operation for matrix B.
- * @param[in]  BIsfp32   Is matrix B datatype FP32
- * @param[in]  N        Number of columns
- * @param[in]  K        Number of rows
- * @param[in]  B        Address of matrix B
- * @param[in]  ldb      leading dimension of input matrix B
- * @param[out] PackedB  Address of the packed matrix
+ * @param[in]  TransA                      Supplies the transpose operation for matrix A.
+ * @param[in]  TransB                      Supplies the transpose operation for matrix B.
+ * @param[in]  BIsfp32                     Is matrix B datatype FP32
+ * @param[in]  N                           Number of columns
+ * @param[in]  K                           Number of rows
+ * @param[in]  B                           Address of matrix B
+ * @param[in]  ldb                         leading dimension of input matrix B
+ * @param[out] PackedB                     Address of the packed matrix
+ * @param[in]  BackendKernelSelectorConfig  Supplies the backend kernel selector
+                                           configuration options, else nullptr if the
+                                           default configuration should be used.
  */
 void MLASCALL
 MlasSBGemmConvertPackB(
@@ -2080,7 +2091,8 @@ MlasSBGemmConvertPackB(
     size_t K,
     const float* B,
     size_t ldb,
-    void* PackedB
+    void* PackedB,
+    const MLAS_BACKEND_KERNEL_SELECTOR_CONFIG* BackendKernelSelectorConfig
 );
 #endif
 
diff --git a/onnxruntime/core/mlas/lib/sbconv_kernel_neon.cpp b/onnxruntime/core/mlas/lib/sbconv_kernel_neon.cpp
@@ -91,7 +91,7 @@ MlasConvPointwiseBf16KernelNeon(
         }
     }
 
-    MlasSBGemmBatch(OutputCount, BlockSize, BlockSize, idx, gemm_params, nullptr);
+    MlasSBGemmBatch(CblasNoTrans, CblasNoTrans, OutputCount, BlockSize, BlockSize, idx, gemm_params, nullptr, nullptr);
 
     if (ReluActivation) {
         const float32x4_t ZeroVector = MlasBroadcastFloat32x4(0.0f);
diff --git a/onnxruntime/core/mlas/lib/sbgemm.h b/onnxruntime/core/mlas/lib/sbgemm.h
@@ -303,14 +303,17 @@ MlasSBGemmPackBSize(
     CBLAS_TRANSPOSE TransA,
     CBLAS_TRANSPOSE TransB,
     bool BIsfp32,
-    size_t N, 
-    size_t K)
+    size_t N,
+    size_t K,
+    const MLAS_BACKEND_KERNEL_SELECTOR_CONFIG* BackendKernelSelectorConfig
+)
 {
     //
     // Compute the number of bytes required to hold the packed buffer.
     //
 #if defined(USE_KLEIDIAI) && !defined(_MSC_VER) && !defined(MLAS_USE_ARM_NEON_NCHWC)
-    if (GetMlasPlatform().MlasSBGemmPackBSizeOverride != nullptr &&
+    if ((!BackendKernelSelectorConfig || BackendKernelSelectorConfig->use_kleidiai) &&
+        GetMlasPlatform().MlasSBGemmPackBSizeOverride != nullptr &&
         TransA != CBLAS_TRANSPOSE::CblasTrans &&
         TransB != CBLAS_TRANSPOSE::CblasTrans &&
         BIsfp32) {
@@ -348,11 +351,13 @@ MlasSBGemmConvertPackB(
     size_t K,
     const float* B,
     size_t ldb,
-    void* PackedB
+    void* PackedB,
+    const MLAS_BACKEND_KERNEL_SELECTOR_CONFIG* BackendKernelSelectorConfig
 )
 {
 #if defined(USE_KLEIDIAI) && !defined(_MSC_VER) && !defined(MLAS_USE_ARM_NEON_NCHWC)
-    if (GetMlasPlatform().MlasSBGemmPackBOverride != nullptr &&
+    if ((!BackendKernelSelectorConfig || BackendKernelSelectorConfig->use_kleidiai) &&
+        GetMlasPlatform().MlasSBGemmPackBOverride != nullptr &&
         TransA != CBLAS_TRANSPOSE::CblasTrans &&
         TransB != CBLAS_TRANSPOSE::CblasTrans &&
         BIsfp32 &&
@@ -376,11 +381,13 @@ MlasSBGemmBatch(
     const size_t K,
     const size_t BatchN,
     const MLAS_SBGEMM_DATA_PARAMS* Data,
-    MLAS_THREADPOOL* ThreadPool
+    MLAS_THREADPOOL* ThreadPool,
+    const MLAS_BACKEND_KERNEL_SELECTOR_CONFIG* BackendKernelSelectorConfig
 )
 {
 #if defined(USE_KLEIDIAI) && !defined(_MSC_VER) && !defined(MLAS_USE_ARM_NEON_NCHWC)
-    if (GetMlasPlatform().MlasSBGemmBatchOverride != nullptr &&
+    if ((!BackendKernelSelectorConfig || BackendKernelSelectorConfig->use_kleidiai) &&
+        GetMlasPlatform().MlasSBGemmBatchOverride != nullptr &&
         TransA != CBLAS_TRANSPOSE::CblasTrans &&
         TransB != CBLAS_TRANSPOSE::CblasTrans &&
         Data->AIsfp32 &&
diff --git a/onnxruntime/core/providers/cpu/math/matmul.cc b/onnxruntime/core/providers/cpu/math/matmul.cc
@@ -141,7 +141,8 @@ bool GemmPackBBfloat16(AllocatorPtr& alloc,
                        bool trans_b,
                        IAllocatorUniquePtr<void>& packed_b,
                        size_t& packed_b_size,
-                       TensorShape& b_shape) {
+                       TensorShape& b_shape,
+                       const MLAS_BACKEND_KERNEL_SELECTOR_CONFIG* mlas_backend_kernel_selector_config) {
   // Only handle the common case of a 2D weight matrix. Additional matrices
   // could be handled by stacking the packed buffers.
   if (tensor_b.Shape().NumDimensions() != 2) {
@@ -157,7 +158,8 @@ bool GemmPackBBfloat16(AllocatorPtr& alloc,
                                       trans_b ? CBLAS_TRANSPOSE::CblasTrans : CBLAS_TRANSPOSE::CblasNoTrans,
                                       true,
                                       N,
-                                      K);
+                                      K,
+                                      mlas_backend_kernel_selector_config);
   if (packed_b_size == 0) {
     return false;
   }
@@ -176,7 +178,8 @@ bool GemmPackBBfloat16(AllocatorPtr& alloc,
                          K,
                          tensor_b.Data<float>(),
                          trans_b ? K : N,
-                         packed_b_data);
+                         packed_b_data,
+                         mlas_backend_kernel_selector_config);
   return true;
 }
 #endif
@@ -200,7 +203,7 @@ Status MatMul<float>::PrePack(const Tensor& tensor, int input_idx, /*out*/ Alloc
     }
 
     if (use_fastmath_mode_ && (trans_b_attr_ == 0) && ((dim1 * dim2) >= kFastMathModeKernelsizeThreshold)) {
-      is_packed = GemmPackBBfloat16(alloc, tensor, trans_a_attr_ != 0, trans_b_attr_ != 0, packed_b_, packed_b_size, b_shape_);
+      is_packed = GemmPackBBfloat16(alloc, tensor, trans_a_attr_ != 0, trans_b_attr_ != 0, packed_b_, packed_b_size, b_shape_, &mlas_backend_kernel_selector_config_);
     } else
 #endif
     {
@@ -284,7 +287,7 @@ Status MatMul<float>::Compute(OpKernelContext* ctx) const {
       data[i].BIsPacked = static_cast<bool>(packed_b_);
     }
     MlasSBGemmBatch(trans_a ? CblasTrans : CblasNoTrans, trans_b ? CblasTrans : CblasNoTrans,
-                    M, N, K, max_len, data.data(), thread_pool);
+                    M, N, K, max_len, data.data(), thread_pool, &mlas_backend_kernel_selector_config_);
   } else
 #endif
   {
diff --git a/onnxruntime/test/mlas/unittest/test_sbgemm.cpp b/onnxruntime/test/mlas/unittest/test_sbgemm.cpp
@@ -141,13 +141,13 @@ static size_t SBGemmRegistLongExecute() {
   size_t count = 0;
 
   count += MlasLongExecuteTests<MlasSBGemmTest<float, float, false, false>>::RegisterLongExecute();
-  if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128) > 0) {
+  if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128, nullptr) > 0) {
     count += MlasLongExecuteTests<MlasSBGemmTest<float, float, true, false>>::RegisterLongExecute();
   }
 
   if (GetMlasThreadPool() != nullptr) {
     count += MlasLongExecuteTests<MlasSBGemmTest<float, float, false, true>>::RegisterLongExecute();
-    if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128) > 0) {
+    if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128, nullptr) > 0) {
       count += MlasLongExecuteTests<MlasSBGemmTest<float, float, true, true>>::RegisterLongExecute();
     }
   }
@@ -160,15 +160,15 @@ static size_t SBGemmRegistShortExecute() {
 
   count += SBGemmShortExecuteTest<float, float, false, false>::RegisterShortExecuteTests();
   count += SBGemmAccumulateExecuteTest<float, float, false, false>::RegisterAccumulateTests();
-  if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128) > 0) {
+  if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128, nullptr) > 0) {
     count += SBGemmShortExecuteTest<float, float, true, false>::RegisterShortExecuteTests();
     count += SBGemmAccumulateExecuteTest<float, float, true, false>::RegisterAccumulateTests();
   }
 
   if (GetMlasThreadPool() != nullptr) {
     count += SBGemmShortExecuteTest<float, float, false, true>::RegisterShortExecuteTests();
     count += SBGemmAccumulateExecuteTest<float, float, false, true>::RegisterAccumulateTests();
-    if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128) > 0) {
+    if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128, nullptr) > 0) {
       count += SBGemmShortExecuteTest<float, float, true, true>::RegisterShortExecuteTests();
       count += SBGemmAccumulateExecuteTest<float, float, true, true>::RegisterAccumulateTests();
     }
diff --git a/onnxruntime/test/mlas/unittest/test_sbgemm.h b/onnxruntime/test/mlas/unittest/test_sbgemm.h
@@ -62,13 +62,13 @@ class MlasSBGemmTest : public MlasTestBase {
 
   void* PackB(CBLAS_TRANSPOSE TransA, CBLAS_TRANSPOSE TransB, size_t N, size_t K, const BType* B, size_t ldb) {
     const bool BIsfp32 = std::is_same<BType, float>::value;
-    size_t PackedBSize = MlasSBGemmPackBSize(TransA, TransB, BIsfp32, N, K);
+    size_t PackedBSize = MlasSBGemmPackBSize(TransA, TransB, BIsfp32, N, K, nullptr);
     if (PackedBSize == 0) {
       return nullptr;
     }
     void* PackedB = BufferBPacked.GetBuffer(PackedBSize);
     if (std::is_same<BType, float>::value) {
-      MlasSBGemmConvertPackB(TransA, TransB, true, N, K, (const float*)B, ldb, PackedB);
+      MlasSBGemmConvertPackB(TransA, TransB, true, N, K, (const float*)B, ldb, PackedB, nullptr);
     } else {
     }
     return PackedB;
@@ -118,7 +118,7 @@ class MlasSBGemmTest : public MlasTestBase {
       }
     }
 
-    MlasSBGemmBatch(TransA, TransB, M, N, K, BatchSize, GemmParameters.data(), threadpool_);
+    MlasSBGemmBatch(TransA, TransB, M, N, K, BatchSize, GemmParameters.data(), threadpool_, nullptr);
   }
 
   void ReferenceSgemm(size_t M,

Original file line number	Diff line number	Diff line change
`@@ -91,7 +91,7 @@ MlasConvPointwiseBf16KernelNeon(`
`91`	`91`	`}`
`92`	`92`	`}`
`93`	`93`
`94`		`- MlasSBGemmBatch(OutputCount, BlockSize, BlockSize, idx, gemm_params, nullptr);`
	`94`	`+ MlasSBGemmBatch(CblasNoTrans, CblasNoTrans, OutputCount, BlockSize, BlockSize, idx, gemm_params, nullptr, nullptr);`
`95`	`95`
`96`	`96`	`if (ReluActivation) {`
`97`	`97`	`const float32x4_t ZeroVector = MlasBroadcastFloat32x4(0.0f);`
Original file line number	Diff line number	Diff line change
`@@ -141,13 +141,13 @@ static size_t SBGemmRegistLongExecute() {`
`141`	`141`	`size_t count = 0;`
`142`	`142`
`143`	`143`	`count += MlasLongExecuteTests<MlasSBGemmTest<float, float, false, false>>::RegisterLongExecute();`
`144`		`- if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128) > 0) {`
	`144`	`+ if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128, nullptr) > 0) {`
`145`	`145`	`count += MlasLongExecuteTests<MlasSBGemmTest<float, float, true, false>>::RegisterLongExecute();`
`146`	`146`	`}`
`147`	`147`
`148`	`148`	`if (GetMlasThreadPool() != nullptr) {`
`149`	`149`	`count += MlasLongExecuteTests<MlasSBGemmTest<float, float, false, true>>::RegisterLongExecute();`
`150`		`- if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128) > 0) {`
	`150`	`+ if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128, nullptr) > 0) {`
`151`	`151`	`count += MlasLongExecuteTests<MlasSBGemmTest<float, float, true, true>>::RegisterLongExecute();`
`152`	`152`	`}`
`153`	`153`	`}`
`@@ -160,15 +160,15 @@ static size_t SBGemmRegistShortExecute() {`
`160`	`160`
`161`	`161`	`count += SBGemmShortExecuteTest<float, float, false, false>::RegisterShortExecuteTests();`
`162`	`162`	`count += SBGemmAccumulateExecuteTest<float, float, false, false>::RegisterAccumulateTests();`
`163`		`- if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128) > 0) {`
	`163`	`+ if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128, nullptr) > 0) {`
`164`	`164`	`count += SBGemmShortExecuteTest<float, float, true, false>::RegisterShortExecuteTests();`
`165`	`165`	`count += SBGemmAccumulateExecuteTest<float, float, true, false>::RegisterAccumulateTests();`
`166`	`166`	`}`
`167`	`167`
`168`	`168`	`if (GetMlasThreadPool() != nullptr) {`
`169`	`169`	`count += SBGemmShortExecuteTest<float, float, false, true>::RegisterShortExecuteTests();`
`170`	`170`	`count += SBGemmAccumulateExecuteTest<float, float, false, true>::RegisterAccumulateTests();`
`171`		`- if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128) > 0) {`
	`171`	`+ if (MlasSBGemmPackBSize(CblasNoTrans, CblasNoTrans, true, 128, 128, nullptr) > 0) {`
`172`	`172`	`count += SBGemmShortExecuteTest<float, float, true, true>::RegisterShortExecuteTests();`
`173`	`173`	`count += SBGemmAccumulateExecuteTest<float, float, true, true>::RegisterAccumulateTests();`
`174`	`174`	`}`
Original file line number	Diff line number	Diff line change
`@@ -62,13 +62,13 @@ class MlasSBGemmTest : public MlasTestBase {`
`62`	`62`
`63`	`63`	`void* PackB(CBLAS_TRANSPOSE TransA, CBLAS_TRANSPOSE TransB, size_t N, size_t K, const BType* B, size_t ldb) {`
`64`	`64`	`const bool BIsfp32 = std::is_same<BType, float>::value;`
`65`		`- size_t PackedBSize = MlasSBGemmPackBSize(TransA, TransB, BIsfp32, N, K);`
	`65`	`+ size_t PackedBSize = MlasSBGemmPackBSize(TransA, TransB, BIsfp32, N, K, nullptr);`
`66`	`66`	`if (PackedBSize == 0) {`
`67`	`67`	`return nullptr;`
`68`	`68`	`}`
`69`	`69`	`void* PackedB = BufferBPacked.GetBuffer(PackedBSize);`
`70`	`70`	`if (std::is_same<BType, float>::value) {`
`71`		`- MlasSBGemmConvertPackB(TransA, TransB, true, N, K, (const float*)B, ldb, PackedB);`
	`71`	`+ MlasSBGemmConvertPackB(TransA, TransB, true, N, K, (const float*)B, ldb, PackedB, nullptr);`
`72`	`72`	`} else {`
`73`	`73`	`}`
`74`	`74`	`return PackedB;`
`@@ -118,7 +118,7 @@ class MlasSBGemmTest : public MlasTestBase {`
`118`	`118`	`}`
`119`	`119`	`}`
`120`	`120`
`121`		`- MlasSBGemmBatch(TransA, TransB, M, N, K, BatchSize, GemmParameters.data(), threadpool_);`
	`121`	`+ MlasSBGemmBatch(TransA, TransB, M, N, K, BatchSize, GemmParameters.data(), threadpool_, nullptr);`
`122`	`122`	`}`
`123`	`123`
`124`	`124`	`void ReferenceSgemm(size_t M,`