feat: only use GEMM stateless exec for fixed-format

Sqvid · Sqvid · commit 96d6de434566 · 2025-05-16T13:27:45.000Z
Make GemmCommon::execute_stateless() a no-op in release-mode and an assert(0) in debug-mode for non-fixed-format kernels. This reflects the reality that stateless, thread-safe execution is only valid for fixed-format kernels. Change-Id: I1ba1956e6a27a05fc1bb0c95b62996ca1c4833a6 Signed-off-by: Siddhartha Menon <siddhartha.menon@arm.com> Reviewed-on: https://review.mlplatform.org/c/ml/ComputeLibrary/+/14375 Tested-by: Arm Jenkins <bsgcomp@arm.com> Benchmark: Arm Jenkins <bsgcomp@arm.com> Reviewed-by: Gunes Bayir <gunes.bayir@arm.com> Comments-Addressed: Arm Jenkins <bsgcomp@arm.com>
diff --git a/src/core/NEON/kernels/arm_gemm/gemm_hybrid.hpp b/src/core/NEON/kernels/arm_gemm/gemm_hybrid.hpp
@@ -144,8 +144,8 @@ class GemmHybrid : public GemmCommon<To, To, Tr> {
         return true;
     }
 
-    // Common execution logic.
-    void execute_common(const ndcoord_t &work_range, const ndcoord_t &, int, GemmArrays<To, To, Tr>& g_arrays) {
+    // Execute
+    void execute(const ndcoord_t &work_range, const ndcoord_t &, int) override {
 #ifdef CYCLE_PROFILING
         profiler prof;
 #endif
@@ -156,6 +156,8 @@ class GemmHybrid : public GemmCommon<To, To, Tr> {
         static_assert(std::is_same<To, Toi>::value, "gemm_native: Operand types must be the same.");
         static_assert(std::is_same<Tr, Tri>::value, "gemm_native: Result types must be the same.");
 
+        auto &g_arrays = this->_gemm_arrays;
+
         /* For now, each work item implies all the K for a given output
          * pixel (so we don't need to synchronize access to the output
          * array).  So separate the loop over K blocks here.  */
@@ -208,16 +210,6 @@ class GemmHybrid : public GemmCommon<To, To, Tr> {
 
     }
 
-    // Stateless execute
-    void execute_stateless(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid, GemmArrays<To, To, Tr> &g_arrays) override {
-        return execute_common(work_range, thread_locator, threadid, g_arrays);
-    }
-
-    // Execute
-    void execute(const ndcoord_t &work_range, const ndcoord_t & thread_locator, int threadid) override {
-        execute_common(work_range, thread_locator, threadid, this->_gemm_arrays);
-    }
-
     // Interface implementation - pretransposed
     bool B_is_pretransposed() const override {
         return true;
diff --git a/src/core/NEON/kernels/arm_gemm/gemm_hybrid_indirect.hpp b/src/core/NEON/kernels/arm_gemm/gemm_hybrid_indirect.hpp
@@ -586,6 +586,8 @@ class GemmHybridIndirect : public GemmCommon<To, Tw, Tr> {
 
     // Stateless execute
     void execute_stateless(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid, GemmArrays<To, Tw, Tr>& g_arrays) override {
+        assert(FixedFormat);
+
         return execute_common(work_range, thread_locator, threadid, g_arrays);
     }
 
diff --git a/src/core/NEON/kernels/arm_gemm/gemm_hybrid_quantized.hpp b/src/core/NEON/kernels/arm_gemm/gemm_hybrid_quantized.hpp
@@ -166,13 +166,15 @@ class GemmHybridQuantized : public GemmCommon<To, To, Tr> {
         return true;
     }
 
-    // Common execution logic.
-    void execute_common(const ndcoord_t &work_range, const ndcoord_t &, int threadid, GemmArrays<To, To, Tr> &g_arrays) {
+    // Execute
+    void execute(const ndcoord_t &work_range, const ndcoord_t &, int threadid) override {
 #ifdef CYCLE_PROFILING
         profiler prof;
 #endif
         strategy strat(_ci);
 
+        auto &g_arrays = this->_gemm_arrays;
+
         void *working_space = g_arrays._workspace;
         auto working_int = reinterpret_cast<uintptr_t>(working_space);
 
@@ -243,16 +245,6 @@ class GemmHybridQuantized : public GemmCommon<To, To, Tr> {
         }
     }
 
-    // Stateless execute
-    void execute_stateless(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid, GemmArrays<To, To, Tr> &g_arrays) override {
-        return execute_common(work_range, thread_locator, threadid, g_arrays);
-    }
-
-    // Execute
-    void execute(const ndcoord_t &work_range, const ndcoord_t & thread_locator, int threadid) override {
-        execute_common(work_range, thread_locator, threadid, this->_gemm_arrays);
-    }
-
     // Working space needed for intermediate result buffers.
     size_t get_working_size() const override {
         return (_nthreads * strategy::out_height() * _Nsize * sizeof(Tri));
diff --git a/src/core/NEON/kernels/arm_gemm/gemm_interleaved.hpp b/src/core/NEON/kernels/arm_gemm/gemm_interleaved.hpp
@@ -474,9 +474,9 @@ class GemmInterleaved : public GemmCommon<Tlo, Tro, Tr> {
     unsigned int get_col_sum_size() const {
         if (std::is_same<OutputStage, Requantize32>::value) {
             return _Nsize * _nmulti * sizeof(int32_t);
-        } else {
-            return 0;
         }
+
+        return 0;
     }
 
     /* We will need to walk through the blocks of B in a few contexts, so
@@ -576,9 +576,9 @@ class GemmInterleaved : public GemmCommon<Tlo, Tro, Tr> {
     size_t get_c_working_size() const {
         if (MergeStep) {
             return ROUND_UP(sizeof(Tri) * _x_block * strategy::out_height());
-        } else {
-            return 0;
         }
+
+        return 0;
     }
 
     // Accumulation buffer size
@@ -1129,6 +1129,8 @@ class GemmInterleaved : public GemmCommon<Tlo, Tro, Tr> {
 
     // Stateless execute
     void execute_stateless(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid, GemmArrays<Tlo, Tro, Tr> &g_arrays) override {
+        assert(FixedFormat);
+
         return execute_common(work_range, thread_locator, threadid, g_arrays);
     }
 
diff --git a/src/core/NEON/kernels/arm_gemm/gemv_batched.hpp b/src/core/NEON/kernels/arm_gemm/gemv_batched.hpp
@@ -64,12 +64,8 @@ class GemvBatched : public GemmCommon<To, To, Tr> {
         _subgemm->set_nthreads(nthreads);
     }
 
-    void execute_stateless(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid, GemmArrays<To, To, Tr> &) override {
-        _subgemm->execute(work_range, thread_locator, threadid);
-    }
-
     void execute(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid) override {
-        execute_stateless(work_range, thread_locator, threadid, this->_gemm_arrays);
+        _subgemm->execute(work_range, thread_locator, threadid);
     }
 
     size_t get_working_size() const override {
diff --git a/src/core/NEON/kernels/arm_gemm/gemv_pretransposed.hpp b/src/core/NEON/kernels/arm_gemm/gemv_pretransposed.hpp
@@ -136,13 +136,15 @@ class GemvPretransposed : public GemmCommon<To, To, Tr> {
         return { iceildiv(_args._Nsize, strategy::out_width()) * _args._nmulti };
     }
 
-    // Common execution logic.
-    void execute_common(const ndcoord_t &work_range, const ndcoord_t &, int, GemmArrays<To, To, Tr>& g_arrays) {
+    // Actually execute the GEMV.
+    void execute(const ndcoord_t &work_range, const ndcoord_t &, int) override {
 #ifdef CYCLE_PROFILING
         profiler prof;
 #endif
         strategy strat(_args._ci);
 
+        auto& g_arrays = this->_gemm_arrays;
+
         const auto start = work_range.get_position(0);
         const auto end   = work_range.get_position_end(0);
 
@@ -184,16 +186,6 @@ class GemvPretransposed : public GemmCommon<To, To, Tr> {
         }
     }
 
-    // Stateless execute
-    void execute_stateless(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid, GemmArrays<To, To, Tr> &g_arrays) override {
-        return execute_common(work_range, thread_locator, threadid, g_arrays);
-    }
-
-    // Actually execute the GEMV.
-    void execute(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid) override {
-        execute_common(work_range, thread_locator, threadid, this->_gemm_arrays);
-    }
-
     /* Pretransposed interface implementation */
     bool B_is_pretransposed() const override {
         return true;
diff --git a/src/cpu/kernels/assembly/gemm_arrays.hpp b/src/cpu/kernels/assembly/gemm_arrays.hpp
@@ -108,8 +108,8 @@ struct GemmArrays : public IGemmArrays
 
     GemmArrays(const GemmArrays<To, Tw, Tr> &)            = default;
     GemmArrays &operator=(const GemmArrays<To, Tw, Tr> &) = default;
-    GemmArrays(GemmArrays<To, Tw, Tr> &&)                 = delete;
-    GemmArrays &operator=(GemmArrays<To, Tw, Tr> &&)      = delete;
+    GemmArrays(GemmArrays<To, Tw, Tr> &&)                 = default;
+    GemmArrays &operator=(GemmArrays<To, Tw, Tr> &&)      = default;
     ~GemmArrays() override                                = default;
 
     /* Pass in the pointers to the arrays to be operated on and their
diff --git a/src/cpu/kernels/assembly/gemm_common.hpp b/src/cpu/kernels/assembly/gemm_common.hpp
@@ -30,6 +30,7 @@
 #include "convolution_parameters.hpp"
 #include "gemm_arrays.hpp"
 #include "ndrange.hpp"
+
 #include <cstddef>
 
 namespace arm_gemm
@@ -307,10 +308,14 @@ class GemmCommon : public IGemmCommon
      * @param [in] threadid       a unique threadid
      * @param [out] GemmArrays    structure containing the input/output addresses, and stride info
      */
-    virtual void execute_stateless(const ndcoord_t        &work_range,
-                                   const ndcoord_t        &thread_locator,
-                                   int                     threadid,
-                                   GemmArrays<To, Tw, Tr> &gemm_array) = 0;
+    virtual void execute_stateless(const ndcoord_t &,
+                                   const ndcoord_t &,
+                                   int,
+                                   GemmArrays<To, Tw, Tr> &)
+    {
+        // This must be overridden in the derived class to be used
+        assert(0);
+    }
 };
 } // namespace arm_gemm
 
diff --git a/src/cpu/operators/internal/CpuGemmAssemblyDispatch.cpp b/src/cpu/operators/internal/CpuGemmAssemblyDispatch.cpp
@@ -789,40 +789,51 @@ void Fallback<TypeInput, TypeWeight, TypeOutput, OutputStage>::run(ITensorPack &
         multi_stride_a = 0;
     }
 
-    Tensor in0_tensor;
-    in0_tensor.allocator()->init(*(a->info()));
-    in0_tensor.allocator()->import_memory(const_cast<TypeInput *>(in0_ptr));
+    // Set gemm parameters
+    _gemm_kernel_asm->set_arrays(in0_ptr, lda, batch_stride_a, multi_stride_a, in1_ptr, ldb, multi_stride_b, out_ptr,
+                                 ldd, batch_stride_d, multi_stride_d, bias, 0);
 
-    Tensor in1_tensor;
-    if (b)
+    // Need to pack the input/output pointers separately to use the thread-safe,
+    // stateless-execution interface for fixed-format kernels.
+    if (_gemm_info.fixed_format)
     {
-        in1_tensor.allocator()->init(*(b->info()));
-        in1_tensor.allocator()->import_memory(const_cast<TypeWeight *>(in1_ptr));
-    }
+        Tensor in0_tensor;
+        in0_tensor.allocator()->init(*(a->info()));
+        in0_tensor.allocator()->import_memory(const_cast<TypeInput *>(in0_ptr));
 
-    Tensor bias_tensor;
-    if (c)
-    {
-        bias_tensor.allocator()->init(*(c->info()));
-        bias_tensor.allocator()->import_memory(bias);
-    }
+        Tensor in1_tensor;
+        if (b)
+        {
+            in1_tensor.allocator()->init(*(b->info()));
+            in1_tensor.allocator()->import_memory(const_cast<TypeWeight *>(in1_ptr));
+        }
 
-    Tensor out_tensor;
-    out_tensor.allocator()->init(*(d->info()));
-    out_tensor.allocator()->import_memory(out_ptr);
+        Tensor bias_tensor;
+        if (c)
+        {
+            bias_tensor.allocator()->init(*(c->info()));
+            bias_tensor.allocator()->import_memory(bias);
+        }
 
-    ITensorPack gemm_pack{{ACL_SRC_0, &in0_tensor},
-                          {ACL_SRC_1, &in1_tensor},
-                          {ACL_SRC_2, &bias_tensor},
-                          {ACL_SRC_3, workspace.get()},
-                          {ACL_DST, &out_tensor}};
+        Tensor out_tensor;
+        out_tensor.allocator()->init(*(d->info()));
+        out_tensor.allocator()->import_memory(out_ptr);
 
-    // Set gemm parameters
-    _gemm_kernel_asm->set_arrays(in0_ptr, lda, batch_stride_a, multi_stride_a, in1_ptr, ldb, multi_stride_b, out_ptr,
-                                 ldd, batch_stride_d, multi_stride_d, bias, 0);
+        ITensorPack gemm_pack{{ACL_SRC_0, &in0_tensor},
+                              {ACL_SRC_1, &in1_tensor},
+                              {ACL_SRC_2, &bias_tensor},
+                              {ACL_SRC_3, workspace.get()},
+                              {ACL_DST, &out_tensor}};
+
+        // Schedule thread-safe stateless execution
+        NEScheduler::get().schedule_op(_optimised_kernel.get(), scheduling_hint, _optimised_kernel->window(),
+                                       gemm_pack);
+
+        return;
+    }
 
     // Schedule
-    NEScheduler::get().schedule_op(_optimised_kernel.get(), scheduling_hint, _optimised_kernel->window(), gemm_pack);
+    NEScheduler::get().schedule(_optimised_kernel.get(), scheduling_hint);
 }
 
 template <typename TypeInput, typename TypeWeight, typename TypeOutput>

Original file line number	Diff line number	Diff line change
`@@ -586,6 +586,8 @@ class GemmHybridIndirect : public GemmCommon<To, Tw, Tr> {`
`586`	`586`
`587`	`587`	`// Stateless execute`
`588`	`588`	`void execute_stateless(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid, GemmArrays<To, Tw, Tr>& g_arrays) override {`
	`589`	`+ assert(FixedFormat);`
	`590`	`+`
`589`	`591`	`return execute_common(work_range, thread_locator, threadid, g_arrays);`
`590`	`592`	`}`
`591`	`593`
Original file line number	Diff line number	Diff line change
`@@ -474,9 +474,9 @@ class GemmInterleaved : public GemmCommon<Tlo, Tro, Tr> {`
`474`	`474`	`unsigned int get_col_sum_size() const {`
`475`	`475`	`if (std::is_same<OutputStage, Requantize32>::value) {`
`476`	`476`	`return _Nsize * _nmulti * sizeof(int32_t);`
`477`		`- } else {`
`478`		`- return 0;`
`479`	`477`	`}`
	`478`	`+`
	`479`	`+ return 0;`
`480`	`480`	`}`
`481`	`481`
`482`	`482`	`/* We will need to walk through the blocks of B in a few contexts, so`
`@@ -576,9 +576,9 @@ class GemmInterleaved : public GemmCommon<Tlo, Tro, Tr> {`
`576`	`576`	`size_t get_c_working_size() const {`
`577`	`577`	`if (MergeStep) {`
`578`	`578`	`return ROUND_UP(sizeof(Tri) * _x_block * strategy::out_height());`
`579`		`- } else {`
`580`		`- return 0;`
`581`	`579`	`}`
	`580`	`+`
	`581`	`+ return 0;`
`582`	`582`	`}`
`583`	`583`
`584`	`584`	`// Accumulation buffer size`
`@@ -1129,6 +1129,8 @@ class GemmInterleaved : public GemmCommon<Tlo, Tro, Tr> {`
`1129`	`1129`
`1130`	`1130`	`// Stateless execute`
`1131`	`1131`	`void execute_stateless(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid, GemmArrays<Tlo, Tro, Tr> &g_arrays) override {`
	`1132`	`+ assert(FixedFormat);`
	`1133`	`+`
`1132`	`1134`	`return execute_common(work_range, thread_locator, threadid, g_arrays);`
`1133`	`1135`	`}`
`1134`	`1136`
Original file line number	Diff line number	Diff line change
`@@ -64,12 +64,8 @@ class GemvBatched : public GemmCommon<To, To, Tr> {`
`64`	`64`	`_subgemm->set_nthreads(nthreads);`
`65`	`65`	`}`
`66`	`66`
`67`		`- void execute_stateless(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid, GemmArrays<To, To, Tr> &) override {`
`68`		`- _subgemm->execute(work_range, thread_locator, threadid);`
`69`		`- }`
`70`		`-`
`71`	`67`	`void execute(const ndcoord_t &work_range, const ndcoord_t &thread_locator, int threadid) override {`
`72`		`- execute_stateless(work_range, thread_locator, threadid, this->_gemm_arrays);`
	`68`	`+ _subgemm->execute(work_range, thread_locator, threadid);`
`73`	`69`	`}`
`74`	`70`
`75`	`71`	`size_t get_working_size() const override {`