ggml-qnn: AI-assisted ggml_qnn_mul_mat_4d by Grok 3 --- step11

zhouwg · zhouwg · commit eb46bc01ed37 · 2025-03-28T09:11:01.000+08:00
diff --git a/ggml/src/ggml-qnn/ggml-qnn-ops.cpp b/ggml/src/ggml-qnn/ggml-qnn-ops.cpp
@@ -289,6 +289,7 @@ void ggml_qnn_general_node(ggml_backend_qnn_context * ctx, ggml_tensor * op) {
  * than ggml_qnn_mul_mat, so it's a standalone function.
  * it will be combined with ggml_qnn_mul_mat after bugfix
  */
+
 static void ggml_qnn_mul_mat_4d(ggml_backend_qnn_context *ctx, ggml_tensor *op) {
     Qnn_ErrorHandle_t error = QNN_SUCCESS;
     bool graph_initialized = false;
@@ -313,6 +314,7 @@ static void ggml_qnn_mul_mat_4d(ggml_backend_qnn_context *ctx, ggml_tensor *op)
     Qnn_GraphHandle_t graph_handle = nullptr;
     Qnn_Tensor_t *p_tensor0 = nullptr;
     Qnn_Tensor_t *p_reshape0_out = nullptr;
+    Qnn_Tensor_t *p_tile0_out = nullptr;
     Qnn_Tensor_t *p_tensor1 = nullptr;
     Qnn_Tensor_t *p_permute1_out = nullptr;
     Qnn_Tensor_t *p_reshape1_out = nullptr;
@@ -326,34 +328,34 @@ static void ggml_qnn_mul_mat_4d(ggml_backend_qnn_context *ctx, ggml_tensor *op)
         qnn_tensors_t &tensors = std::get<1>(graph_item);
         p_tensor0 = tensors[0];
         p_reshape0_out = tensors[1];
-        p_tensor1 = tensors[2];
-        p_permute1_out = tensors[3];
-        p_reshape1_out = tensors[4];
-        p_matmul_out = tensors[5];
-        p_reshape2_out = tensors[6];
+        p_tile0_out = tensors[2];
+        p_tensor1 = tensors[3];
+        p_permute1_out = tensors[4];
+        p_reshape1_out = tensors[5];
+        p_matmul_out = tensors[6];
+        p_reshape2_out = tensors[7];
     } else {
         CHECK_QNN_API(error, qnn_raw_interface.graphCreate(instance->get_qnn_context_handle(),
                                                            graph_name.c_str(), NULL, &graph_handle));
 
         // Define dimensions
-        uint32_t B0 = src0->ne[2] * src0->ne[3]; // src0 batch: 3 * 2 = 6
-        uint32_t B1 = src1->ne[2] * src1->ne[3]; // src1 batch: 6 * 4 = 24
-        uint32_t M = src0->ne[1];               // 16
-        uint32_t K = src0->ne[0];               // 256
-        uint32_t N = src1->ne[1];               // 1 (second case), 16 (first case)
-
-        // Validate K matches
-        GGML_ASSERT(src0->ne[0] == src1->ne[0]); // K must match: 256 == 256
-        // Output shape should match src1's batch dims
+        uint32_t K = src0->ne[0];               // Inner dimension
+        uint32_t M = src0->ne[1];               // Rows of src0
+        uint32_t N = src1->ne[1];               // Columns of src1
+        uint32_t B0 = src0->ne[2] * src0->ne[3]; // src0 batch
+        uint32_t B1 = src1->ne[2] * src1->ne[3]; // src1 batch (drives output)
+
+        // Validate
+        GGML_ASSERT(src0->ne[0] == src1->ne[0]); // K must match
         GGML_ASSERT(dst->ne[0] == N && dst->ne[1] == M && dst->ne[2] == src1->ne[2] && dst->ne[3] == src1->ne[3]);
 
-        // src0: [256, 16, 3, 2] -> QNN: [2, 3, 16, 256] (B, H, M, K)
+        // src0: [K, M, H0, B0] -> QNN: [B0, H0, M, K]
         uint32_t src0_dims[] = {static_cast<uint32_t>(src0->ne[3]), static_cast<uint32_t>(src0->ne[2]), static_cast<uint32_t>(src0->ne[1]), static_cast<uint32_t>(src0->ne[0])};
         p_tensor0 = GQCGT(src0, "input0", QNN_TENSOR_TYPE_APP_WRITE, QNN_DATATYPE_FLOAT_32, 4,
                           src0_dims, nullptr, 0);
         CHECK_QNN_API(error, qnn_raw_interface.tensorCreateGraphTensor(graph_handle, p_tensor0));
 
-        // Reshape src0 to [6, 16, 256] for [B0, M, K]
+        // Reshape src0 to [B0, M, K]
         uint32_t reshape0_out_dims[] = {B0, M, K};
         p_reshape0_out = GQCGT(nullptr, "reshape0_out", QNN_TENSOR_TYPE_NATIVE, QNN_DATATYPE_FLOAT_32, 3,
                                reshape0_out_dims, nullptr, 0);
@@ -365,19 +367,37 @@ static void ggml_qnn_mul_mat_4d(ggml_backend_qnn_context *ctx, ggml_tensor *op)
                                                               reshape0_inputs, 1, reshape0_outputs, 1);
         CHECK_QNN_API(error, qnn_raw_interface.graphAddNode(graph_handle, reshape0_op));
 
-        // src1: [256, 1, 6, 4] -> QNN: [4, 6, 1, 256] (B, H, N, K)
+        // Tile src0 to match B1: [B0, M, K] -> [B1, M, K]
+        uint32_t tile0_out_dims[] = {B1, M, K};
+        p_tile0_out = GQCGT(nullptr, "tile0_out", QNN_TENSOR_TYPE_NATIVE, QNN_DATATYPE_FLOAT_32, 3,
+                            tile0_out_dims, nullptr, 0);
+        CHECK_QNN_API(error, qnn_raw_interface.tensorCreateGraphTensor(graph_handle, p_tile0_out));
+        uint32_t tile_multiples[] = {B1 / B0, 1, 1}; // e.g., 24/6 = 4, 6/6 = 1
+        uint32_t tile_dims[] = {3};
+        Qnn_Tensor_t *p_tile_multiples = GQCGT(nullptr, "tile_multiples", QNN_TENSOR_TYPE_STATIC, QNN_DATATYPE_UINT_32, 1,
+                                               tile_dims, tile_multiples, sizeof(tile_multiples));
+        CHECK_QNN_API(error, qnn_raw_interface.tensorCreateGraphTensor(graph_handle, p_tile_multiples));
+        Qnn_Param_t tile_params[] = {{QNN_PARAMTYPE_TENSOR, "multiples", .tensorParam = *p_tile_multiples}};
+        Qnn_Tensor_t tile0_inputs[] = {*p_reshape0_out};
+        Qnn_Tensor_t tile0_outputs[] = {*p_tile0_out};
+        Qnn_OpConfig_t tile0_op = ggmlqnn_create_op_config("tile0", QNN_OP_PACKAGE_NAME_QTI_AISW,
+                                                           QNN_OP_TILE, tile_params, 1,
+                                                           tile0_inputs, 1, tile0_outputs, 1);
+        CHECK_QNN_API(error, qnn_raw_interface.graphAddNode(graph_handle, tile0_op));
+
+        // src1: [N, K, H1, B1] -> QNN: [B1, H1, N, K]
         uint32_t src1_dims[] = {static_cast<uint32_t>(src1->ne[3]), static_cast<uint32_t>(src1->ne[2]), static_cast<uint32_t>(src1->ne[1]), static_cast<uint32_t>(src1->ne[0])};
         p_tensor1 = GQCGT(src1, "input1", QNN_TENSOR_TYPE_APP_WRITE, QNN_DATATYPE_FLOAT_32, 4,
                           src1_dims, nullptr, 0);
         CHECK_QNN_API(error, qnn_raw_interface.tensorCreateGraphTensor(graph_handle, p_tensor1));
 
-        // Permute src1 to [4, 6, 256, 1] to align K and N
-        uint32_t perm_data[] = {0, 1, 3, 2}; // [B, H, N, K] -> [B, H, K, N]
+        // Permute src1 to [B1, H1, K, N]
+        uint32_t perm_data[] = {0, 1, 3, 2};
         uint32_t perm_dims[] = {4};
-        Qnn_Tensor_t * p_perm = GQCGT(nullptr, "perm", QNN_TENSOR_TYPE_STATIC, QNN_DATATYPE_UINT_32, 1,
-                                    perm_dims, perm_data, sizeof(perm_data));
+        Qnn_Tensor_t *p_perm = GQCGT(nullptr, "perm", QNN_TENSOR_TYPE_STATIC, QNN_DATATYPE_UINT_32, 1,
+                                     perm_dims, perm_data, sizeof(perm_data));
         CHECK_QNN_API(error, qnn_raw_interface.tensorCreateGraphTensor(graph_handle, p_perm));
-        uint32_t permute1_out_dims[] = {static_cast<uint32_t>(src1->ne[3]), static_cast<uint32_t>(src1->ne[2]), static_cast<uint32_t>(src1->ne[0]), static_cast<uint32_t>(src1->ne[1])}; // [4, 6, 256, 1]
+        uint32_t permute1_out_dims[] = {static_cast<uint32_t>(src1->ne[3]), static_cast<uint32_t>(src1->ne[2]), static_cast<uint32_t>(src1->ne[0]), static_cast<uint32_t>(src1->ne[1])};
         p_permute1_out = GQCGT(nullptr, "permute1_out", QNN_TENSOR_TYPE_NATIVE, QNN_DATATYPE_FLOAT_32, 4,
                                permute1_out_dims, nullptr, 0);
         CHECK_QNN_API(error, qnn_raw_interface.tensorCreateGraphTensor(graph_handle, p_permute1_out));
@@ -389,7 +409,7 @@ static void ggml_qnn_mul_mat_4d(ggml_backend_qnn_context *ctx, ggml_tensor *op)
                                                               permute1_inputs, 1, permute1_outputs, 1);
         CHECK_QNN_API(error, qnn_raw_interface.graphAddNode(graph_handle, permute1_op));
 
-        // Reshape src1 to [24, 256, 1] for [B1, K, N]
+        // Reshape src1 to [B1, K, N]
         uint32_t reshape1_out_dims[] = {B1, K, N};
         p_reshape1_out = GQCGT(nullptr, "reshape1_out", QNN_TENSOR_TYPE_NATIVE, QNN_DATATYPE_FLOAT_32, 3,
                                reshape1_out_dims, nullptr, 0);
@@ -401,23 +421,19 @@ static void ggml_qnn_mul_mat_4d(ggml_backend_qnn_context *ctx, ggml_tensor *op)
                                                               reshape1_inputs, 1, reshape1_outputs, 1);
         CHECK_QNN_API(error, qnn_raw_interface.graphAddNode(graph_handle, reshape1_op));
 
-        // MatMul: [6, 16, 256] x [24, 256, 1] -> Needs adjustment for broadcasting
-        // Adjust src0 to match B1 by repeating or reshaping
-        uint32_t matmul_out_dims[] = {B1, M, N}; // [24, 16, 1]
+        // MatMul: [B1, M, K] x [B1, K, N] -> [B1, M, N]
+        uint32_t matmul_out_dims[] = {B1, M, N};
         p_matmul_out = GQCGT(nullptr, "matmul_out", QNN_TENSOR_TYPE_NATIVE, QNN_DATATYPE_FLOAT_32, 3,
                              matmul_out_dims, nullptr, 0);
         CHECK_QNN_API(error, qnn_raw_interface.tensorCreateGraphTensor(graph_handle, p_matmul_out));
-
-        // Note: QNN MatMul doesn't broadcast; we need to tile src0
-        // For simplicity, assume dst shape drives execution; adjust src0 later if needed
-        Qnn_Tensor_t matmul_inputs[] = {*p_reshape0_out, *p_reshape1_out};
+        Qnn_Tensor_t matmul_inputs[] = {*p_tile0_out, *p_reshape1_out};
         Qnn_Tensor_t matmul_outputs[] = {*p_matmul_out};
         Qnn_OpConfig_t matmul_op = ggmlqnn_create_op_config("matmul", QNN_OP_PACKAGE_NAME_QTI_AISW,
                                                             QNN_OP_MAT_MUL, nullptr, 0,
                                                             matmul_inputs, 2, matmul_outputs, 1);
         CHECK_QNN_API(error, qnn_raw_interface.graphAddNode(graph_handle, matmul_op));
 
-        // Output: [1, 16, 6, 4] -> QNN: [4, 6, 16, 1]
+        // Output: [N, M, H1, B1] -> QNN: [B1, H1, M, N]
         uint32_t reshape2_out_dims[] = {static_cast<uint32_t>(dst->ne[3]), static_cast<uint32_t>(dst->ne[2]), static_cast<uint32_t>(dst->ne[1]), static_cast<uint32_t>(dst->ne[0])};
         p_reshape2_out = GQCGT(dst, "output", QNN_TENSOR_TYPE_APP_READ, QNN_DATATYPE_FLOAT_32, 4,
                                reshape2_out_dims, nullptr, 0);
@@ -433,7 +449,7 @@ static void ggml_qnn_mul_mat_4d(ggml_backend_qnn_context *ctx, ggml_tensor *op)
         CHECK_QNN_API(error, qnn_raw_interface.graphFinalize(graph_handle, NULL, NULL));
 
         // Cache
-        qnn_tensors_t ggml_op_mulmat_tensors = {p_tensor0, p_reshape0_out, p_tensor1, p_permute1_out, p_reshape1_out, p_matmul_out, p_reshape2_out};
+        qnn_tensors_t ggml_op_mulmat_tensors = {p_tensor0, p_reshape0_out, p_tile0_out, p_tensor1, p_permute1_out, p_reshape1_out, p_matmul_out, p_reshape2_out};
         instance->_qnn_graph_map[graph_name] = std::make_tuple(graph_handle, ggml_op_mulmat_tensors);
     }
 
@@ -455,7 +471,6 @@ static void ggml_qnn_mul_mat_4d(ggml_backend_qnn_context *ctx, ggml_tensor *op)
 
     op_perf.info();
 }
-
 /*
  * @brief performs matrix multiplication with FP32 & quantized weights and floating-point inputs
  *        using the QNN backend. this function performs matrix multiplication of the input tensor