google-ai-edge
diff --git a/‎litert/vendors/qualcomm/core/transformation/BUILD‎
Lines changed: 1 addition & 0 deletions b/‎litert/vendors/qualcomm/core/transformation/BUILD‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎litert/vendors/qualcomm/core/transformation/graph_to_graph.cc‎
Lines changed: 25 additions & 0 deletions b/‎litert/vendors/qualcomm/core/transformation/graph_to_graph.cc‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎litert/vendors/qualcomm/core/transformation/graph_to_graph_test.cc‎
Lines changed: 296 additions & 0 deletions b/‎litert/vendors/qualcomm/core/transformation/graph_to_graph_test.cc‎
Lines changed: 296 additions & 0 deletions
@@ -87,6 +87,7 @@ cc_library(
         "//litert/vendors/qualcomm/core/builders:concatenation_op_builder",
         "//litert/vendors/qualcomm/core/builders:reshape_op_builder",
         "//litert/vendors/qualcomm/core/builders:split_op_builder",
+        "//litert/vendors/qualcomm/core/builders:unpack_op_builder",
         "//litert/vendors/qualcomm/core/utils:log",
         "//litert/vendors/qualcomm/core/wrappers:op_wrapper",
         "//litert/vendors/qualcomm/core/wrappers:tensor_wrapper",
 
@@ -156,6 +156,8 @@ void GraphToGraphTransform(const G2GConfig g2g_option,
     Transform(validate_op_config, ops, tensor_pool, gemma3_mha_prefill,
               OptimizeMHAPrefill);
   }
+
+  // Mask Gemma Optimization
   const std::vector<QnnOpCode> gemma3_mask = {
       QnnOpCode::kElementWiseNot,
       QnnOpCode::kCast,
@@ -165,6 +167,7 @@ void GraphToGraphTransform(const G2GConfig g2g_option,
   Transform(validate_op_config, ops, tensor_pool, gemma3_mask,
             TransformQuantizeInMask);
 
+  // Embedding Gemma Optimization
   const std::vector<QnnOpCode> embedding_gemma = {
       QnnOpCode::kElementWiseMultiply,
       QnnOpCode::kTranspose,
@@ -179,5 +182,27 @@ void GraphToGraphTransform(const G2GConfig g2g_option,
   };
   Transform(validate_op_config, ops, tensor_pool, embedding_gemma,
             TransformEmbeddingGemma);
+
+  // Fast Vlm Optimization
+  const std::vector<QnnOpCode> fast_vlm_mha_prefill = {
+      QnnOpCode::kElementWiseMultiply,
+      QnnOpCode::kReshape,
+      QnnOpCode::kMatMul,
+      QnnOpCode::kMatMul,
+      QnnOpCode::kConcat,
+      QnnOpCode::kReshape,
+      QnnOpCode::kElementWiseAdd,
+      QnnOpCode::kReshape,
+      QnnOpCode::kSoftmax,
+      QnnOpCode::kStridedSlice,
+      QnnOpCode::kStridedSlice,
+      QnnOpCode::kMatMul,
+      QnnOpCode::kMatMul,
+      QnnOpCode::kElementWiseAdd,
+      QnnOpCode::kReshape,
+      QnnOpCode::kTranspose,
+      QnnOpCode::kReshape};
+  Transform(validate_op_config, ops, tensor_pool, fast_vlm_mha_prefill,
+            OptimizeMHAFastVlmPrefill);
 }
 }  // namespace qnn
@@ -785,5 +785,301 @@ TEST(MaskTransformTest, Gemma3) {
   ASSERT_EQ(quant_param_2.GetZeroPoint(), mul_zero_point);
 }
 
+TEST(MHASHATest, FastVlm) {
+  // G2G Test case: MHA -> SHA
+
+  // ------------------- Before ---------------------
+  //                       In0
+  //                        |
+  //                       Mul
+  //                        |
+  //                     Reshape0  In1   In2
+  //                      /   \     \    /
+  //             QIn     /     \     Add0
+  //               \    /       \     /
+  //                Matmul0     Matmul1
+  //                    \       /
+  //                     Concat
+  //                        |
+  //                     Reshape1
+  //                        |
+  //                   Mask |
+  //                      \ |
+  //                       Add1
+  //                        |
+  //                     Reshape2
+  //                        |
+  //                     Softmax
+  //                    /       \
+  //                  Slice0  Slice1 In3
+  //                    |       |     |
+  //              VIn   |       |  Transpose0
+  //                \   |       |    /
+  //                 Matmul2  Matmul3
+  //                     \     /
+  //                       Add2
+  //                        |
+  //                     Reshape3
+  //                        |
+  //                     Transpose1
+  //                        |
+  //                     Reshape4
+  //                        |
+  //                       Out
+  //
+  // -------------------- After ---------------------
+  //                       In0
+  //                        |
+  //                       Mul    In1  In2
+  //                      /   \     \  /
+  //              QIn    /     \    Add0
+  //                \   /       \   /
+  //                Matmul0   Matmul1
+  //                    \       /
+  //                     Concat
+  //                        |
+  //                   Mask |
+  //                      \ |
+  //                       Add1
+  //                        |
+  //                     Reshape
+  //                        |
+  //                     Softmax
+  //                    /       \
+  //                  Slice0  Slice1
+  //                    |       |
+  //              VIn   |       |    In3
+  //                \   |       |    /
+  //                 Matmul2  Matmul3
+  //                     \     /
+  //                       Add2
+  //                        |
+  //                       Out
+  TensorPool tensor_pool;
+  QuantizeParamsWrapperVariant quant_param;
+  quant_param.emplace<ScaleOffsetQuantizeParamsWrapper>(1e-4f, 0);
+  std::vector<OpWrapper> op_wrappers;
+
+  // Add0
+  auto& input1 = tensor_pool.CreateNativeTensor(QNN_DATATYPE_SFIXED_POINT_16,
+                                                quant_param, {1, 2, 128, 64});
+  auto& input2 = tensor_pool.CreateNativeTensor(QNN_DATATYPE_SFIXED_POINT_16,
+                                                quant_param, {1, 2, 128, 64});
+  auto& add0_output =
+      tensor_pool.CloneNativeTensorFrom(input1, {1, 2, 128, 64});
+  auto add0 =
+      BuildElementwiseAddOp(tensor_pool, {input1, input2}, {add0_output});
+  std::move(add0.begin(), add0.end(), std::back_inserter(op_wrappers));
+
+  // Transpose0
+  auto& input3 = tensor_pool.CreateNativeTensor(QNN_DATATYPE_SFIXED_POINT_16,
+                                                quant_param, {1, 128, 2, 64});
+  std::array<int32_t, 4> transpose0_val = {0, 2, 3, 1};
+  auto& transpose0_perm = tensor_pool.CreateStaticTensor(
+      QNN_DATATYPE_INT_32, quant_param, {transpose0_val.size()},
+      transpose0_val.size() * sizeof(transpose0_val[0]), transpose0_val.data());
+  auto& transpose0_output =
+      tensor_pool.CloneNativeTensorFrom(add0_output, {1, 2, 64, 128});
+  auto transpose0 = BuildTransposeOp(tensor_pool, {input3, transpose0_perm},
+                                     {transpose0_output});
+  std::move(transpose0.begin(), transpose0.end(),
+            std::back_inserter(op_wrappers));
+
+  // Mul
+  auto& input0 = tensor_pool.CreateNativeTensor(QNN_DATATYPE_SFIXED_POINT_16,
+                                                quant_param, {1, 14, 128, 64});
+  std::array<int16_t, 1> mul_val = {32767};
+  auto& mul_const = tensor_pool.CreateStaticTensor(
+      QNN_DATATYPE_SFIXED_POINT_16, quant_param, {mul_val.size()},
+      mul_val.size() * sizeof(mul_val[0]), mul_val.data());
+  auto& mul_output =
+      tensor_pool.CloneNativeTensorFrom(input0, {1, 14, 128, 64});
+  auto mul =
+      BuildElementwiseMulOp(tensor_pool, {input0, mul_const}, {mul_output});
+  std::move(mul.begin(), mul.end(), std::back_inserter(op_wrappers));
+
+  // Reshape0
+  auto& reshape0_output =
+      tensor_pool.CloneNativeTensorFrom(mul_output, {1, 2, 896, 64});
+  auto reshape0 = BuildReshapeOp(tensor_pool, {mul_output}, {reshape0_output});
+  std::move(reshape0.begin(), reshape0.end(), std::back_inserter(op_wrappers));
+
+  // MatMul0
+  auto& q_in = tensor_pool.CreateNativeTensor(QNN_DATATYPE_SFIXED_POINT_16,
+                                              quant_param, {1, 2, 1280, 64});
+  auto& matmul0_output = tensor_pool.CreateNativeTensor(
+      QNN_DATATYPE_SFIXED_POINT_16, quant_param, {1, 2, 896, 1280});
+  auto matmul0 = BuildMatmulOp(tensor_pool, {reshape0_output, q_in},
+                               {matmul0_output}, false, true);
+  std::move(matmul0.begin(), matmul0.end(), std::back_inserter(op_wrappers));
+
+  // MatMul1
+  auto& matmul1_output = tensor_pool.CreateNativeTensor(
+      QNN_DATATYPE_SFIXED_POINT_16, quant_param, {1, 2, 896, 128});
+  auto matmul1 = BuildMatmulOp(tensor_pool, {reshape0_output, add0_output},
+                               {matmul1_output}, false, true);
+  std::move(matmul1.begin(), matmul1.end(), std::back_inserter(op_wrappers));
+
+  // Concat
+  auto& concat_output =
+      tensor_pool.CloneNativeTensorFrom(matmul0_output, {1, 2, 896, 1408});
+  auto concat = BuildConcatenationOp(
+      tensor_pool, {matmul0_output, matmul1_output}, {concat_output}, 3);
+  std::move(concat.begin(), concat.end(), std::back_inserter(op_wrappers));
+
+  // Reshape1
+  auto& reshape1_output =
+      tensor_pool.CloneNativeTensorFrom(concat_output, {2, 7, 128, 1408});
+  auto reshape1 =
+      BuildReshapeOp(tensor_pool, {concat_output}, {reshape1_output});
+  std::move(reshape1.begin(), reshape1.end(), std::back_inserter(op_wrappers));
+
+  // Add1
+  auto& mask = tensor_pool.CreateNativeTensor(QNN_DATATYPE_SFIXED_POINT_16,
+                                              quant_param, {1, 1, 128, 1408});
+  auto& add1_output = tensor_pool.CloneNativeTensorFrom(reshape1_output);
+  auto add1 = BuildElementwiseAddOp(tensor_pool, {reshape1_output, mask},
+                                    {add1_output});
+  std::move(add1.begin(), add1.end(), std::back_inserter(op_wrappers));
+
+  // Reshape2
+  auto& reshape2_output =
+      tensor_pool.CloneNativeTensorFrom(add1_output, {1, 2, 896, 1408});
+  auto reshape2 = BuildReshapeOp(tensor_pool, {add1_output}, {reshape2_output});
+  std::move(reshape2.begin(), reshape2.end(), std::back_inserter(op_wrappers));
+
+  // Softmax
+  auto& softmax_output = tensor_pool.CloneNativeTensorFrom(reshape2_output);
+  auto softmax =
+      BuildSoftmaxOp(tensor_pool, {reshape2_output}, {softmax_output}, 1.0f);
+  std::move(softmax.begin(), softmax.end(), std::back_inserter(op_wrappers));
+
+  // Slice0
+  const std::array<int32_t, 4> slice0_begin_data{0, 0, 0, 0};
+  auto& slice0_begin = tensor_pool.CreateStaticTensor(
+      QNN_DATATYPE_INT_32, {}, {slice0_begin_data.size()},
+      slice0_begin_data.size() * sizeof(slice0_begin_data[0]),
+      slice0_begin_data.data());
+  const std::array<int32_t, 4> slice0_size_data{1, 2, 896, 1280};
+  auto& slice0_size = tensor_pool.CreateStaticTensor(
+      QNN_DATATYPE_INT_32, {}, {slice0_size_data.size()},
+      slice0_size_data.size() * sizeof(slice0_size_data[0]),
+      slice0_size_data.data());
+  auto& slice0_output =
+      tensor_pool.CloneNativeTensorFrom(softmax_output, {1, 2, 896, 1280});
+  auto slice0 =
+      BuildSliceOp(tensor_pool, {softmax_output, slice0_begin, slice0_size},
+                   {slice0_output});
+  std::move(slice0.begin(), slice0.end(), std::back_inserter(op_wrappers));
+
+  // Slice1
+  const std::array<int32_t, 4> slice1_begin_data{0, 0, 0, 1280};
+  auto& slice1_begin = tensor_pool.CreateStaticTensor(
+      QNN_DATATYPE_INT_32, {}, {slice1_begin_data.size()},
+      slice1_begin_data.size() * sizeof(slice1_begin_data[0]),
+      slice1_begin_data.data());
+  const std::array<int32_t, 4> slice1_size_data{1, 2, 896, 128};
+  auto& slice1_size = tensor_pool.CreateStaticTensor(
+      QNN_DATATYPE_INT_32, {}, {slice1_size_data.size()},
+      slice1_size_data.size() * sizeof(slice1_size_data[0]),
+      slice1_size_data.data());
+  auto& slice1_output =
+      tensor_pool.CloneNativeTensorFrom(softmax_output, {1, 2, 896, 128});
+  auto slice1 =
+      BuildSliceOp(tensor_pool, {softmax_output, slice1_begin, slice1_size},
+                   {slice1_output});
+  std::move(slice1.begin(), slice1.end(), std::back_inserter(op_wrappers));
+
+  // MatMul2
+  auto& v_in = tensor_pool.CreateNativeTensor(QNN_DATATYPE_SFIXED_POINT_16,
+                                              quant_param, {1, 2, 64, 1280});
+  auto& matmul2_output = tensor_pool.CreateNativeTensor(
+      QNN_DATATYPE_SFIXED_POINT_16, quant_param, {1, 2, 896, 64});
+  auto matmul2 = BuildMatmulOp(tensor_pool, {slice0_output, v_in},
+                               {matmul2_output}, false, true);
+  std::move(matmul2.begin(), matmul2.end(), std::back_inserter(op_wrappers));
+
+  // MatMul3
+  auto& matmul3_output = tensor_pool.CreateNativeTensor(
+      QNN_DATATYPE_SFIXED_POINT_16, quant_param, {1, 2, 896, 64});
+  auto matmul3 = BuildMatmulOp(tensor_pool, {slice1_output, transpose0_output},
+                               {matmul3_output}, false, true);
+  std::move(matmul3.begin(), matmul3.end(), std::back_inserter(op_wrappers));
+
+  // Add2
+  auto& add2_output = tensor_pool.CloneNativeTensorFrom(matmul3_output);
+  auto add2 = BuildElementwiseAddOp(
+      tensor_pool, {matmul2_output, matmul3_output}, {add2_output});
+  std::move(add2.begin(), add2.end(), std::back_inserter(op_wrappers));
+
+  // Reshape3
+  auto& reshape3_output =
+      tensor_pool.CloneNativeTensorFrom(add2_output, {1, 14, 128, 64});
+  auto reshape3 = BuildReshapeOp(tensor_pool, {add2_output}, {reshape3_output});
+  std::move(reshape3.begin(), reshape3.end(), std::back_inserter(op_wrappers));
+
+  // Transpose1
+  std::array<int32_t, 4> transpose1_val = {0, 2, 1, 3};
+  auto& transpose1_perm = tensor_pool.CreateStaticTensor(
+      QNN_DATATYPE_INT_32, quant_param, {transpose1_val.size()},
+      transpose1_val.size() * sizeof(transpose1_val[0]), transpose1_val.data());
+  auto& transpose1_output =
+      tensor_pool.CloneNativeTensorFrom(reshape3_output, {1, 128, 14, 64});
+  auto transpose1 = BuildTransposeOp(
+      tensor_pool, {reshape3_output, transpose1_perm}, {transpose1_output});
+  std::move(transpose1.begin(), transpose1.end(),
+            std::back_inserter(op_wrappers));
+
+  // Reshape4
+  auto& reshape4_output =
+      tensor_pool.CloneNativeTensorFrom(transpose1_output, {1, 128, 896});
+  auto reshape4 =
+      BuildReshapeOp(tensor_pool, {transpose1_output}, {reshape4_output});
+  std::move(reshape4.begin(), reshape4.end(), std::back_inserter(op_wrappers));
+
+  ASSERT_EQ(op_wrappers.size(), 19);
+
+  const ::qnn::G2GConfig g2g_option = ::qnn::G2GConfig::kMHAOptPrefill;
+  GraphToGraphTransform(g2g_option, op_wrappers, tensor_pool,
+                        [](OpWrapper& op) { return true; });
+  // Check total size after G2G
+  ASSERT_EQ(op_wrappers.size(), 191);
+
+  // Check OpCode after G2G
+  const size_t num_unpack = 6;
+  const size_t num_head = 14;
+  const size_t sha_size = 13;
+
+  ASSERT_TRUE(op_wrappers[0].IsOpCode(QnnOpCode::kElementWiseAdd));
+  ASSERT_TRUE(op_wrappers[1].IsOpCode(QnnOpCode::kTranspose));
+
+  for (size_t i = 0; i < num_unpack; ++i) {
+    ASSERT_TRUE(op_wrappers[2 + i].IsOpCode(QnnOpCode::kUnPack));
+  }
+
+  for (size_t i = 0; i < num_head; ++i) {
+    ASSERT_TRUE(op_wrappers[8 + sha_size * i].IsOpCode(
+        QnnOpCode::kElementWiseMultiply));
+    ASSERT_TRUE(op_wrappers[9 + sha_size * i].IsOpCode(QnnOpCode::kMatMul));
+    ASSERT_TRUE(
+        op_wrappers[10 + sha_size * i].IsOpCode(QnnOpCode::kElementWiseAdd));
+    ASSERT_TRUE(op_wrappers[11 + sha_size * i].IsOpCode(QnnOpCode::kMatMul));
+    ASSERT_TRUE(op_wrappers[12 + sha_size * i].IsOpCode(QnnOpCode::kConcat));
+    ASSERT_TRUE(
+        op_wrappers[13 + sha_size * i].IsOpCode(QnnOpCode::kElementWiseAdd));
+    ASSERT_TRUE(op_wrappers[14 + sha_size * i].IsOpCode(QnnOpCode::kReshape));
+    ASSERT_TRUE(op_wrappers[15 + sha_size * i].IsOpCode(QnnOpCode::kSoftmax));
+    ASSERT_TRUE(
+        op_wrappers[16 + sha_size * i].IsOpCode(QnnOpCode::kStridedSlice));
+    ASSERT_TRUE(
+        op_wrappers[17 + sha_size * i].IsOpCode(QnnOpCode::kStridedSlice));
+    ASSERT_TRUE(op_wrappers[18 + sha_size * i].IsOpCode(QnnOpCode::kMatMul));
+    ASSERT_TRUE(op_wrappers[19 + sha_size * i].IsOpCode(QnnOpCode::kMatMul));
+    ASSERT_TRUE(
+        op_wrappers[20 + sha_size * i].IsOpCode(QnnOpCode::kElementWiseAdd));
+  }
+  ASSERT_TRUE(op_wrappers[op_wrappers.size() - 1].IsOpCode(QnnOpCode::kConcat));
+}
+
 }  // namespace
 }  // namespace qnn