PaddlePaddle
diff --git a/‎paddle/fluid/framework/ir/fused_multi_transformer_decoder_pass.cc
Lines changed: 51 additions & 227 deletions b/‎paddle/fluid/framework/ir/fused_multi_transformer_decoder_pass.cc
Lines changed: 51 additions & 227 deletions
diff --git a/‎paddle/fluid/framework/ir/fused_multi_transformer_decoder_pass.h
Lines changed: 0 additions & 18 deletions b/‎paddle/fluid/framework/ir/fused_multi_transformer_decoder_pass.h
Lines changed: 0 additions & 18 deletions
diff --git a/‎paddle/fluid/framework/ir/fused_multi_transformer_decoder_pass_tester.cc
Lines changed: 21 additions & 45 deletions b/‎paddle/fluid/framework/ir/fused_multi_transformer_decoder_pass_tester.cc
Lines changed: 21 additions & 45 deletions
@@ -88,8 +88,6 @@ struct FusedMultiTransformerDecoderPattern : public PatternBase {
   PATTERN_DECL_NODE(eltadd_qk_out);
   PATTERN_DECL_NODE(softmax_qk);
   PATTERN_DECL_NODE(softmax_qk_out);
-  PATTERN_DECL_NODE(dropout_qk);
-  PATTERN_DECL_NODE(dropout_qk_out);
 
   // QK, V matmul
   PATTERN_DECL_NODE(matmul_qkv);
@@ -106,8 +104,6 @@ struct FusedMultiTransformerDecoderPattern : public PatternBase {
   PATTERN_DECL_NODE(eltadd_linear);
   PATTERN_DECL_NODE(eltadd_linear_b);
   PATTERN_DECL_NODE(eltadd_linear_out);
-  PATTERN_DECL_NODE(dropout_linear);
-  PATTERN_DECL_NODE(dropout_linear_out);
 
   // output elementwise_add
   PATTERN_DECL_NODE(eltadd_out)
@@ -137,8 +133,6 @@ struct FusedMultiTransformerDecoderPattern : public PatternBase {
   PATTERN_DECL_NODE(ffn_eltadd1);    // ELEMENTWISE_ADD
   PATTERN_DECL_NODE(ffn_eltadd1_b);  // ELEMENTWISE_ADD
   PATTERN_DECL_NODE(ffn_eltadd1_out);
-  PATTERN_DECL_NODE(ffn_dropout);
-  PATTERN_DECL_NODE(ffn_dropout_out);
 
   // output elementwise_add
   PATTERN_DECL_NODE(ffn_eltadd_out)
@@ -193,8 +187,6 @@ struct FusedMultiTransformerDecoderFuseQKVPattern : public PatternBase {
   PATTERN_DECL_NODE(eltadd_qk_out);
   PATTERN_DECL_NODE(softmax_qk);
   PATTERN_DECL_NODE(softmax_qk_out);
-  PATTERN_DECL_NODE(dropout_qk);
-  PATTERN_DECL_NODE(dropout_qk_out);
 
   // QK, V matmul
   PATTERN_DECL_NODE(matmul_qkv);
@@ -211,8 +203,6 @@ struct FusedMultiTransformerDecoderFuseQKVPattern : public PatternBase {
   PATTERN_DECL_NODE(eltadd_linear);
   PATTERN_DECL_NODE(eltadd_linear_b);
   PATTERN_DECL_NODE(eltadd_linear_out);
-  PATTERN_DECL_NODE(dropout_linear);
-  PATTERN_DECL_NODE(dropout_linear_out);
 
   // output elementwise_add
   PATTERN_DECL_NODE(eltadd_out)
@@ -239,8 +229,6 @@ struct FusedMultiTransformerDecoderFuseQKVPattern : public PatternBase {
   PATTERN_DECL_NODE(ffn_eltadd1);    // ELEMENTWISE_ADD
   PATTERN_DECL_NODE(ffn_eltadd1_b);  // ELEMENTWISE_ADD
   PATTERN_DECL_NODE(ffn_eltadd1_out);
-  PATTERN_DECL_NODE(ffn_dropout);
-  PATTERN_DECL_NODE(ffn_dropout_out);
 
   // output elementwise_add
   PATTERN_DECL_NODE(ffn_eltadd_out)
@@ -299,8 +287,6 @@ struct MultiDevicesFusedMultiTransformerDecoderFuseQKVPattern
   PATTERN_DECL_NODE(eltadd_qk_out);
   PATTERN_DECL_NODE(softmax_qk);
   PATTERN_DECL_NODE(softmax_qk_out);
-  PATTERN_DECL_NODE(dropout_qk);
-  PATTERN_DECL_NODE(dropout_qk_out);
 
   // QK, V matmul
   PATTERN_DECL_NODE(matmul_qkv);
@@ -319,8 +305,6 @@ struct MultiDevicesFusedMultiTransformerDecoderFuseQKVPattern
   PATTERN_DECL_NODE(eltadd_linear);
   PATTERN_DECL_NODE(eltadd_linear_b);
   PATTERN_DECL_NODE(eltadd_linear_out);
-  PATTERN_DECL_NODE(dropout_linear);
-  PATTERN_DECL_NODE(dropout_linear_out);
 
   // output elementwise_add
   PATTERN_DECL_NODE(eltadd_out)
@@ -351,8 +335,6 @@ struct MultiDevicesFusedMultiTransformerDecoderFuseQKVPattern
   PATTERN_DECL_NODE(ffn_eltadd1);    // ELEMENTWISE_ADD
   PATTERN_DECL_NODE(ffn_eltadd1_b);  // ELEMENTWISE_ADD
   PATTERN_DECL_NODE(ffn_eltadd1_out);
-  PATTERN_DECL_NODE(ffn_dropout);
-  PATTERN_DECL_NODE(ffn_dropout_out);
 
   // output elementwise_add
   PATTERN_DECL_NODE(ffn_eltadd_out)
 
@@ -85,13 +85,11 @@ TEST(FusedMultiTransformerDecoderPass, basic) {
   // (transpose_0, transpose_1)       matmul           -> matmul_qk
   // (matmul_qk, bias_qk)             elementwise_add  -> eltadd_qk
   // (eltadd_qk)                      softmax          -> softmax_qk
-  // (softmax_qk)                     dropout          -> dropout_qk
-  // (dropout_qk, transpose_2)        matmul_v2        -> matmul_qkv
+  // (softmax_qk, transpose_2)        matmul_v2        -> matmul_qkv
   // (matmul_qkv)                     transpose        -> transpose_qkv
   // (transpose_qkv)                  reshape          -> reshape_qkv
   // (reshape_qkv)                    matmul_v2        -> matmul_linear
   // (matmul_linear)                  elementwise_add  -> eltadd_linear
-  // (eltadd_linear)                  dropout          -> dropout_linear
   // (eltadd_out)                     elementwise_add  -> attention_out
   //
   // (attention_out, scale, bias)     layer_norm       -> ffn_layer_norm_out
@@ -100,8 +98,7 @@ TEST(FusedMultiTransformerDecoderPass, basic) {
   // (ffn_eltadd0)                    gelu             -> ffn_gelu
   // (ffn_gelu)                       matmul_v2        -> ffn_matmul1
   // (ffn_matmul1, ffn_bias1)         elementwise_add  -> ffn_eltadd1
-  // (ffn_eltadd1)                    dropout          -> ffn_dropout
-  // (attention_out, ffn_dropout)     elementwise_add  -> ffn_output
+  // (attention_out, ffn_eltadd1)     elementwise_add  -> ffn_output
 
   Layers layers;
   // MHA: pre LayerNorm
@@ -154,10 +151,9 @@ TEST(FusedMultiTransformerDecoderPass, basic) {
   auto* bqk = layers.data("biasqk", {1, 12, 128, 128}, true);
   auto* elementwise_qk = layers.elementwise_add(matmul_qk, bqk);
   auto* softmax_qk = layers.softmax(elementwise_qk, -1);
-  auto* dropout_qk = layers.dropout(softmax_qk, 0.1, "upscale_in_train");
 
   // MHA: QKV matmul
-  auto* matmul_qkv = layers.matmul_v2(dropout_qk, concat_v);
+  auto* matmul_qkv = layers.matmul_v2(softmax_qk, concat_v);
 
   auto* transpose_qkv = layers.transpose2(matmul_qkv, {0, 2, 1, 3}, true);
   auto* reshape_qkv_out = layers.reshape2(transpose_qkv, {1, 128, 1024}, true);
@@ -170,9 +166,7 @@ TEST(FusedMultiTransformerDecoderPass, basic) {
   auto* linear_eltadd_out =
       layers.elementwise_add(linear_matmut_out, bias_l, nullptr, 2);
 
-  auto* dropout_qkv =
-      layers.dropout(linear_eltadd_out, 0.1, "upscale_in_train");
-  auto* attention_out = layers.elementwise_add(x, dropout_qkv);
+  auto* attention_out = layers.elementwise_add(x, linear_eltadd_out);
 
   // FFN: pre LayerNorm
   auto* ffn_ln_scale = layers.data("ffn_ln_scale", {1024}, true);
@@ -195,9 +189,7 @@ TEST(FusedMultiTransformerDecoderPass, basic) {
   auto* ffn_eltadd1_out =
       layers.elementwise_add(ffn_matmul1_out, ffn_bias1, nullptr, 2);
 
-  // FFN: dropout -> elementwise_add
-  auto* ffn_dropout = layers.dropout(ffn_eltadd1_out, 0.1, "upscale_in_train");
-  layers.elementwise_add(attention_out, ffn_dropout);
+  layers.elementwise_add(attention_out, ffn_eltadd1_out);
 
   std::unique_ptr<ir::Graph> graph(new ir::Graph(layers.main_program()));
   graph->Set("__param_scope__", CreateParamScope());
@@ -215,12 +207,12 @@ TEST(FusedMultiTransformerDecoderPass, basic) {
   int num_fused_nodes_after = GetNumOpNodes(graph, "fused_multi_transformer");
 
   PADDLE_ENFORCE_EQ(num_nodes_before,
-                    num_nodes_after + 72,
+                    num_nodes_after + 60,
                     platform::errors::InvalidArgument(
                         "After the fused_multi_transformer_decoder_pass, The "
                         "node num in graph "
                         "should be %d, but the result is %d",
-                        num_nodes_before - 72,
+                        num_nodes_before - 60,
                         num_nodes_after));
   PADDLE_ENFORCE_EQ(num_fused_nodes_after,
                     1,
@@ -253,13 +245,11 @@ TEST(FusedMultiTransformerDecoderFuseQKVPass, basic) {
   // (split_q, split_k)               matmul           -> matmul_qk
   // (matmul_qk, bias_qk)             elementwise_add  -> eltadd_qk
   // (eltadd_qk)                      softmax          -> softmax_qk
-  // (softmax_qk)                     dropout          -> dropout_qk
-  // (dropout_qk, transpose_2)        matmul_v2        -> matmul_qkv
+  // (softmax_qk, transpose_2)        matmul_v2        -> matmul_qkv
   // (matmul_qkv)                     transpose        -> transpose_qkv
   // (transpose_qkv)                  reshape          -> reshape_qkv
   // (reshape_qkv)                    matmul_v2        -> matmul_linear
   // (matmul_linear)                  elementwise_add  -> eltadd_linear
-  // (eltadd_linear)                  dropout          -> dropout_linear
   // (eltadd_out)                     elementwise_add  -> attention_out
   //
   // (attention_out, scale, bias)     layer_norm       -> ffn_layer_norm_out
@@ -268,8 +258,7 @@ TEST(FusedMultiTransformerDecoderFuseQKVPass, basic) {
   // (ffn_eltadd0)                    gelu             -> ffn_gelu
   // (ffn_gelu)                       matmul_v2        -> ffn_matmul1
   // (ffn_matmul1, ffn_bias1)         elementwise_add  -> ffn_eltadd1
-  // (ffn_eltadd1)                    dropout          -> ffn_dropout
-  // (attention_out, ffn_dropout)     elementwise_add  -> ffn_output
+  // (attention_out, ffn_eltadd1)     elementwise_add  -> ffn_output
   //
   // (transpose_1, transpose_2)       while            -> decoder block
 
@@ -313,10 +302,9 @@ TEST(FusedMultiTransformerDecoderFuseQKVPass, basic) {
   auto* bqk = layers.data("biasqk", {1, 12, 128, 128}, true);
   auto* elementwise_qk = layers.elementwise_add(matmul_qk, bqk);
   auto* softmax_qk = layers.softmax(elementwise_qk, -1);
-  auto* dropout_qk = layers.dropout(softmax_qk, 0.1, "upscale_in_train");
 
   // MHA: QKV matmul
-  auto* matmul_qkv = layers.matmul_v2(dropout_qk, concat_v);
+  auto* matmul_qkv = layers.matmul_v2(softmax_qk, concat_v);
 
   auto* transpose_qkv = layers.transpose2(matmul_qkv, {0, 2, 1, 3}, true);
   auto* reshape_qkv_out = layers.reshape2(transpose_qkv, {1, 128, 1024}, true);
@@ -329,9 +317,7 @@ TEST(FusedMultiTransformerDecoderFuseQKVPass, basic) {
   auto* linear_eltadd_out =
       layers.elementwise_add(linear_matmut_out, bias_l, nullptr, 2);
 
-  auto* dropout_qkv =
-      layers.dropout(linear_eltadd_out, 0.1, "upscale_in_train");
-  auto* attention_out = layers.elementwise_add(x, dropout_qkv);
+  auto* attention_out = layers.elementwise_add(x, linear_eltadd_out);
 
   // FFN: pre LayerNorm
   auto* ffn_ln_scale = layers.data("ffn_ln_scale", {1024}, true);
@@ -354,9 +340,7 @@ TEST(FusedMultiTransformerDecoderFuseQKVPass, basic) {
   auto* ffn_eltadd1_out =
       layers.elementwise_add(ffn_matmul1_out, ffn_bias1, nullptr, 2);
 
-  // FFN: dropout -> elementwise_add
-  auto* ffn_dropout = layers.dropout(ffn_eltadd1_out, 0.1, "upscale_in_train");
-  layers.elementwise_add(attention_out, ffn_dropout);
+  layers.elementwise_add(attention_out, ffn_eltadd1_out);
 
   std::unique_ptr<ir::Graph> graph(new ir::Graph(layers.main_program()));
   graph->Set("__param_scope__", CreateParamScope());
@@ -375,11 +359,11 @@ TEST(FusedMultiTransformerDecoderFuseQKVPass, basic) {
 
   PADDLE_ENFORCE_EQ(
       num_nodes_before,
-      num_nodes_after + 62,
+      num_nodes_after + 50,
       platform::errors::InvalidArgument(
           "After the fused_multi_transformer_decoder_fuse_qkv_pass, "
           "The node num in graph should be %d, but the result is %d",
-          num_nodes_before - 62,
+          num_nodes_before - 50,
           num_nodes_after));
   PADDLE_ENFORCE_EQ(num_fused_nodes_after,
                     1,
@@ -413,14 +397,12 @@ TEST(MultiDevicesFusedMultiTransformerDecoderFuseQKVPass, basic) {
   // (split_q, split_k)               matmul           -> matmul_qk
   // (matmul_qk, bias_qk)             elementwise_add  -> eltadd_qk
   // (eltadd_qk)                      softmax          -> softmax_qk
-  // (softmax_qk)                     dropout          -> dropout_qk
-  // (dropout_qk, transpose_2)        matmul_v2        -> matmul_qkv
+  // (softmax_qk, transpose_2)        matmul_v2        -> matmul_qkv
   // (matmul_qkv)                     transpose        -> transpose_qkv
   // (transpose_qkv)                  reshape          -> reshape_qkv
   // (reshape_qkv)                    matmul_v2        -> matmul_linear
   // (matmul_linear)                  c_allreduce_sum  -> c_all_reduce_out
   // (matmul_linear)                  elementwise_add  -> eltadd_linear
-  // (eltadd_linear)                  dropout          -> dropout_linear
   // (eltadd_out)                     elementwise_add  -> attention_out
   //
   // (attention_out, scale, bias)     layer_norm       -> ffn_layer_norm_out
@@ -431,8 +413,7 @@ TEST(MultiDevicesFusedMultiTransformerDecoderFuseQKVPass, basic) {
   // (ffn_gelu)                       matmul_v2        -> ffn_matmul1
   // (ffn_matmul1)                    c_allreduce_sum  -> c_allreduce_out
   // (ffn_matmul1, ffn_bias1)         elementwise_add  -> ffn_eltadd1
-  // (ffn_eltadd1)                    dropout          -> ffn_dropout
-  // (attention_out, ffn_dropout)     elementwise_add  -> ffn_output
+  // (attention_out, ffn_eltadd1)     elementwise_add  -> ffn_output
   //
   // (transpose_1, transpose_2)       while            -> decoder block
 
@@ -477,10 +458,9 @@ TEST(MultiDevicesFusedMultiTransformerDecoderFuseQKVPass, basic) {
   auto* bqk = layers.data("biasqk", {1, 12, 128, 128}, true);
   auto* elementwise_qk = layers.elementwise_add(matmul_qk, bqk);
   auto* softmax_qk = layers.softmax(elementwise_qk, -1);
-  auto* dropout_qk = layers.dropout(softmax_qk, 0.1, "upscale_in_train");
 
   // MHA: QKV matmul
-  auto* matmul_qkv = layers.matmul_v2(dropout_qk, concat_v);
+  auto* matmul_qkv = layers.matmul_v2(softmax_qk, concat_v);
 
   auto* transpose_qkv = layers.transpose2(matmul_qkv, {0, 2, 1, 3}, true);
   auto* reshape_qkv_out = layers.reshape2(transpose_qkv, {1, 128, 1024}, true);
@@ -494,9 +474,7 @@ TEST(MultiDevicesFusedMultiTransformerDecoderFuseQKVPass, basic) {
   auto* linear_eltadd_out =
       layers.elementwise_add(c_allreduce_out, bias_l, nullptr, 2);
 
-  auto* dropout_qkv =
-      layers.dropout(linear_eltadd_out, 0.1, "upscale_in_train");
-  auto* attention_out = layers.elementwise_add(x, dropout_qkv);
+  auto* attention_out = layers.elementwise_add(x, linear_eltadd_out);
 
   // FFN: pre LayerNorm
   auto* ffn_ln_scale = layers.data("ffn_ln_scale", {1024}, true);
@@ -521,9 +499,7 @@ TEST(MultiDevicesFusedMultiTransformerDecoderFuseQKVPass, basic) {
   auto* ffn_eltadd1_out =
       layers.elementwise_add(ffn_c_allreduce_out, ffn_bias1, nullptr, 2);
 
-  // FFN: dropout -> elementwise_add
-  auto* ffn_dropout = layers.dropout(ffn_eltadd1_out, 0.1, "upscale_in_train");
-  layers.elementwise_add(attention_out, ffn_dropout);
+  layers.elementwise_add(attention_out, ffn_eltadd1_out);
 
   std::unique_ptr<ir::Graph> graph(new ir::Graph(layers.main_program()));
   graph->Set("__param_scope__", CreateParamScope());
@@ -544,11 +520,11 @@ TEST(MultiDevicesFusedMultiTransformerDecoderFuseQKVPass, basic) {
 
   PADDLE_ENFORCE_EQ(
       num_nodes_before,
-      num_nodes_after + 70,
+      num_nodes_after + 58,
       platform::errors::InvalidArgument(
           "After the fused_multi_transformer_decoder_fuse_qkv_pass, "
           "The node num in graph should be %d, but the result is %d",
-          num_nodes_before - 70,
+          num_nodes_before - 58,
           num_nodes_after));
   PADDLE_ENFORCE_EQ(num_fused_nodes_after,
                     1,