Merge commit 'refs/pull/6670/head' of github.com:PaddlePaddle/PaddleNLP into llama

cyber-pioneer · cyber-pioneer · commit 77680b657337 · 2023-10-11T02:34:58.000Z
diff --git a/paddlenlp/trainer/trainer.py b/paddlenlp/trainer/trainer.py
@@ -156,7 +156,7 @@
 try:
     from paddle.io.dataloader.dataloader_iter import _DataLoaderIterBase
 except:
-    from paddle.fluid.dataloader.dataloader_iter import _DataLoaderIterBase
+    from paddle.base.dataloader.dataloader_iter import _DataLoaderIterBase
 
 
 def is_dp_group_support_in_group_sharded_parallel():
@@ -689,6 +689,22 @@ def train(
                 # so, the trainable numel is a little bigger than real.
                 logger.info(f"  Number of trainable parameters = {trainable_numel:,} (all devices, roughly)")
 
+        model.llama = paddle.jit.to_static(
+            model.llama,
+            input_spec=[
+                paddle.static.InputSpec(name="input_ids", shape=[-1, -1], dtype="int64"),  # input_ids
+                None,  # position_ids
+                None,  # attention_mask
+                None,  # inputs_embeds
+                # paddle.static.InputSpec(name="labels", shape=[-1, -1], dtype="int64"),  # labels
+                False,  # use_cache
+                None,  # past_key_values
+                None,  # output_attentions
+                None,  # output_hidden_states
+                None,  # return_dict
+            ],
+        )
+        paddle.base.core._set_prim_forward_blacklist("expand_v2")
         start_time = time.time()
         self._globalstep_last_start_time = time.time()
         self.state.epoch = 0
diff --git a/paddlenlp/transformers/llama/configuration.py b/paddlenlp/transformers/llama/configuration.py
@@ -60,6 +60,92 @@
         "use_recompute": False,
         "use_flash_attention": False,
     },
+    "__internal_testing__/distributed-projection-llama-7b": {
+        "hidden_size": 2048,
+        "embedding_output_size": 4096,
+        "initializer_range": 0.02,
+        "intermediate_size": 5504,
+        "max_position_embeddings": 2048,
+        "model_type": "llama",
+        "num_attention_heads": 16,
+        "num_hidden_layers": 2,
+        "rms_norm_eps": 1e-06,
+        "vocab_size": 32000,
+        "bos_token_id": 1,
+        "eos_token_id": 2,
+        "pad_token_id": 0,
+        "use_cache": False,
+        "use_recompute": False,
+        "use_flash_attention": False,
+    },
+    "facebook/llama-7b": {
+        "hidden_size": 4096,
+        "initializer_range": 0.02,
+        "intermediate_size": 11008,
+        "max_position_embeddings": 2048,
+        "model_type": "llama",
+        "num_attention_heads": 32,
+        "num_hidden_layers": 32,
+        "rms_norm_eps": 1e-06,
+        "vocab_size": 32000,
+        "bos_token_id": 1,
+        "eos_token_id": 2,
+        "pad_token_id": 0,
+        "use_cache": False,
+        "use_recompute": False,
+        "use_flash_attention": False,
+    },
+    "facebook/llama-13b": {
+        "hidden_size": 5120,
+        "initializer_range": 0.02,
+        "intermediate_size": 13824,
+        "max_position_embeddings": 2048,
+        "model_type": "llama",
+        "num_attention_heads": 40,
+        "num_hidden_layers": 40,
+        "rms_norm_eps": 1e-06,
+        "vocab_size": 32000,
+        "bos_token_id": 1,
+        "eos_token_id": 2,
+        "pad_token_id": 0,
+        "use_cache": False,
+        "use_recompute": False,
+        "use_flash_attention": False,
+    },
+    "facebook/llama-30b": {
+        "hidden_size": 6656,
+        "initializer_range": 0.02,
+        "intermediate_size": 17920,
+        "max_position_embeddings": 2048,
+        "model_type": "llama",
+        "num_attention_heads": 52,
+        "num_hidden_layers": 60,
+        "rms_norm_eps": 1e-06,
+        "vocab_size": 32000,
+        "bos_token_id": 1,
+        "eos_token_id": 2,
+        "pad_token_id": 0,
+        "use_cache": False,
+        "use_recompute": False,
+        "use_flash_attention": False,
+    },
+    "facebook/llama-65b": {
+        "hidden_size": 8192,
+        "initializer_range": 0.02,
+        "intermediate_size": 22016,
+        "max_position_embeddings": 2048,
+        "model_type": "llama",
+        "num_attention_heads": 64,
+        "num_hidden_layers": 80,
+        "rms_norm_eps": 1e-05,
+        "vocab_size": 32000,
+        "bos_token_id": 1,
+        "eos_token_id": 2,
+        "pad_token_id": 0,
+        "use_cache": False,
+        "use_recompute": False,
+        "use_flash_attention": False,
+    },
 }
 
 # Hypothetical model weights (tiny-random-llama) for test only
@@ -168,10 +254,14 @@ def __init__(
         alibi=False,
         rope_scaling_factor=1.0,
         rope_scaling_type=None,
+        embedding_output_size=None,
         **kwargs,
     ):
         self.vocab_size = vocab_size
         self.hidden_size = hidden_size
+        if embedding_output_size is None:
+            embedding_output_size = hidden_size
+        self.embedding_output_size = embedding_output_size
         self.intermediate_size = intermediate_size
         self.max_position_embeddings = max_position_embeddings
         self.seq_length = seq_length
diff --git a/paddlenlp/transformers/llama/modeling.py b/paddlenlp/transformers/llama/modeling.py
@@ -299,8 +299,9 @@ class LlamaRMSNorm(nn.Layer):
     def __init__(self, config):
         super().__init__()
         self.hidden_size = config.hidden_size
+        self.embedding_output_size = config.embedding_output_size
         self.weight = paddle.create_parameter(
-            shape=[self.hidden_size],
+            shape=[self.embedding_output_size],
             dtype=paddle.get_default_dtype(),
             default_initializer=nn.initializer.Constant(1.0),
         )
@@ -465,6 +466,7 @@ class LlamaMLP(nn.Layer):
     def __init__(self, config):
         super().__init__()
         self.hidden_size = config.hidden_size
+        self.embedding_output_size = config.embedding_output_size
         self.intermediate_size = config.intermediate_size
         self.tensor_parallel_degree = config.tensor_parallel_degree
         self.fuse_attention_ffn = config.fuse_attention_ffn
@@ -479,39 +481,41 @@ def __init__(self, config):
         if config.tensor_parallel_degree > 1:
             if config.fuse_attention_ffn:
                 self.gate_up_fused_proj = ColumnParallelLinear(
-                    self.hidden_size,
+                    self.embedding_output_size,
                     self.intermediate_size * 2,
                     gather_output=False,
                     has_bias=False,
                 )
             else:
                 self.gate_proj = ColumnParallelLinear(
-                    self.hidden_size,
+                    self.embedding_output_size,
                     self.intermediate_size,
                     gather_output=False,
                     has_bias=False,
                 )
                 self.up_proj = ColumnParallelLinear(
-                    self.hidden_size,
+                    self.embedding_output_size,
                     self.intermediate_size,
                     gather_output=False,
                     has_bias=False,
                 )
 
             self.down_proj = RowParallelLinear(
                 self.intermediate_size,
-                self.hidden_size,
+                self.embedding_output_size,
                 input_is_parallel=True,
                 has_bias=False,
             )
         else:
             if config.fuse_attention_ffn:
-                self.gate_up_fused_proj = nn.Linear(self.hidden_size, self.intermediate_size * 2, bias_attr=False)
+                self.gate_up_fused_proj = nn.Linear(
+                    self.embedding_output_size, self.intermediate_size * 2, bias_attr=False
+                )
             else:
-                self.gate_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias_attr=False)
-                self.up_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias_attr=False)
+                self.gate_proj = nn.Linear(self.embedding_output_size, self.intermediate_size, bias_attr=False)
+                self.up_proj = nn.Linear(self.embedding_output_size, self.intermediate_size, bias_attr=False)
 
-            self.down_proj = nn.Linear(self.intermediate_size, self.hidden_size, bias_attr=False)
+            self.down_proj = nn.Linear(self.intermediate_size, self.embedding_output_size, bias_attr=False)
 
     def forward(self, x):
         if self.fuse_attention_ffn:
@@ -530,6 +534,7 @@ def __init__(self, config: LlamaConfig, layerwise_recompute: bool = False):
 
         self.config = config
         self.hidden_size = config.hidden_size
+        self.embedding_output_size = config.embedding_output_size
         self.num_heads = config.num_attention_heads
 
         self.head_dim = self.hidden_size // config.num_attention_heads
@@ -590,78 +595,78 @@ def __init__(self, config: LlamaConfig, layerwise_recompute: bool = False):
         if config.tensor_parallel_degree > 1:
             if self.fuse_attention_qkv:
                 self.qkv_proj = ColumnParallelLinear(
-                    self.hidden_size,
+                    self.embedding_output_size,
                     3 * self.hidden_size,
                     has_bias=False,
                     gather_output=False,
                 )
             else:
                 self.q_proj = ColumnParallelLinear(
-                    self.hidden_size,
+                    self.embedding_output_size,
                     self.hidden_size,
                     has_bias=False,
                     gather_output=False,
                 )
                 if self.kv_indices is None:
                     self.k_proj = ColumnParallelLinear(
-                        self.hidden_size,
+                        self.embedding_output_size,
                         self.config.num_key_value_heads * self.head_dim,
                         has_bias=False,
                         gather_output=False,
                     )
                     self.v_proj = ColumnParallelLinear(
-                        self.hidden_size,
+                        self.embedding_output_size,
                         self.config.num_key_value_heads * self.head_dim,
                         has_bias=False,
                         gather_output=False,
                     )
                 else:
                     self.k_proj = nn.Linear(
-                        self.hidden_size,
+                        self.embedding_output_size,
                         self.config.num_key_value_heads * self.head_dim,
                         bias_attr=False,
                     )
                     self.v_proj = nn.Linear(
-                        self.hidden_size,
+                        self.embedding_output_size,
                         self.config.num_key_value_heads * self.head_dim,
                         bias_attr=False,
                     )
 
         else:
             if self.fuse_attention_qkv:
                 self.qkv_proj = nn.Linear(
-                    self.hidden_size,
+                    self.embedding_output_size,
                     3 * self.hidden_size,
                     bias_attr=False,
                 )
             else:
                 self.q_proj = nn.Linear(
-                    self.hidden_size,
+                    self.embedding_output_size,
                     self.hidden_size,
                     bias_attr=False,
                 )
                 self.k_proj = nn.Linear(
-                    self.hidden_size,
+                    self.embedding_output_size,
                     self.config.num_key_value_heads * self.head_dim,
                     bias_attr=False,
                 )
                 self.v_proj = nn.Linear(
-                    self.hidden_size,
+                    self.embedding_output_size,
                     self.config.num_key_value_heads * self.head_dim,
                     bias_attr=False,
                 )
 
         if config.tensor_parallel_degree > 1:
             self.o_proj = RowParallelLinear(
                 self.hidden_size,
-                self.hidden_size,
+                self.embedding_output_size,
                 has_bias=False,
                 input_is_parallel=True,
             )
         else:
             self.o_proj = nn.Linear(
                 self.hidden_size,
-                self.hidden_size,
+                self.embedding_output_size,
                 bias_attr=False,
             )
 
@@ -1078,6 +1083,7 @@ def __init__(self, config: LlamaConfig):
         super().__init__(config)
         self.vocab_size = config.vocab_size
         self.hidden_size = config.hidden_size
+        self.embedding_output_size = config.embedding_output_size
         self.sequence_parallel = config.sequence_parallel
         self.recompute_granularity = config.recompute_granularity
         self.no_recompute_layers = config.no_recompute_layers if config.no_recompute_layers is not None else []
@@ -1087,13 +1093,13 @@ def __init__(self, config: LlamaConfig):
         if config.tensor_parallel_degree > 1:
             self.embed_tokens = mpu.VocabParallelEmbedding(
                 self.vocab_size,
-                self.hidden_size,
+                self.embedding_output_size,
                 weight_attr=paddle.ParamAttr(initializer=nn.initializer.XavierNormal()),
             )
         else:
             self.embed_tokens = nn.Embedding(
                 self.vocab_size,
-                self.hidden_size,
+                self.embedding_output_size,
             )
 
         self.layers = nn.LayerList(
@@ -1115,12 +1121,10 @@ def _prepare_decoder_attention_mask(attention_mask, input_shape, past_key_values
             # [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]
             if len(attention_mask.shape) == 2:
                 expanded_attn_mask = _expand_2d_mask(attention_mask, dtype, tgt_length=input_shape[-1])
-                # For decoding phase in generation, seq_length = 1, we don't need to add causal mask
-                if input_shape[-1] > 1:
-                    combined_attention_mask = _make_causal_mask(
-                        input_shape, past_key_values_length=past_key_values_length
-                    )
-                    expanded_attn_mask = expanded_attn_mask & combined_attention_mask
+                # For decoding phase in generation, seq_length = 1, we don't need to add causal mask. for we run pretrain, temporarily delete if
+                # if input_shape[-1] > 1:
+                combined_attention_mask = _make_causal_mask(input_shape, past_key_values_length=past_key_values_length)
+                expanded_attn_mask = expanded_attn_mask & combined_attention_mask
             # [bsz, seq_len, seq_len] -> [bsz, 1, seq_len, seq_len]
             elif len(attention_mask.shape) == 3:
                 expanded_attn_mask = attention_mask.unsqueeze(1).astype("bool")
@@ -1359,7 +1363,7 @@ def __init__(self, config: LlamaConfig):
             vocab_size = config.vocab_size
 
         self.weight = self.create_parameter(
-            shape=[config.hidden_size, vocab_size],
+            shape=[config.embedding_output_size, vocab_size],
             dtype=paddle.get_default_dtype(),
         )
         # Must set distributed attr for Tensor Parallel !
diff --git a/paddlenlp/transformers/llama/tokenizer.py b/paddlenlp/transformers/llama/tokenizer.py
@@ -36,6 +36,7 @@ class LlamaTokenizer(PretrainedTokenizer):
         "vocab_file": {
             "__internal_testing__/micro-random-llama": "https://bj.bcebos.com/paddlenlp/models/transformers/llama/sentencepiece.bpe.model",
             "__internal_testing__/tiny-random-llama": "https://bj.bcebos.com/paddlenlp/models/transformers/llama/sentencepiece.bpe.model",
+            "__internal_testing__/distributed-projection-llama-7b": "https://bj.bcebos.com/paddlenlp/models/transformers/llama/sentencepiece.bpe.model",
             "facebook/llama-7b": "https://bj.bcebos.com/paddlenlp/models/transformers/llama/sentencepiece.bpe.model",
             "facebook/llama-13b": "https://bj.bcebos.com/paddlenlp/models/transformers/llama/sentencepiece.bpe.model",
             "facebook/llama-30b": "https://bj.bcebos.com/paddlenlp/models/transformers/llama/sentencepiece.bpe.model",
@@ -46,6 +47,7 @@ class LlamaTokenizer(PretrainedTokenizer):
     pretrained_init_configuration = {
         "__internal_testing__/micro-random-llama": {},
         "__internal_testing__/tiny-random-llama": {},
+        "__internal_testing__/distributed-projection-llama-7b": {},
         "facebook/llama-7b": {},
         "facebook/llama-13b": {},
         "facebook/llama-30b": {},
diff --git a/tests/test_tipc/benchmark/options.py b/tests/test_tipc/benchmark/options.py
@@ -32,6 +32,8 @@
     from .modules.stablediffusion import StableDiffusionBenchmark
 except Exception:
     StableDiffusionBenchmark = None
+from paddlenlp.trainer.argparser import strtobool
+
 from .modules.t5_for_conditional_generation import T5ForConditionalGenerationBenchmark
 from .modules.xlnet import XLNetBenchmark
 
@@ -156,6 +158,7 @@ def get_parser():
         help='The option of profiler, which should be in format "key1=value1;key2=value2;key3=value3".',
     )
     parser.add_argument("--save_model", type=str, default=None, help="Directory to save models. ")
+    parser.add_argument("--use_nsys", type=strtobool, default=False, help="Enable nsys.")
 
     return parser
 
diff --git a/tests/test_tipc/train.py b/tests/test_tipc/train.py