[GPT-3] fix gpt3 config (#7006)

DrownFish19 · web-flow · commit d9f1b7677372 · 2023-09-13T10:39:46.000+08:00
* fix gpt3 config

* update

* update

* update
diff --git a/paddlenlp/transformers/gpt/configuration.py b/paddlenlp/transformers/gpt/configuration.py
@@ -89,7 +89,7 @@
         "vocab_size": 50304,
         "hidden_size": 5120,
         "num_hidden_layers": 40,
-        "num_attention_heads": 128,
+        "num_attention_heads": 40,
         "intermediate_size": 20480,
         "hidden_act": "gelu",
         "hidden_dropout_prob": 0.1,
@@ -102,7 +102,7 @@
     },
     "gpt3-6.7B-en": {  # 6.7B
         "vocab_size": 50304,
-        "hidden_size": 1024,
+        "hidden_size": 4096,
         "num_hidden_layers": 32,
         "num_attention_heads": 32,
         "intermediate_size": 16384,
diff --git a/paddlenlp/transformers/gpt/tokenizer.py b/paddlenlp/transformers/gpt/tokenizer.py
@@ -35,7 +35,10 @@
 PRETRAINED_POSITIONAL_EMBEDDINGS_SIZES = {
     "gpt-cpm-large-cn": 1024,
     "gpt-cpm-small-cn-distill": 1024,
+    "gpt3-175B-en": 1024,
+    "gpt3-89B-en": 1024,
     "gpt3-13B-en": 1024,
+    "gpt3-6.7B-en": 1024,
     "gpt3-1.3B-en": 1024,
     "gpt2-xl-en": 1024,
     "gpt2-large-en": 1024,
@@ -344,6 +347,7 @@ class GPTTokenizer(PretrainedTokenizer):
             "gpt3-175B-en": gpt_vocab_link,
             "gpt3-89B-en": gpt_vocab_link,
             "gpt3-13B-en": gpt_vocab_link,
+            "gpt3-6.7B-en": gpt_vocab_link,
             "gpt3-1.3B-en": gpt_vocab_link,
             "gpt2-xl-en": gpt_vocab_link,
             "gpt2-large-en": gpt_vocab_link,
@@ -355,6 +359,7 @@ class GPTTokenizer(PretrainedTokenizer):
             "gpt3-175B-en": gpt_merges_link,
             "gpt3-89B-en": gpt_merges_link,
             "gpt3-13B-en": gpt_merges_link,
+            "gpt3-6.7B-en": gpt_merges_link,
             "gpt3-1.3B-en": gpt_merges_link,
             "gpt2-xl-en": gpt_merges_link,
             "gpt2-large-en": gpt_merges_link,
@@ -367,6 +372,7 @@ class GPTTokenizer(PretrainedTokenizer):
         "gpt3-175B-en": {},
         "gpt3-89B-en": {},
         "gpt3-13B-en": {},
+        "gpt3-6.7B-en": {},
         "gpt3-1.3B-en": {},
         "gpt2-xl-en": {},
         "gpt2-large-en": {},