Doc update (#1159)

huhuiwen99 · web-flow · commit 021faa67cd96 · 2021-10-13T21:17:03.000+08:00
* modify transforner-rst

* modify roformer tokenizer

* delete modifications

* add macbert

* first update

* add convbert and mpnet model

* update

* updat4e

* add model number
diff --git a/docs/model_zoo/transformers.rst b/docs/model_zoo/transformers.rst
@@ -9,8 +9,8 @@ PaddleNLP为用户提供了常用的 ``BERT``、``ERNIE``、``ALBERT``、``RoBER
 Transformer预训练模型汇总
 ------------------------------------
 
-下表汇总了介绍了目前PaddleNLP支持的各类预训练模型以及对应预训练权重。我们目前提供了 **83** 种预训练的参数权重供用户使用，
-其中包含了 **42** 种中文语言模型的预训练权重。
+下表汇总了介绍了目前PaddleNLP支持的各类预训练模型以及对应预训练权重。我们目前提供了**21**种网络结构， **91** 种预训练的参数权重供用户使用，
+其中包含了 **45** 种中文语言模型的预训练权重。
 
 +--------------------+-----------------------------------------+--------------+-----------------------------------------+
 | Model              | Pretrained Weight                       | Language     | Details of the model                    |
@@ -124,6 +124,16 @@ Transformer预训练模型汇总
 |                    |                                         |              | and Traditional text using              |
 |                    |                                         |              | Whole-Word-Masking with extented data.  |
 |                    +-----------------------------------------+--------------+-----------------------------------------+
+|                    |``macbert-base-chinese``                 | Chinese      | 12-layer, 768-hidden,                   |
+|                    |                                         |              | 12-heads, 102M parameters.              |
+|                    |                                         |              | Trained with novel MLM as correction    |
+|                    |                                         |              | pre-training task.                      |
+|                    +-----------------------------------------+--------------+-----------------------------------------+
+|                    |``macbert-large-chinese``                | Chinese      | 24-layer, 1024-hidden,                  |
+|                    |                                         |              | 16-heads, 326M parameters.              |
+|                    |                                         |              | Trained with novel MLM as correction    |
+|                    |                                         |              | pre-training task.                      |
+|                    +-----------------------------------------+--------------+-----------------------------------------+
 |                    |``simbert-base-chinese``                 | Chinese      | 12-layer, 768-hidden,                   |
 |                    |                                         |              | 12-heads, 108M parameters.              |
 |                    |                                         |              | Trained on 22 million pairs of similar  |
@@ -133,6 +143,18 @@ Transformer预训练模型汇总
 |                    |                                         |              | 12-heads, _M parameters.                |
 |                    |                                         |              | Trained on lower-cased English text.    |
 +--------------------+-----------------------------------------+--------------+-----------------------------------------+
+|ConvBert_           |``convbert-base``                        | English      | 12-layer, 768-hidden,                   |
+|                    |                                         |              | 12-heads, 106M parameters.              |
+|                    |                                         |              | The ConvBERT base model.                |
+|                    +-----------------------------------------+--------------+-----------------------------------------+
+|                    |``convbert-medium-small``                | English      | 12-layer, 384-hidden,                   |
+|                    |                                         |              | 8-heads, 17M parameters.                |
+|                    |                                         |              | The ConvBERT medium small model.        |
+|                    +-----------------------------------------+--------------+-----------------------------------------+
+|                    |``convbert-small``                       | English      | 12-layer, 128-hidden,                   |
+|                    |                                         |              | 4-heads, 13M parameters.                |
+|                    |                                         |              | The ConvBERT small model.               |
++--------------------+-----------------------------------------+--------------+-----------------------------------------+
 |DistilBert_         |``distilbert-base-uncased``              | English      | 6-layer, 768-hidden,                    |
 |                    |                                         |              | 12-heads, 66M parameters.               |
 |                    |                                         |              | The DistilBERT model distilled from     |
@@ -221,6 +243,10 @@ Transformer预训练模型汇总
 |                    |                                         |              | 16-heads, 345M parameters.              |
 |                    |                                         |              | Trained on English text.                |
 +--------------------+-----------------------------------------+--------------+-----------------------------------------+
+|MPNet_              |``mpnet-base``                           | English      | 12-layer, 768-hidden,                   |
+|                    |                                         |              | 12-heads, 109M parameters.              |
+|                    |                                         |              | MPNet Base Model.                       |
++--------------------+-----------------------------------------+--------------+-----------------------------------------+
 |NeZha_              |``nezha-base-chinese``                   | Chinese      | 12-layer, 768-hidden,                   |
 |                    |                                         |              | 12-heads, 108M parameters.              |
 |                    |                                         |              | Trained on Chinese text.                |
@@ -396,6 +422,8 @@ Transformer预训练模型适用任务汇总
 +--------------------+-------------------------+----------------------+--------------------+-----------------+
 |BigBird_            | ✅                      | ❌                   | ❌                 | ❌              |
 +--------------------+-------------------------+----------------------+--------------------+-----------------+
+|ConvBert_           | ✅                      | ✅                   | ✅                 | ✅              |
++--------------------+-------------------------+----------------------+--------------------+-----------------+
 |DistilBert_         | ✅                      | ✅                   | ✅                 | ❌              |
 +--------------------+-------------------------+----------------------+--------------------+-----------------+
 |ELECTRA_            | ✅                      | ✅                   | ❌                 | ❌              |
@@ -410,6 +438,8 @@ Transformer预训练模型适用任务汇总
 +--------------------+-------------------------+----------------------+--------------------+-----------------+
 |GPT_                | ❌                      | ❌                   | ❌                 | ✅              |
 +--------------------+-------------------------+----------------------+--------------------+-----------------+
+|MPNet_              | ✅                      | ✅                   | ✅                 | ❌              |
++--------------------+-------------------------+----------------------+--------------------+-----------------+
 |NeZha_              | ✅                      | ✅                   | ✅                 | ❌              |
 +--------------------+-------------------------+----------------------+--------------------+-----------------+
 |RoBERTa_            | ✅                      | ✅                   | ✅                 | ❌              |
@@ -429,13 +459,15 @@ Transformer预训练模型适用任务汇总
 .. _BART: https://arxiv.org/abs/1910.13461
 .. _BERT: https://arxiv.org/abs/1810.04805
 .. _BigBird: https://arxiv.org/abs/2007.14062
+.. _ConvBert: https://arxiv.org/abs/2008.02496
 .. _DistilBert: https://arxiv.org/abs/1910.01108
 .. _ELECTRA: https://arxiv.org/abs/2003.10555
 .. _ERNIE: https://arxiv.org/abs/1904.09223
 .. _ERNIE-DOC: https://arxiv.org/abs/2012.15688
 .. _ERNIE-GEN: https://arxiv.org/abs/2001.11314
 .. _ERNIE-GRAM: https://arxiv.org/abs/2010.12148
 .. _GPT: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
+.. _MPNet: https://arxiv.org/abs/2004.09297
 .. _NeZha: https://arxiv.org/abs/1909.00204
 .. _RoBERTa: https://arxiv.org/abs/1907.11692
 .. _RoFormer: https://arxiv.org/abs/2104.09864
@@ -512,19 +544,23 @@ Reference
   `huawei-noah/Pretrained-Language-Model/NEZHA-PyTorch/ <https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA-PyTorch>`_
   `ZhuiyiTechnology/simbert <https://github.com/ZhuiyiTechnology/simbert>`_
 - Lan, Zhenzhong, et al. "Albert: A lite bert for self-supervised learning of language representations." arXiv preprint arXiv:1909.11942 (2019).
+- Lewis, Mike, et al. "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension." arXiv preprint arXiv:1910.13461 (2019).
 - Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
 - Zaheer, Manzil, et al. "Big bird: Transformers for longer sequences." arXiv preprint arXiv:2007.14062 (2020).
+- Jiang, Zihang, et al. "ConvBERT: Improving BERT with Span-based Dynamic Convolution." arXiv preprint arXiv:2008.02496 (2020).
 - Sanh, Victor, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter." arXiv preprint arXiv:1910.01108 (2019).
 - Clark, Kevin, et al. "Electra: Pre-training text encoders as discriminators rather than generators." arXiv preprint arXiv:2003.10555 (2020).
 - Sun, Yu, et al. "Ernie: Enhanced representation through knowledge integration." arXiv preprint arXiv:1904.09223 (2019).
 - Xiao, Dongling, et al. "Ernie-gen: An enhanced multi-flow pre-training and fine-tuning framework for natural language generation." arXiv preprint arXiv:2001.11314 (2020).
 - Xiao, Dongling, et al. "ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding." arXiv preprint arXiv:2010.12148 (2020).
 - Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.
+- Song, Kaitao, et al. "MPNet: Masked and Permuted Pre-training for Language Understanding." arXiv preprint arXiv:2004.09297 (2020).
 - Wei, Junqiu, et al. "NEZHA: Neural contextualized representation for chinese language understanding." arXiv preprint arXiv:1909.00204 (2019).
 - Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
+- Su Jianlin, et al. "RoFormer: Enhanced Transformer with Rotary Position Embedding." arXiv preprint arXiv:2104.09864 (2021).
 - Tian, Hao, et al. "SKEP: Sentiment knowledge enhanced pre-training for sentiment analysis." arXiv preprint arXiv:2005.05635 (2020).
 - Vaswani, Ashish, et al. "Attention is all you need." arXiv preprint arXiv:1706.03762 (2017).
 - Jiao, Xiaoqi, et al. "Tinybert: Distilling bert for natural language understanding." arXiv preprint arXiv:1909.10351 (2019).
 - Bao, Siqi, et al. "Plato-2: Towards building an open-domain chatbot via curriculum learning." arXiv preprint arXiv:2006.16779 (2020).
 - Yang, Zhilin, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." arXiv preprint arXiv:1906.08237 (2019).
-- Cui, Yiming, et al. "Pre-training with whole word masking for chinese bert." arXiv preprint arXiv:1906.08101 (2019).
+- Cui, Yiming, et al. "Pre-training with whole word masking for chinese bert." arXiv preprint arXiv:1906.08101 (2019).
diff --git a/docs/source/paddlenlp.data.rst b/docs/source/paddlenlp.data.rst
@@ -11,7 +11,6 @@ paddlenlp.data
    :maxdepth: 4
 
    paddlenlp.data.collate
-   paddlenlp.data.iterator
    paddlenlp.data.sampler
    paddlenlp.data.tokenizer
    paddlenlp.data.vocab
diff --git a/docs/source/paddlenlp.embeddings.rst b/docs/source/paddlenlp.embeddings.rst
@@ -10,5 +10,4 @@ paddlenlp.embeddings
 .. toctree::
    :maxdepth: 4
 
-   paddlenlp.embeddings.constant
    paddlenlp.embeddings.token_embedding
diff --git a/docs/source/paddlenlp.metrics.rst b/docs/source/paddlenlp.metrics.rst
@@ -17,5 +17,6 @@ paddlenlp.metrics
    paddlenlp.metrics.glue
    paddlenlp.metrics.perplexity
    paddlenlp.metrics.rouge
+   paddlenlp.metrics.sighan
    paddlenlp.metrics.squad
    paddlenlp.metrics.utils
diff --git a/docs/source/paddlenlp.metrics.sighan.rst b/docs/source/paddlenlp.metrics.sighan.rst
@@ -0,0 +1,7 @@
+sighan
+===============================
+
+.. automodule:: paddlenlp.metrics.sighan
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.ops.faster_transformer.transformer.encoder.rst b/docs/source/paddlenlp.ops.faster_transformer.transformer.encoder.rst
@@ -0,0 +1,7 @@
+encoder
+============================================================
+
+.. automodule:: paddlenlp.ops.faster_transformer.transformer.encoder
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.ops.faster_transformer.transformer.rst b/docs/source/paddlenlp.ops.faster_transformer.transformer.rst
@@ -12,4 +12,5 @@ transformer
 
    paddlenlp.ops.faster_transformer.transformer.decoder
    paddlenlp.ops.faster_transformer.transformer.decoding
+   paddlenlp.ops.faster_transformer.transformer.encoder
    paddlenlp.ops.faster_transformer.transformer.faster_transformer
diff --git a/docs/source/paddlenlp.ops.optimizer.rst b/docs/source/paddlenlp.ops.optimizer.rst
@@ -10,6 +10,4 @@ optimizer
 .. toctree::
    :maxdepth: 4
 
-   paddlenlp.ops.optimizer.AdamwOptimizer
-   paddlenlp.ops.optimizer.adamw
    paddlenlp.ops.optimizer.adamwdl
diff --git a/docs/source/paddlenlp.taskflow.dependency_parsing.rst b/docs/source/paddlenlp.taskflow.dependency_parsing.rst
@@ -0,0 +1,7 @@
+dependency\_parsing
+=============================================
+
+.. automodule:: paddlenlp.taskflow.dependency_parsing
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.taskflow.knowledge_mining.rst b/docs/source/paddlenlp.taskflow.knowledge_mining.rst
@@ -0,0 +1,7 @@
+knowledge\_mining
+===========================================
+
+.. automodule:: paddlenlp.taskflow.knowledge_mining
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.taskflow.lexical_analysis.rst b/docs/source/paddlenlp.taskflow.lexical_analysis.rst
@@ -0,0 +1,7 @@
+lexical\_analysis
+===========================================
+
+.. automodule:: paddlenlp.taskflow.lexical_analysis
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.taskflow.models.dependency_parsing_model.rst b/docs/source/paddlenlp.taskflow.models.dependency_parsing_model.rst
@@ -0,0 +1,6 @@
+dependency\_parsing\_model
+===========================================================
+
+.. automodule:: paddlenlp.taskflow.models.dependency_parsing_model
+   :members:
+   :no-undoc-members:
diff --git a/docs/source/paddlenlp.taskflow.models.lexical_analysis_model.rst b/docs/source/paddlenlp.taskflow.models.lexical_analysis_model.rst
@@ -0,0 +1,6 @@
+lexical\_analysis\_model
+=========================================================
+
+.. automodule:: paddlenlp.taskflow.models.lexical_analysis_model
+   :members:
+   :no-undoc-members:
diff --git a/docs/source/paddlenlp.taskflow.models.rst b/docs/source/paddlenlp.taskflow.models.rst
@@ -0,0 +1,15 @@
+models
+=================================
+
+.. automodule:: paddlenlp.taskflow.models
+   :members:
+   :no-undoc-members:
+
+
+.. toctree::
+   :maxdepth: 4
+
+   paddlenlp.taskflow.models.dependency_parsing_model
+   paddlenlp.taskflow.models.lexical_analysis_model
+   paddlenlp.taskflow.models.sentiment_analysis_model
+   paddlenlp.taskflow.models.text_correction_model
diff --git a/docs/source/paddlenlp.taskflow.models.sentiment_analysis_model.rst b/docs/source/paddlenlp.taskflow.models.sentiment_analysis_model.rst
@@ -0,0 +1,6 @@
+sentiment\_analysis\_model
+===========================================================
+
+.. automodule:: paddlenlp.taskflow.models.sentiment_analysis_model
+   :members:
+   :no-undoc-members:
diff --git a/docs/source/paddlenlp.taskflow.models.text_correction_model.rst b/docs/source/paddlenlp.taskflow.models.text_correction_model.rst
@@ -0,0 +1,6 @@
+text\_correction\_model
+========================================================
+
+.. automodule:: paddlenlp.taskflow.models.text_correction_model
+   :members:
+   :no-undoc-members:
diff --git a/docs/source/paddlenlp.taskflow.named_entity_recognition.rst b/docs/source/paddlenlp.taskflow.named_entity_recognition.rst
@@ -0,0 +1,7 @@
+named\_entity\_recognition
+====================================================
+
+.. automodule:: paddlenlp.taskflow.named_entity_recognition
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.taskflow.poetry_generation.rst b/docs/source/paddlenlp.taskflow.poetry_generation.rst
@@ -0,0 +1,7 @@
+poetry\_generation
+============================================
+
+.. automodule:: paddlenlp.taskflow.poetry_generation
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.taskflow.pos_tagging.rst b/docs/source/paddlenlp.taskflow.pos_tagging.rst
@@ -0,0 +1,7 @@
+pos\_tagging
+======================================
+
+.. automodule:: paddlenlp.taskflow.pos_tagging
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.taskflow.question_answering.rst b/docs/source/paddlenlp.taskflow.question_answering.rst
@@ -0,0 +1,7 @@
+question\_answering
+=============================================
+
+.. automodule:: paddlenlp.taskflow.question_answering
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.taskflow.rst b/docs/source/paddlenlp.taskflow.rst
@@ -10,9 +10,23 @@ paddlenlp.taskflow
 .. toctree::
    :maxdepth: 4
 
-   paddlenlp.taskflow.model
+   paddlenlp.taskflow.models
+
+
+.. toctree::
+   :maxdepth: 4
+
+   paddlenlp.taskflow.dependency_parsing
+   paddlenlp.taskflow.knowledge_mining
+   paddlenlp.taskflow.lexical_analysis
+   paddlenlp.taskflow.named_entity_recognition
+   paddlenlp.taskflow.poetry_generation
+   paddlenlp.taskflow.pos_tagging
+   paddlenlp.taskflow.question_answering
    paddlenlp.taskflow.sentiment_analysis
    paddlenlp.taskflow.task
    paddlenlp.taskflow.taskflow
-   paddlenlp.taskflow.text2knowledge
+   paddlenlp.taskflow.text_correction
+   paddlenlp.taskflow.text_generation
    paddlenlp.taskflow.utils
+   paddlenlp.taskflow.word_segmentation
diff --git a/docs/source/paddlenlp.taskflow.text_correction.rst b/docs/source/paddlenlp.taskflow.text_correction.rst
@@ -0,0 +1,7 @@
+text\_correction
+==========================================
+
+.. automodule:: paddlenlp.taskflow.text_correction
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.taskflow.text_generation.rst b/docs/source/paddlenlp.taskflow.text_generation.rst
@@ -0,0 +1,7 @@
+text\_generation
+==========================================
+
+.. automodule:: paddlenlp.taskflow.text_generation
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.taskflow.word_segmentation.rst b/docs/source/paddlenlp.taskflow.word_segmentation.rst
@@ -0,0 +1,7 @@
+word\_segmentation
+============================================
+
+.. automodule:: paddlenlp.taskflow.word_segmentation
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.transformers.convbert.modeling.rst b/docs/source/paddlenlp.transformers.convbert.modeling.rst
@@ -0,0 +1,7 @@
+modeling
+===============================================
+
+.. automodule:: paddlenlp.transformers.convbert.modeling
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.transformers.convbert.rst b/docs/source/paddlenlp.transformers.convbert.rst
@@ -0,0 +1,14 @@
+convbert
+=======================================
+
+.. automodule:: paddlenlp.transformers.convbert
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
+
+
+.. toctree::
+   :maxdepth: 4
+
+   paddlenlp.transformers.convbert.modeling
+   paddlenlp.transformers.convbert.tokenizer
diff --git a/docs/source/paddlenlp.transformers.convbert.tokenizer.rst b/docs/source/paddlenlp.transformers.convbert.tokenizer.rst
@@ -0,0 +1,7 @@
+tokenizer
+================================================
+
+.. automodule:: paddlenlp.transformers.convbert.tokenizer
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.transformers.mpnet.modeling.rst b/docs/source/paddlenlp.transformers.mpnet.modeling.rst
@@ -0,0 +1,7 @@
+modeling
+============================================
+
+.. automodule:: paddlenlp.transformers.mpnet.modeling
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.transformers.mpnet.rst b/docs/source/paddlenlp.transformers.mpnet.rst
@@ -0,0 +1,14 @@
+mpnet
+====================================
+
+.. automodule:: paddlenlp.transformers.mpnet
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
+
+
+.. toctree::
+   :maxdepth: 4
+
+   paddlenlp.transformers.mpnet.modeling
+   paddlenlp.transformers.mpnet.tokenizer
diff --git a/docs/source/paddlenlp.transformers.mpnet.tokenizer.rst b/docs/source/paddlenlp.transformers.mpnet.tokenizer.rst
@@ -0,0 +1,7 @@
+tokenizer
+=============================================
+
+.. automodule:: paddlenlp.transformers.mpnet.tokenizer
+   :members:
+   :no-undoc-members:
+   :show-inheritance:
diff --git a/docs/source/paddlenlp.transformers.rst b/docs/source/paddlenlp.transformers.rst
@@ -14,6 +14,7 @@ paddlenlp.transformers
    paddlenlp.transformers.bart
    paddlenlp.transformers.bert
    paddlenlp.transformers.bigbird
+   paddlenlp.transformers.convbert
    paddlenlp.transformers.distilbert
    paddlenlp.transformers.electra
    paddlenlp.transformers.ernie
@@ -22,6 +23,7 @@ paddlenlp.transformers
    paddlenlp.transformers.ernie_gen
    paddlenlp.transformers.ernie_gram
    paddlenlp.transformers.gpt
+   paddlenlp.transformers.mpnet
    paddlenlp.transformers.nezha
    paddlenlp.transformers.roberta
    paddlenlp.transformers.roformer