Merge pull request #368 from yinhaofeng/readthedocs

fuyinno4 · web-flow · commit ea6532b1de5e · 2021-02-01T21:41:31.000+08:00
Readthedocs
diff --git a/README.md b/README.md
@@ -58,7 +58,7 @@
     |   排序   |                      [NFM](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/rank/nfm/)                      |    ✓    |    x    |     ✓     |     x     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [SIGIR 2017][Neural Factorization Machines for Sparse Predictive Analytics](https://dl.acm.org/doi/pdf/10.1145/3077136.3080777)                                                                             |
     |   排序   |                      [AFM](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/rank/afm/)                      |    ✓    |    x    |     ✓     |     x     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [IJCAI 2017][Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks](https://arxiv.org/pdf/1708.04617.pdf)                                                  |
     |   排序   |                   [DeepFM](models/rank/deepfm/)                   |    ✓    |    x    |     ✓     |     x     | 2.0 | [IJCAI 2017][DeepFM: A Factorization-Machine based Neural Network for CTR Prediction](https://arxiv.org/pdf/1703.04247.pdf)                                                                                 |
-    |   排序   |                  [xDeepFM](models/rank/xdeepfm/)                  |    ✓    |    x    |     ✓     |     x     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [KDD 2018][xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems](https://dl.acm.org/doi/pdf/10.1145/3219819.3220023)                                                       |
+    |   排序   |                  [xDeepFM](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/rank/xdeepfm)                  |    ✓    |    x    |     ✓     |     x     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [KDD 2018][xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems](https://dl.acm.org/doi/pdf/10.1145/3219819.3220023)                                                       |
     |   排序   |                      [DIN](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/rank/din/)                      |    ✓    |    x    |     ✓     |     x     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [KDD 2018][Deep Interest Network for Click-Through Rate Prediction](https://dl.acm.org/doi/pdf/10.1145/3219819.3219823)                                                                                     |
     |   排序   |                     [DIEN](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/rank/dien/)                     |    ✓    |    x    |     ✓     |     x     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [AAAI 2019][Deep Interest Evolution Network for Click-Through Rate Prediction](https://www.aaai.org/ojs/index.php/AAAI/article/view/4545/4423)                                                              |
     |   排序   |                      [BST](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/rank/BST/)                      |    ✓    |    x    |     ✓     |     x     |  [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [DLP_KDD 2019][Behavior Sequence Transformer for E-commerce Recommendation in Alibaba](https://arxiv.org/pdf/1905.06874v1.pdf)                                                                              |
@@ -67,7 +67,7 @@
     |   排序   |                    [FGCNN](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/rank/fgcnn/)                    |    ✓    |    ✓    |     ✓     |     ✓     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [WWW 2019][Feature Generation by Convolutional Neural Network for Click-Through Rate Prediction](https://arxiv.org/pdf/1904.04447.pdf)                                                                      |
     |   排序   |                  [Fibinet](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/rank/fibinet/)                  |    ✓    |    ✓    |     ✓     |     ✓     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [RecSys19][FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction]( https://arxiv.org/pdf/1905.09433.pdf)                                                 |
     |   排序   |                     [Flen](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/rank/flen/)                     |    ✓    |    ✓    |     ✓     |     ✓     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [2019][FLEN: Leveraging Field for Scalable CTR Prediction]( https://arxiv.org/pdf/1911.04690.pdf)                                                                                                           |
-    |  多任务  |                  [PLE](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/multitask/ple/)                   |    ✓    |    ✓    |     ✓     |     ✓     |  [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [RecSys 2020][Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations](https://dl.acm.org/doi/abs/10.1145/3383313.3412236)                                                              |
+    |  多任务  |                  PLE                   |    ✓    |    ✓    |     ✓     |     ✓     |  1.8.5 | [RecSys 2020][Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations](https://dl.acm.org/doi/abs/10.1145/3383313.3412236)                                                              |
     |  多任务  |                  [ESMM](models/multitask/esmm/)                   |    ✓    |    ✓    |     ✓     |     ✓     | 2.0 | [SIGIR 2018][Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate](https://arxiv.org/abs/1804.07931)                                                              |
     |  多任务  |                  [MMOE](models/multitask/mmoe/)                   |    ✓    |    ✓    |     ✓     |     ✓     | 2.0 | [KDD 2018][Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts](https://dl.acm.org/doi/abs/10.1145/3219819.3220007)                                                       |
     |  多任务  |           [ShareBottom](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5/models/multitask/share-bottom/)           |    ✓    |    ✓    |     ✓     |     ✓     | [1.8.5](https://github.com/PaddlePaddle/PaddleRec/tree/release/1.8.5) | [1998][Multitask learning](http://reports-archive.adm.cs.cmu.edu/anon/1997/CMU-CS-97-203.pdf)                                                                                                               |
diff --git a/datasets/readme.md b/datasets/readme.md
@@ -17,12 +17,11 @@ sh data_process.sh
  |                    数据集名称                    |                                           简介                                           |                 Reference                 |
  | :----------------------------------------------: | :------------------------------------------------------------------------------------------: | :-------------------------------: |
  |[ag_news](https://paddle-tagspace.bj.bcebos.com/data.tar)|496835 条来自AG新闻语料库 4 大类别超过 2000 个新闻源的新闻文章，数据集仅仅援用了标题和描述字段。每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。| [ComeToMyHead](http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html)|
- |[Ali-CCP：Alibaba Click and Conversion Prediction](  https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408  )|从淘宝推荐系统的真实流量日志中收集的数据集。|[SIGIR(2018)]( https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408)|
+ |[Ali-CCP：Alibaba Click and Conversion Prediction](https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408)|从淘宝推荐系统的真实流量日志中收集的数据集。|[SIGIR(2018)]( https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408)|
  |[BQ](https://paddlerec.bj.bcebos.com/dssm%2Fbq.tar.gz)|BQ是一个智能客服中文问句匹配数据集，该数据集是自动问答系统语料，共有120,000对句子对，并标注了句子对相似度值。数据中存在错别字、语法不规范等问题，但更加贴近工业场景|--|
  |[Census-income Data](https://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/census.tar.gz )|此数据集包含从1994年和1995年美国人口普查局进行的当前人口调查中提取的加权人口普查数据。数据包含人口统计和就业相关变量。|[Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid](http://robotics.stanford.edu/~ronnyk/nbtree.pdf)|
  |[Criteo](https://fleet.bj.bcebos.com/ctr_data.tar.gz)|该数据集包括两部分：训练集和测试集。训练集包含一段时间内Criteo的部分流量，测试集则对应训练数据后一天的广告点击流量。|[kaggle](https://www.kaggle.com/c/criteo-display-ad-challenge/)|
  |[letor07](https://paddlerec.bj.bcebos.com/match_pyramid/match_pyramid_data.tar.gz)|LETOR是一套用于学习排名研究的基准数据集，其中包含标准特征、相关性判断、数据划分、评估工具和若干基线|[LETOR: Learning to Rank for Information Retrieval](https://www.microsoft.com/en-us/research/project/letor-learning-rank-information-retrieval/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fum%2Fbeijing%2Fprojects%2Fletor%2F)|
  |[senti_clas](https://baidu-nlp.bj.bcebos.com/sentiment_classification-dataset-1.0.0.tar.gz)|情感倾向分析（Sentiment Classification，简称Senta）针对带有主观描述的中文文本，可自动判断该文本的情感极性类别并给出相应的置信度。情感类型分为积极、消极。情感倾向分析能够帮助企业理解用户消费习惯、分析热点话题和危机舆情监控，为企业提供有利的决策支持|--|
  |[one_billion](http://www.statmt.org/lm-benchmark/)|拥有十亿个单词基准，为语言建模实验提供标准的训练和测试|[One Billion Word Benchmark for Measuring Progress in Statistical Language Modeling](https://arxiv.org/abs/1312.3005)|
- |[MIND](https://paddlerec.bj.bcebos.com/datasets/MIND/bigdata.zip)|MIND即MIcrosoft News Dataset的简写，MIND里的数据来自Microsoft News用户的行为日志。
-MIND的数据集里包含了1,000,000的用户以及这些用户与160,000的文章的交互行为。|[Microsoft(2020)](https://msnews.github.io)|
+ |[MIND](https://paddlerec.bj.bcebos.com/datasets/MIND/bigdata.zip)|MIND即MIcrosoft News Dataset的简写，MIND里的数据来自Microsoft News用户的行为日志。MIND的数据集里包含了1,000,000的用户以及这些用户与160,000的文章的交互行为。|[Microsoft(2020)](https://msnews.github.io)|
diff --git a/doc/benchmark.md b/doc/benchmark.md
@@ -2,12 +2,8 @@
 
 `PaddleRec`中各模型在各种模式下的效果及性能数据将随版本迭代不断更新，欢迎持续关注并监督，如有任何问题，欢迎在[Github Issue](https://github.com/PaddlePaddle/PaddleRec/issues)提出。
 
-## [召回模型介绍及Benchmark](../models/recall/readme.md)
+## [Benchmark CtrDnn](https://github.com/PaddlePaddle/Perf/tree/master/CtrDnn)
 
-## [排序模型介绍及Benchmark](../models/rank/readme.md)
+## [Benchmark Wide&Deep](https://github.com/PaddlePaddle/Perf/tree/master/WideDeep)
 
-## [内容理解模型介绍及Benchmark](../models/contentunderstanding/readme.md)
-
-## [多任务模型介绍及Benchmark](../models/multitask/readme.md)
-
-## [树模型介绍及Benchamrk](../models/treebased/README.md)
+## [Benchmark Word2Vec](https://github.com/PaddlePaddle/Perf/tree/master/Word2Vec)
diff --git a/doc/fleet_mode.md b/doc/fleet_mode.md
@@ -36,4 +36,8 @@ fleetrun --worker_num=1 --server_num=1 tools/static_ps_trainer.py -m models/rank
 
 ```shell
 fleetrun --workers="ip1:port1,ip2:port2...ipN:portN" --servers="ip1:port1,ip2:port2...ipN:portN" tools/static_ps_trainer.py -m models/rank/dnn/config.yaml
-```
+```
+
+## 常用数据集
+这是PaddleRec的数据集的的存储库。您可以在这里方便的一键下载我们处理完成的数据集，也可以使用PaddleRec轻松测试这些数据集上不同推荐模型的性能。  
+[推荐系统数据集](https://github.com/PaddlePaddle/PaddleRec/blob/master/datasets/readme.md)
diff --git a/doc/ps_background.md b/doc/ps_background.md
@@ -1,7 +1,7 @@
-## [分布式训练概述](https://www.paddlepaddle.org.cn/tutorials/projectdetail/511818)
+## [分布式训练概述](https://fleet-x.readthedocs.io/en/latest/paddle_fleet_rst/distributed_introduction.html)
 
 
-## [多机多卡训练](https://www.paddlepaddle.org.cn/tutorials/projectdetail/479613)
+## [多机多卡训练](https://fleet-x.readthedocs.io/en/latest/paddle_fleet_rst/collective/collective_quick_start.html)
 
 
-## [参数服务器训练](https://www.paddlepaddle.org.cn/tutorials/projectdetail/487871)
+## [参数服务器训练](https://fleet-x.readthedocs.io/en/latest/paddle_fleet_rst/parameter_server/ps_quick_start.html)
diff --git a/doc/source/index.rst b/doc/source/index.rst
@@ -41,6 +41,14 @@
    paddlerec/yaml.md
    paddlerec/benchmark.md
 
+.. toctree::
+   :maxdepth: 1
+   :numbered:
+   :caption: 模型介绍
+   :name: Model introduction
+
+   paddlerec/model_introduce.md
+   
 .. toctree::
    :maxdepth: 1
    :numbered:
diff --git a/doc/source/paddlerec/benchmark.md b/doc/source/paddlerec/benchmark.md
@@ -2,12 +2,8 @@
 
 `PaddleRec`中各模型在各种模式下的效果及性能数据将随版本迭代不断更新，欢迎持续关注并监督，如有任何问题，欢迎在[Github Issue](https://github.com/PaddlePaddle/PaddleRec/issues)提出。
 
-## [召回模型介绍及Benchmark](../models/recall/readme.md)
+## [Benchmark CtrDnn](https://github.com/PaddlePaddle/Perf/tree/master/CtrDnn)
 
-## [排序模型介绍及Benchmark](../models/rank/readme.md)
+## [Benchmark Wide&Deep](https://github.com/PaddlePaddle/Perf/tree/master/WideDeep)
 
-## [内容理解模型介绍及Benchmark](../models/contentunderstanding/readme.md)
-
-## [多任务模型介绍及Benchmark](../models/multitask/readme.md)
-
-## [树模型介绍及Benchamrk](../models/treebased/README.md)
+## [Benchmark Word2Vec](https://github.com/PaddlePaddle/Perf/tree/master/Word2Vec)
diff --git a/doc/source/paddlerec/fleet_mode.md b/doc/source/paddlerec/fleet_mode.md
@@ -37,3 +37,7 @@ fleetrun --worker_num=1 --server_num=1 tools/static_ps_trainer.py -m models/rank
 ```shell
 fleetrun --workers="ip1:port1,ip2:port2...ipN:portN" --servers="ip1:port1,ip2:port2...ipN:portN" tools/static_ps_trainer.py -m models/rank/dnn/config.yaml
 ```
+
+## 常用数据集
+这是PaddleRec的数据集的的存储库。您可以在这里方便的一键下载我们处理完成的数据集，也可以使用PaddleRec轻松测试这些数据集上不同推荐模型的性能。  
+[推荐系统数据集](https://github.com/PaddlePaddle/PaddleRec/blob/master/datasets/readme.md)
diff --git a/doc/source/paddlerec/model_introduce.md b/doc/source/paddlerec/model_introduce.md
@@ -0,0 +1,26 @@
+## [内容理解模型库](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/contentunderstanding)
+### [tagspace文本分类模型](https://github.com/PaddlePaddle/PaddleRec/tree/master/models/contentunderstanding/tagspace)
+### [textcnn文本分类模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/contentunderstanding/textcnn)
+
+## [匹配模型库](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/match)
+### [DSSM文本匹配模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/match/dssm)
+### [match-pyramid文本匹配模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/match/match-pyramid)
+### [multiview-simnet文本匹配模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/match/multiview-simnet)
+
+## [召回模型库](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/recall)
+### [word2vec模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/recall/word2vec)
+
+## [排序模型库](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/rank)
+### [dnn模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/rank/dnn)
+### [FM模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/rank/fm)
+### [deepfm模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/rank/deepfm)
+### [logistic_regression模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/rank/logistic_regression)
+### [wide&deep模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/rank/wide_deep)
+### [gatednn模型](https://github.com/PaddlePaddle/PaddleRec/tree/master/models/rank/gateDnn)
+### [naml模型](https://github.com/PaddlePaddle/PaddleRec/tree/master/models/rank/naml)
+
+## [多任务学习模型库](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/multitask)
+### [MMOE模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/multitask/mmoe)
+### [ESMM模型](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/multitask/esmm)
+
+## [重排序模型库](https://github.com/PaddlePaddle/PaddleRec/blob/master/models/rerank)
diff --git a/doc/source/paddlerec/ps_background.md b/doc/source/paddlerec/ps_background.md
@@ -1,9 +1,9 @@
-# 分布式深度学习介绍
+## 分布式学习介绍
 
-## [分布式训练概述](https://www.paddlepaddle.org.cn/tutorials/projectdetail/511818)
+## [分布式训练概述](https://fleet-x.readthedocs.io/en/latest/paddle_fleet_rst/distributed_introduction.html)
 
 
-## [多机多卡训练](https://www.paddlepaddle.org.cn/tutorials/projectdetail/479613)
+## [多机多卡训练](https://fleet-x.readthedocs.io/en/latest/paddle_fleet_rst/collective/collective_quick_start.html)
 
 
-## [参数服务器训练](https://www.paddlepaddle.org.cn/tutorials/projectdetail/487871)
+## [参数服务器训练](https://fleet-x.readthedocs.io/en/latest/paddle_fleet_rst/parameter_server/ps_quick_start.html)
diff --git a/models/rank/readme.md b/models/rank/readme.md
@@ -1,7 +1,7 @@
 # 排序模型库
 
 ## 简介
-我们提供了常见的排序任务中使用的模型算法的PaddleRec实现, 包括动态图和静态图的单机训练&预测效果指标。实现的排序模型包括 [logistic regression](logistic_regression)、[多层神经网络](dnn)、[FM](fm)、[gatednn](gatednn)、[DeepFM](deepfm)、[Wide&Deep](wide_deep)、[naml](naml)。
+我们提供了常见的排序任务中使用的模型算法的PaddleRec实现, 包括动态图和静态图的单机训练&预测效果指标。实现的排序模型包括 [logistic regression](logistic_regression)、[多层神经网络](dnn)、[FM](fm)、[gateDnn](gateDnn)、[DeepFM](deepfm)、[Wide&Deep](wide_deep)、[naml](naml)。
 
 模型算法库在持续添加中，欢迎关注。
 
diff --git a/models/recall/readme.md b/models/recall/readme.md
@@ -27,6 +27,8 @@
 <img align="center" src="../../doc/imgs/word2vec.png">
 <p>
 
+## 使用教程
+
 ### 快速开始
 ```bash
 # 进入模型目录
@@ -47,3 +49,7 @@ python -u ../../../tools/static_infer.py -m config.yaml
 |       数据集        |       模型       |       acc        |
 | :------------------: | :--------------------: | :---------: |
 |       1 Billion Word Language Model Benchmark     |       Word2Vec       |       0.579         |
+
+### 效果复现
+您需要进入PaddleRec/datasets目录下的对应数据集中运行脚本获取全量数据集，然后在模型目录下使用全量数据的参数运行。  
+每个模型下的readme中都有详细的效果复现的教程，您可以进入模型的目录中详细查看。 
diff --git a/models/rerank/readme.md b/models/rerank/readme.md