PaddlePaddle
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 1 deletion b/‎.gitignore‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎README_CN.md‎
Lines changed: 3 additions & 1 deletion b/‎README_CN.md‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎README_EN.md‎
Lines changed: 12 additions & 10 deletions b/‎README_EN.md‎
Lines changed: 12 additions & 10 deletions
diff --git a/‎doc/source/index.rst‎
Lines changed: 6 additions & 0 deletions b/‎doc/source/index.rst‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎doc/source/models/rank/autofis.md‎
Lines changed: 65 additions & 0 deletions b/‎doc/source/models/rank/autofis.md‎
Lines changed: 65 additions & 0 deletions
diff --git a/‎doc/source/models/rank/bert4rec.md‎
Lines changed: 82 additions & 0 deletions b/‎doc/source/models/rank/bert4rec.md‎
Lines changed: 82 additions & 0 deletions
diff --git a/‎doc/source/models/rank/deeprec.md‎
Lines changed: 80 additions & 0 deletions b/‎doc/source/models/rank/deeprec.md‎
Lines changed: 80 additions & 0 deletions
@@ -4,4 +4,5 @@ output
 paddlerec.egg-info/
 *~
 *.pyc
-*.DS_Store
+*.DS_Store
+kernel_meta/
@@ -30,7 +30,7 @@
 
 - 源于飞桨生态的搜索推荐模型 **一站式开箱即用工具** 
 - 适合初学者，开发者，研究者的推荐系统全流程解决方案
-- 包含内容理解、匹配、召回、排序、 多任务、重排序等多个任务的完整推荐搜索算法库
+- 包含内容理解、匹配、召回、排序、 多任务、重排序等多个任务的完整推荐搜索算法库。[支持模型列表](#支持模型列表)
 
 <h2 align="center">快速使用</h2>
 
@@ -107,6 +107,8 @@ python -u tools/static_trainer.py -m models/rank/dnn/config.yaml #  静态图训
 ### 致谢
 * [外部开发者贡献列表](contributor.md)
 
+### 支持模型列表
+
 <h2 align="center">支持模型列表</h2>
 
 
 
@@ -25,7 +25,7 @@
 
 - A quick start tool of search & recommendation algorithm based on [PaddlePaddle](https://www.paddlepaddle.org.cn/documentation/docs/en/beginners_guide/index_en.html)
 - A complete solution of recommendation system for beginners, developers and researchers.
-- Recommendation algorithm library including content-understanding, match, recall, rank, multi-task, re-rank etc.
+- Recommendation algorithm library including content-understanding, match, recall, rank, multi-task, re-rank etc.[Support model list](#Support_Model_List)
 
 <h2 align="center">Getting Started</h2>
 
@@ -73,31 +73,33 @@ python -u tools/static_trainer.py -m models/rank/dnn/config.yaml #  Training wit
 
 ### Background
 * [Recommendation System](doc/rec_background.md)
-* [Distributed deep learning](doc/ps_background.md)
+* [Distributed deep Learning](doc/ps_background.md)
 
-### Introductory tutorial
-* [PaddleRec function introduction](doc/introduction.md)
+### Introductory Tutorial
+* [PaddleRec Function Introduction](doc/introduction.md)
 * [Dygraph Train](doc/dygraph_mode.md)
 * [Static Train](doc/static_mode.md)
 * [Distributed Train](doc/fleet_mode.md)
 
 
-### Advanced tutorial
+### Advanced Tutorial
+* [Submit Specification](doc/contribute.md)
 * [Custom Reader](doc/custom_reader.md)
 * [Custom Model](doc/model_develop.md)
-* [Configuration description of yaml](doc/yaml.md)
-* [Training visualization](doc/visualization.md)
+* [Configuration Description of Yaml](doc/yaml.md)
+* [Training Visualization](doc/visualization.md)
 * [Serving](doc/serving.md)
-* [Python inference](doc/inference.md)
+* [Python Inference](doc/inference.md)
 * [Benchmark](doc/benchmark.md)
 
 ### FAQ
 * [Common Problem FAQ](doc/faq.md)
 
 ### Acknowledgements
-* [Contributions from external developer](contributor.md)
+* [Contributions From External Developer](contributor.md)
 
-<h2 align="center">Support model list</h2>
+#### Support_Model_List
+<h2 align="center">Support Model List</h2>
 
 
   |         Type          |                                 Algorithm                                 | Online Environment | Parameter-Server | Multi-GPU | version | Paper                                                                                                                                                                                                       |
 
@@ -62,6 +62,8 @@
    models/recall/mind.md
    models/recall/ncf.md
    models/recall/word2vec.md
+   models/recall/ensfm.md
+   models/recall/tisas.md
    models/rank/bst.md
    models/rank/dcn.md
    models/rank/deepfefm.md
@@ -79,6 +81,10 @@
    models/rank/naml.md
    models/rank/wide_deep.md
    models/rank/xdeepfm.md
+   models/rank/bert4rec.md
+   models/rank/fat_deepffm.md
+   models/rank/deeprec.md
+   models/rank/autofis.md
    models/multitask/esmm.md
    models/multitask/maml.md
    models/multitask/mmoe.md
 
@@ -0,0 +1,65 @@
+# AutoFIS (Automatic Feature Interaction Selection in Factorization Models)
+
+代码请参考：[AutoFIS](https://github.com/PaddlePaddle/PaddleRec/tree/master/models/rank/autofis)  
+如果我们的代码对您有用，还请点个star啊~  
+
+## 内容
+
+- [模型简介](#模型简介)
+- [数据准备](#数据准备)
+- [运行环境](#运行环境)
+- [快速开始](#快速开始)
+- [效果复现](#效果复现)
+- [进阶使用](#进阶使用)
+- [FAQ](#FAQ)
+
+## 模型简介
+Automatic Feature Interaction Selection in Factorization Models（点击率预测问题下因子分解机模型的自动特征交互选择模）是华为在2020kdd上提出了新的CTR预估方法。论文指出，很多CTR预估算法都需要进行特征组合，但是传统的特征组合方式都是简单的暴力组合或者人工选择，人工选择的方式依赖于先验知识，而简单的暴力组合其实对模型的性能的提升并不是总有益的，有些组合方式其实对模型的性能提升并没有多少的帮助，甚至会损害模型的性能，而且大量无效的特征组合会形成很多的参数，降低内存的利用率。根据AutoML技术，提出AutoFIS，顾名思义，就是自动去找最佳的特征组合。
+
+## 数据准备
+
+数据为[Criteo](http://labs.criteo.com/downloads/download-terabyte-click-log)，选择了第6-12天的数据作为训练集，低13天的数据测试集。正负样本采用后的比例约为1:1
+在模型目录的data目录下为您准备了快速运行的示例数据，若需要使用全量数据可以参考下方[效果复现](#效果复现)部分。
+
+## 运行环境
+PaddlePaddle>=2.0
+
+python 2.7/3.5/3.6/3.7
+
+os : windows/linux/macos 
+
+## 快速开始
+本文提供了样例数据可以供您快速体验，在任意目录下均可执行。在deepfm模型目录的快速执行命令如下： 
+```bash
+# 进入模型目录
+# cd models/rank/deepfm # 在任意目录均可运行
+# 动态图训练
+python -u ../../../tools/trainer.py -m config.yaml # 全量数据运行config_bigdata.yaml 
+# 动态图预测
+python -u ../../../tools/infer.py -m config.yaml 
+``` 
+## 效果复现
+为了方便使用者能够快速的跑通每一个模型，我们在每个模型下都提供了样例数据。如果需要复现readme中的效果,请按如下步骤依次操作即可。
+在全量数据下模型的指标如下：  
+| 模型 | auc | log_loss|batch_size | epoch_num| Time of each epoch |
+| :------| :------ | :------ | :------ | :------| :------ | 
+| AutodeepFM | 0.8009 |0.5403 | 2000 | 1 | 约3小时 |
+
+1. 确认您当前所在目录为PaddleRec/models/rank/autofis
+2. 进入paddlerec/datasets/criteo_autofis
+3. 执行命令运行全量数据
+
+``` bash
+cd ../../../datasets/criteo_autofis
+sh run.sh
+```
+```bash
+cd - # 切回模型目录
+# 动态图训练
+python trainer.py -m config_bigdata.yaml # stage0：自动搜索最佳特征组合
+python trainer.py -m config_bigdata.yaml -o stage=1 # stage1：训练最终模型
+python -u ../../../tools/infer.py -m config_bigdata.yaml -o stage=1 # 全量数据运行config_bigdata.yaml 
+```
+## 进阶使用
+  
+## FAQ
@@ -0,0 +1,82 @@
+# BERT4Rec模型 (Sequential Recommendation with Bidirectional Encoder Representations from Transformer)
+
+代码请参考：[bert4rec](https://github.com/PaddlePaddle/PaddleRec/tree/master/models/rank/bert4rec)  
+如果我们的代码对您有用，还请点个star啊~ 
+
+## 内容
+
+- [模型简介](#模型简介)
+- [数据准备](#数据准备)
+- [运行环境](#运行环境)
+- [快速开始](#快速开始)
+- [模型组网](#模型组网)
+- [效果复现](#效果复现)
+- [进阶使用](#进阶使用)
+- [FAQ](#FAQ)
+
+
+## 模型简介
+BERT4Rec将NLP中的mask language任务迁移到序列推荐问题来，**给予了序列推荐一种不同于item2item，left2right的训练范式**。
+具体来说，对于一条物品序列，**以一定的概率p随机mask掉序列中的物品**，**使用transformer的encoder结构**对mask item进行预测。
+通过数据增强，完形填空任务的方式使得训练更加充分。
+
+[BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer](https://dl.acm.org/doi/abs/10.1145/3357384.3357895)
+本模型来自飞桨论文复现挑战赛（第四期）的[BERT4Rec的第一名方案](https://aistudio.baidu.com/aistudio/projectdetail/2558070)达到了原作者github[BERT4Rec](https://github.com/FeiSun/BERT4Rec)的精度。
+
+## 数据准备
+本模型使用论文中的数据集Beauty Dataset，在模型目录的data目录下。
+
+## 运行环境
+PaddlePaddle>=2.0
+
+python 3.7
+
+## 快速开始
+本文提供了样例数据可以供您快速体验，在任意目录下均可执行。在BERT4Rec模型目录的快速执行命令如下： 
+```bash
+# 进入模型目录
+# cd models/rank/bert4rec # 在任意目录均可运行
+# 动态图训练
+python -u ../../../tools/trainer.py -m config.yaml # 全量数据运行config_bigdata.yaml 
+# 动态图预测
+python -u ../../../tools/infer.py -m config.yaml 
+```
+
+## 模型组网
+在BERT4Rec之前，SASRec已经将self-attention应用在了序列推荐任务中。
+
+而与之对应的，BERT4Rec的作者认为像SASRec那种left-to-right的建模方式限制了模型的表达能力。 虽然用户的行为序列长期来看存在顺序的依赖关系，但在短期的一段时间内，用户的行为顺序不应该是严格顺序依赖的。
+
+为了解决上述问题，BERT4Rec将NLP中的Mask Language任务迁移到序列推荐问题来，给予了序列推荐一种不同于item2item，left2right的训练范式。 
+具体来说，对于一条物品序列，以一定的概率p随机mask掉序列中的物品（体现在data_augment_candi_gen.py)，使用Transformer的Encoder结构对masked item进行预测(net.py)。
+训练的过程中，则是取出Encoder对应mask位置的representation来预测mask的label物品。即完形填空。
+
+可以注意到，通过随机mask，我们可以成倍的生成新样本。（BERT4Rec训练样本是原有的十一倍(10:随机mask 1：原本样本)） 因此BERT4Rec效果的提升，也从数据增强的角度来解释。即通过数据增强，和完形填空式的前置任务的方式使得模型训练得更加充分。
+
+在模型上面，BERT4Rec正如其名，就是跟BERT一样，使用Transformer的Encoder部分来做序列特征提取。
+
+在测试的时候，我们只需要mask掉序列最后的物品，并取出模型最后一步的representation出来，那么就将训练好的模型成功应用在Next-item Prediction任务上。
+
+## 效果复现
+
+| 模型 | HR@10 | NDCG@10 | MRR | epoch_num| Time of each epoch |
+| :------| :------ |:------ | :------ | :------| :------ | 
+| BERT4Rec | 0.305 | 0.184 | 0.166 | 50 | 约2小时 |
+
+本文提供了beauty数据集可以供您快速体验及其复现。在BERT4Rec模型目录的快速执行命令如下： 
+
+```bash
+# 进入模型目录
+# cd models/rank/bert4rec # 在任意目录均可运行
+# 数据增强与候选集生成
+python -u data_augment_candi_gen.py 
+# 动态图训练
+python -u ../../../tools/trainer.py -m config_bigdata.yaml 
+# 动态图预测
+python -u ../../../tools/infer.py -m config_bigdata.yaml 
+``` 
+
+## 进阶使用
+  
+## FAQ
+
@@ -0,0 +1,80 @@
+# DeepRec (Training Deep AutoEncoders for Collaborative Filtering)
+
+代码请参考：[DeepRec](https://github.com/PaddlePaddle/PaddleRec/tree/master/models/rank/deeprec)  
+如果我们的代码对您有用，还请点个star啊~ 
+
+## 内容
+
+- [DeepRec](#deeprec)
+	- [内容](#内容)
+	- [模型简介](#模型简介)
+	- [数据准备](#数据准备)
+	- [运行环境](#运行环境)
+	- [快速开始](#快速开始)
+	- [模型组网](#模型组网)
+	- [效果复现](#效果复现)
+	- [进阶使用](#进阶使用)
+	- [FAQ](#faq)
+
+## 模型简介
+DeepRec使用基于自编码器的协同过滤，加入了一些tricks，达到了比以往的协同过滤方法更好的效果。tricks包括：1. 加大Dropout的比例(0.8); 2. 使用带负值的激活函数selu; 3. 提出Dense re-feeding, 把预测结果重新放回自编码器中作为新的样本再次预测, 以达到数据增强帮助防止模型过拟合
+
+## 数据准备
+我们在作者处理过的开源数据集Netflix上验证模型效果，在模型目录的data目录下为您准备了快速运行的示例数据，若需要使用全量数据可以参考下方[效果复现](#效果复现)部分。
+数据的格式如下：
+生成的格式以\t为分割点
+
+```
+u_id	i_id	rating
+116	341	3.7
+```
+
+## 运行环境
+PaddlePaddle>=2.0
+
+python 3.5/3.6/3.7/3.8
+
+os : windows/linux/macos
+
+## 快速开始
+本文提供了样例数据可以供您快速体验，在任意目录下均可执行。在deeprec模型目录的快速执行命令如下： 
+```bash
+# 进入模型目录
+# cd models/rank/deeprec # 在任意目录均可运行
+# 动态图训练
+python -u trainer.py -m config.yaml # 全量数据运行config_bigdata.yaml 
+# 动态图预测
+python -u infer.py -m config.yaml 
+```
+
+## 模型组网
+DeepRec是一个自编码器, 由encoder和decoder组成, 在encoder和decoder之间加入了一个drop概率很大的dropout层, 使用selu作为激活函数。模型的主要组网结构如下：
+[DeepRec](../../../doc/imgs/AutoEncoder.png)
+
+
+### 效果复现
+为了方便使用者能够快速的跑通每一个模型，我们在每个模型下都提供了样例数据。如果需要复现readme中的效果,请按如下步骤依次操作即可。 
+在全量数据下模型的指标如下：
+
+| 模型 | rmse   | layer_sizes             | batch_size | epoch_num | Time of each epoch |
+| :------| :------ | :------ | :------| :------ | -------|
+| DeepRec | 0.9172 | [n(17768), 512, 512, 1024] | 128        | 45        | 约55秒 |
+
+1. 确认您当前所在目录为PaddleRec/models/rank/deeprec
+2. 进入paddlerec/datasets/Netflix目录下，执行该脚本，会从国内源的服务器上下载Netflix Price数据集，并解压到指定文件夹。
+
+``` bash
+cd data
+sh run.sh
+```
+3. 切回模型目录,执行命令运行全量数据
+```bash
+cd - # 切回模型目录
+# 动态图训练
+python -u trainer.py -m config_bigdata.yaml # 全量数据运行config_bigdata.yaml 
+python -u infer.py -m config_bigdata.yaml # 全量数据运行config_bigdata.yaml 
+```
+
+## 进阶使用
+
+## FAQ