Add iprec model

renmada · renmada · commit 4573a4c09bc0 · 2022-05-31T17:57:01.000+08:00
diff --git a/README_CN.md b/README_CN.md
diff --git a/README_EN.md b/README_EN.md
@@ -8,6 +8,7 @@
 
 <h2 align="center">News<img src="./doc/imgs/rec_new_icon.png" width="40"/></h2>
 
+* [2022/5/18] Add 3 algorithms:：[aitm](models/multitask/aitm),[sign](models/rank/sign),[dsin](models/rank/dsin)
 * [2022/3/21] Add a new [paper](./paper) directory , show our analysis of the top meeting papers of the recommendation system in 2021 years and the list of recommendation system papers in the industry for your reference.  
 * [2022/3/10] Add 5 algorithms: [DCN_V2](models/rank/dcn_v2), [MHCN](models/recall/mhcn), [FLEN](models/rank/flen), [Dselect_K](models/multitask/dselect_k)，[AutoFIS](models/rank/autofis)。  
 * [2022/1/12] Add AI Studio [Online running](https://aistudio.baidu.com/aistudio/projectdetail/3240640) function, you can easily and quickly online experience our model on AI studio platform.
@@ -160,10 +161,10 @@ python -u tools/static_trainer.py -m models/rank/dnn/config.yaml #  Training wit
   |   Rank   |                     [DeepRec](models/rank/deeprec/)                     |  -  |       ✓     |     ✓     | >=2.1.0 | [2017][Training Deep AutoEncoders for Collaborative Filtering](https://arxiv.org/pdf/1708.01715v3.pdf)                                                                                                          |
   |   Rank   |                     [AutoFIS](models/rank/autofis/)                     |  -  |       ✓     |     ✓     | >=2.1.0 | [KDD 2020][AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction](https://arxiv.org/pdf/2003.11235v3.pdf)                                                                                                          |
   |   Rank   |                     [DCN_V2](models/rank/dcn_v2/)                     |  -  |       ✓     |     ✓     | >=2.1.0 | [WWW 2021][DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems](https://arxiv.org/pdf/2008.13535v2.pdf)|
-  |   Rank   |                                                                          [AITM](models/rank/aitm/)                                                                          |  -  |       ✓     |     ✓     | >=2.1.0 | [KDD 2021][Modeling the Sequential Dependence among Audience Multi-step Conversions withMulti-task Learning in Targeted Display Advertising](https://arxiv.org/pdf/2105.08489v2.pdf)  |
   |   Rank   |                  [DSIN](models/rank/dsin/)                                                                          |  -  |       ✓     |     ✓     | >=2.1.0 | [IJCAI 2019][Deep Session Interest Network for Click-Through Rate Prediction](https://arxiv.org/pdf/1905.06482v1.pdf)  |
   |   Rank   |                     [SIGN](models/rank/sign/)([doc](https://paddlerec.readthedocs.io/en/latest/models/rank/sign.html))                     |  [Python CPU/GPU](https://aistudio.baidu.com/aistudio/projectdetail/3869111)  |       ✓     |     ✓     | >=2.1.0 | [AAAI 2021][Detecting Beneficial Feature Interactions for Recommender Systems](https://arxiv.org/pdf/2008.00404v6.pdf) |
-  |   Rank   |                                    [IPRec](models/rank/iprec/)([文档](https://paddl7erec.readthedocs.io/en/latest/models/rank/iprec.html))                                    |                                      -                                      |       ✓     |     ✓     | >=2.1.0 | [SIGIR 2021][Package Recommendation with Intra- and Inter-Package Attention Networks](http://nlp.csai.tsinghua.edu.cn/~xrb/publications/SIGIR-21_IPRec.pdf)                             |
+  |   Rank   |                                      [IPRec](models/rank/iprec/)([doc](https://paddl7erec.readthedocs.io/en/latest/models/rank/iprec.html))                                       |                                      -                                      |       ✓     |     ✓     | >=2.1.0 | [SIGIR 2021][Package Recommendation with Intra- and Inter-Package Attention Networks](http://nlp.csai.tsinghua.edu.cn/~xrb/publications/SIGIR-21_IPRec.pdf)                             |
+  |   Multi-Task   |                                                                          [AITM](models/rank/aitm/)                                                                          |  -  |       ✓     |     ✓     | >=2.1.0 | [KDD 2021][Modeling the Sequential Dependence among Audience Multi-step Conversions with Multi-task Learning in Targeted Display Advertising](https://arxiv.org/pdf/2105.08489v2.pdf)  |
   |      Multi-Task       |                  [PLE](models/multitask/ple/)<br>([doc](https://paddlerec.readthedocs.io/en/latest/models/multitask/ple.html))                   |  [Python CPU/GPU](https://aistudio.baidu.com/aistudio/projectdetail/3238938)  |     ✓     |     ✓     |  >=2.1.0 | [RecSys 2020][Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations](https://dl.acm.org/doi/abs/10.1145/3383313.3412236)                                                              |
   |      Multi-Task       |                  [ESMM](models/multitask/esmm/)<br>([doc](https://paddlerec.readthedocs.io/en/latest/models/multitask/esmm.html))                   |  [Python CPU/GPU](https://aistudio.baidu.com/aistudio/projectdetail/3238583)  |         ✓         |     ✓     |      >=2.1.0     | [SIGIR 2018][Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate](https://arxiv.org/abs/1804.07931)                                                              |
   |      Multi-Task       |                  [MMOE](models/multitask/mmoe/)<br>([doc](https://paddlerec.readthedocs.io/en/latest/models/multitask/mmoe.html))                   |  [Python CPU/GPU](https://aistudio.baidu.com/aistudio/projectdetail/3238934)  |         ✓         |     ✓     |      >=2.1.0     | [KDD 2018][Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts](https://dl.acm.org/doi/abs/10.1145/3219819.3220007)                                                       |
diff --git a/models/multitask/mmoe/net.py b/models/multitask/mmoe/net.py
@@ -28,14 +28,15 @@ def __init__(self, feature_size, expert_num, expert_size, tower_size,
         self.gate_num = gate_num
 
         self._param_expert = []
+        expert_init = [pow(10, -i) for i in range(1, self.expert_num + 1)]
         for i in range(0, self.expert_num):
             linear = self.add_sublayer(
                 name='expert_' + str(i),
                 sublayer=nn.Linear(
                     feature_size,
                     expert_size,
-                    #initialize the weight randly
-                    weight_attr=nn.initializer.XavierUniform(),
+                    #initialize each expert respectly
+                    weight_attr=nn.initializer.Constant(value=expert_init[i]),
                     bias_attr=nn.initializer.Constant(value=0.1),
                     #bias_attr=paddle.ParamAttr(learning_rate=1.0),
                     name='expert_' + str(i)))
@@ -44,14 +45,15 @@ def __init__(self, feature_size, expert_num, expert_size, tower_size,
         self._param_gate = []
         self._param_tower = []
         self._param_tower_out = []
+        gate_init = [pow(10, -i) for i in range(1, self.gate_num + 1)]
         for i in range(0, self.gate_num):
             linear = self.add_sublayer(
                 name='gate_' + str(i),
                 sublayer=nn.Linear(
                     feature_size,
                     expert_num,
-                    #initialize the weight randly
-                    weight_attr=nn.initializer.XavierUniform(),
+                    #initialize every gate respectly
+                    weight_attr=nn.initializer.Constant(value=gate_init[i]),
                     bias_attr=nn.initializer.Constant(value=0.1),
                     #bias_attr=paddle.ParamAttr(learning_rate=1.0),
                     name='gate_' + str(i)))
@@ -62,8 +64,8 @@ def __init__(self, feature_size, expert_num, expert_size, tower_size,
                 sublayer=nn.Linear(
                     expert_size,
                     tower_size,
-                    #initialize the weight randly
-                    weight_attr=nn.initializer.XavierUniform(),
+                    #initialize each gate respectly
+                    weight_attr=nn.initializer.Constant(value=gate_init[i]),
                     bias_attr=nn.initializer.Constant(value=0.1),
                     #bias_attr=paddle.ParamAttr(learning_rate=1.0),
                     name='tower_' + str(i)))
@@ -74,8 +76,8 @@ def __init__(self, feature_size, expert_num, expert_size, tower_size,
                 sublayer=nn.Linear(
                     tower_size,
                     2,
-                    #initialize the weight randly
-                    weight_attr=nn.initializer.XavierUniform(),
+                    #initialize each gate respectly
+                    weight_attr=nn.initializer.Constant(value=gate_init[i]),
                     bias_attr=nn.initializer.Constant(value=0.1),
                     name='tower_out_' + str(i)))
             self._param_tower_out.append(linear)
diff --git a/models/multitask/ple/net.py b/models/multitask/ple/net.py
@@ -1,4 +1,4 @@
-# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
+#the weight randly Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
 # you may not use this file except in compliance with the License.
@@ -52,14 +52,15 @@ def __init__(self, feature_size, task_num, exp_per_task, shared_num,
         # task tower
         self._param_tower = []
         self._param_tower_out = []
+        task_init = [pow(10, -i) for i in range(1, self.task_num + 1)]
         for i in range(0, self.task_num):
             linear = self.add_sublayer(
                 name='tower_' + str(i),
                 sublayer=nn.Linear(
                     expert_size,
                     tower_size,
-                    #initialize the weight randly
-                    weight_attr=nn.initializer.XavierUniform(),
+                    #initialize each task respectly
+                    weight_attr=nn.initializer.Constant(value=task_init[i]),
                     bias_attr=nn.initializer.Constant(value=0.1),
                     #bias_attr=paddle.ParamAttr(learning_rate=1.0),
                     name='tower_' + str(i)))
@@ -70,8 +71,8 @@ def __init__(self, feature_size, task_num, exp_per_task, shared_num,
                 sublayer=nn.Linear(
                     tower_size,
                     2,
-                    #initialize the weight randly
-                    weight_attr=nn.initializer.XavierUniform(),
+                    #initialize each task respectly
+                    weight_attr=nn.initializer.Constant(value=task_init[i]),
                     bias_attr=nn.initializer.Constant(value=0.1),
                     name='tower_out_' + str(i)))
             self._param_tower_out.append(linear)
@@ -113,43 +114,49 @@ def __init__(self, input_feature_size, task_num, exp_per_task, shared_num,
 
         self._param_expert = []
         # task-specific expert part
+        step = self.exp_per_task
         for i in range(0, self.task_num):
+            exp_init = [
+                pow(10, -k) for k in range(1 + i * step, step * (i + 1) + 1)
+            ]
             for j in range(0, self.exp_per_task):
                 linear = self.add_sublayer(
                     name=level_name + "_exp_" + str(i) + "_" + str(j),
                     sublayer=nn.Linear(
                         input_feature_size,
                         expert_size,
-                        #initialize the weight randly
-                        weight_attr=nn.initializer.XavierUniform(),
+                        #initialize each expert respectly
+                        weight_attr=nn.initializer.Constant(value=exp_init[j]),
                         bias_attr=nn.initializer.Constant(value=0.1),
                         name=level_name + "_exp_" + str(i) + "_" + str(j)))
                 self._param_expert.append(linear)
-
+        shared_exp_init = [pow(10, -i) for i in range(1, self.shared_num + 1)]
         # shared expert part
         for i in range(0, self.shared_num):
             linear = self.add_sublayer(
                 name=level_name + "_exp_shared_" + str(i),
                 sublayer=nn.Linear(
                     input_feature_size,
                     expert_size,
-                    #initialize the weight randly
-                    weight_attr=nn.initializer.XavierUniform(),
+                    #initialize each shared expert respectly  
+                    weight_attr=nn.initializer.Constant(
+                        value=shared_exp_init[i]),
                     bias_attr=nn.initializer.Constant(value=0.1),
                     name=level_name + "_exp_shared_" + str(i)))
             self._param_expert.append(linear)
 
         # task gate part
         self._param_gate = []
         cur_expert_num = self.exp_per_task + self.shared_num
+        gate_init = [pow(10, -i) for i in range(1, self.task_num + 1)]
         for i in range(0, self.task_num):
             linear = self.add_sublayer(
                 name=level_name + "_gate_" + str(i),
                 sublayer=nn.Linear(
                     input_feature_size,
                     cur_expert_num,
-                    #initialize the weight randly
-                    weight_attr=nn.initializer.XavierUniform(),
+                    #initialize each gate respectly
+                    weight_attr=nn.initializer.Constant(value=gate_init[i]),
                     bias_attr=nn.initializer.Constant(value=0.1),
                     name=level_name + "_gate_" + str(i)))
             self._param_gate.append(linear)
@@ -162,8 +169,7 @@ def __init__(self, input_feature_size, task_num, exp_per_task, shared_num,
                 sublayer=nn.Linear(
                     input_feature_size,
                     cur_expert_num,
-                    #initialize the weight randly
-                    weight_attr=nn.initializer.XavierUniform(),
+                    weight_attr=nn.initializer.Constant(value=0.1),
                     bias_attr=nn.initializer.Constant(value=0.1),
                     name=level_name + "_gate_shared_"))
             self._param_gate_shared = linear
diff --git a/models/rank/deeprec/infer.py b/models/rank/deeprec/infer.py
@@ -19,18 +19,18 @@
 import sys
 from math import sqrt
 
+__dir__ = os.path.dirname(os.path.abspath(__file__))
+print(os.path.abspath('/'.join(__dir__.split('/')[:-3])))
+sys.path.append(os.path.abspath(os.path.join(__dir__, '..')))
+sys.path.append(os.path.abspath('/'.join(__dir__.split('/')[:-3])))
+
 from tools.utils.utils_single import load_yaml, load_dy_model_class, \
     get_abs_model
 from tools.utils.save_load import load_model
 from paddle.io import DataLoader
 import argparse
 from importlib import import_module
 
-__dir__ = os.path.dirname(os.path.abspath(__file__))
-print(os.path.abspath('/'.join(__dir__.split('/')[:-3])))
-sys.path.append(os.path.abspath(os.path.join(__dir__, '..')))
-sys.path.append(os.path.abspath('/'.join(__dir__.split('/')[:-3])))
-
 logging.basicConfig(
     format='%(asctime)s - %(levelname)s - %(message)s', level=logging.INFO)
 logger = logging.getLogger(__name__)
diff --git a/models/rank/fat_deepffm/config.yaml b/models/rank/fat_deepffm/config.yaml
@@ -26,7 +26,7 @@ runner:
   print_interval: 10
 
   model_save_path: "output_model_fat_deepffm"
-  infer_batch_size: 1000
+  infer_batch_size: 1
   infer_reader_path: "criteo_reader" # importlib format
   test_data_dir: "data/sample_data/train"
 
diff --git a/models/rank/sign/README.md b/models/rank/sign/README.md
@@ -127,7 +127,7 @@ pip install pgl
 cd - # 切回模型目录
 # 动态图训练
 python -u ../../../tools/trainer.py -m config_bigdata.yaml # 全量数据运行
-python -u .././../tools/infer.py -m config_bigdata.yaml # 全量数据预测
+python -u ../../../tools/infer.py -m config_bigdata.yaml # 全量数据预测
 ```
 
 ## 进阶使用
diff --git a/tools/infer.py b/tools/infer.py
@@ -65,6 +65,7 @@ def main(args):
 
     # tools.vars
     use_gpu = config.get("runner.use_gpu", True)
+    use_auc = config.get("runner.use_auc", False)
     use_xpu = config.get("runner.use_xpu", False)
     use_npu = config.get("runner.use_npu", False)
     use_visual = config.get("runner.use_visual", False)
@@ -177,6 +178,8 @@ def main(args):
             metric_str += (
                 metric_list_name[metric_id] +
                 ": {:.6f},".format(metric_list[metric_id].accumulate()))
+            if use_auc:
+                metric_list[metric_id].reset()
 
         tensor_print_str = ""
         if tensor_print_dict is not None:
diff --git a/tools/trainer.py b/tools/trainer.py
@@ -65,6 +65,7 @@ def main(args):
 
     # tools.vars
     use_gpu = config.get("runner.use_gpu", True)
+    use_auc = config.get("runner.use_auc", False)
     use_npu = config.get("runner.use_npu", False)
     use_xpu = config.get("runner.use_xpu", False)
     use_visual = config.get("runner.use_visual", False)
@@ -191,6 +192,8 @@ def main(args):
             metric_str += (
                 metric_list_name[metric_id] +
                 ": {:.6f},".format(metric_list[metric_id].accumulate()))
+            if use_auc:
+                metric_list[metric_id].reset()
 
         tensor_print_str = ""
         if tensor_print_dict is not None: