Merge pull request #722 from wangzhen38/bug_fix_39

frankwhzhang · web-flow · commit 21b8d43f2022 · 2022-03-21T16:39:58.000+08:00
fix bugs from test3.9
diff --git a/datasets/Netflix_deeprec/netflix_data_convert.py b/datasets/Netflix_deeprec/netflix_data_convert.py
@@ -0,0 +1,204 @@
+# Copyright (c) 2020 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from os import listdir, path, makedirs
+import random
+import sys
+import time
+import datetime
+
+
+def print_stats(data):
+    total_ratings = 0
+    print("STATS")
+    for user in data:
+        total_ratings += len(data[user])
+    print("Total Ratings: {}".format(total_ratings))
+    print("Total User count: {}".format(len(data.keys())))
+
+
+def save_data_to_file(data, filename):
+    with open(filename, 'w') as out:
+        for userId in data:
+            for record in data[userId]:
+                out.write("{}\t{}\t{}\n".format(userId, record[0], record[1]))
+
+
+def create_NETFLIX_data_timesplit(all_data, train_min, train_max, test_min,
+                                  test_max):
+    """
+  Creates time-based split of NETFLIX data into train, and (validation, test)
+  :param all_data:
+  :param train_min:
+  :param train_max:
+  :param test_min:
+  :param test_max:
+  :return:
+  """
+    train_min_ts = time.mktime(
+        datetime.datetime.strptime(train_min, "%Y-%m-%d").timetuple())
+    train_max_ts = time.mktime(
+        datetime.datetime.strptime(train_max, "%Y-%m-%d").timetuple())
+    test_min_ts = time.mktime(
+        datetime.datetime.strptime(test_min, "%Y-%m-%d").timetuple())
+    test_max_ts = time.mktime(
+        datetime.datetime.strptime(test_max, "%Y-%m-%d").timetuple())
+
+    training_data = dict()
+    validation_data = dict()
+    test_data = dict()
+
+    train_set_items = set()
+
+    for userId, userRatings in all_data.items():
+        time_sorted_ratings = sorted(
+            userRatings, key=lambda x: x[2])  # sort by timestamp
+        for rating_item in time_sorted_ratings:
+            if rating_item[2] >= train_min_ts and rating_item[
+                    2] <= train_max_ts:
+                if userId not in training_data:
+                    training_data[userId] = []
+                training_data[userId].append(rating_item)
+                train_set_items.add(
+                    rating_item[0])  # keep track of items from training set
+            elif rating_item[2] >= test_min_ts and rating_item[
+                    2] <= test_max_ts:
+                if userId not in training_data:
+                    # only include users seen in the training set
+                    continue
+                p = random.random()
+                if p <= 0.5:
+                    if userId not in validation_data:
+                        validation_data[userId] = []
+                    validation_data[userId].append(rating_item)
+                else:
+                    if userId not in test_data:
+                        test_data[userId] = []
+                    test_data[userId].append(rating_item)
+
+    # remove items not not seen in training set
+    for userId, userRatings in test_data.items():
+        test_data[userId] = [
+            rating for rating in userRatings if rating[0] in train_set_items
+        ]
+    for userId, userRatings in validation_data.items():
+        validation_data[userId] = [
+            rating for rating in userRatings if rating[0] in train_set_items
+        ]
+
+    return training_data, validation_data, test_data
+
+
+def main(args):
+    user2id_map = dict()
+    item2id_map = dict()
+    userId = 0
+    itemId = 0
+    all_data = dict()
+
+    folder = args[1]
+    out_folder = args[2]
+    # create necessary folders:
+    for output_dir in [(out_folder + f)
+                       for f in ["/NF_TRAIN", "/NF_VALID", "/NF_TEST"]]:
+        makedirs(output_dir, exist_ok=True)
+
+    text_files = [
+        path.join(folder, f) for f in listdir(folder)
+        if path.isfile(path.join(folder, f)) and ('.txt' in f)
+    ]
+
+    for text_file in text_files:
+        with open(text_file, 'r') as f:
+            print("Processing: {}".format(text_file))
+            lines = f.readlines()
+            item = int(lines[0][:-2])  # remove newline and :
+            if item not in item2id_map:
+                item2id_map[item] = itemId
+                itemId += 1
+
+            for rating in lines[1:]:
+                parts = rating.strip().split(",")
+                user = int(parts[0])
+                if user not in user2id_map:
+                    user2id_map[user] = userId
+                    userId += 1
+                rating = float(parts[1])
+                ts = int(
+                    time.mktime(
+                        datetime.datetime.strptime(parts[2], "%Y-%m-%d")
+                        .timetuple()))
+                if user2id_map[user] not in all_data:
+                    all_data[user2id_map[user]] = []
+                all_data[user2id_map[user]].append(
+                    (item2id_map[item], rating, ts))
+
+    print("STATS FOR ALL INPUT DATA")
+    print_stats(all_data)
+
+    # Netflix full
+    (nf_train, nf_valid, nf_test) = create_NETFLIX_data_timesplit(
+        all_data, "1999-12-01", "2005-11-30", "2005-12-01", "2005-12-31")
+    print("Netflix full train")
+    print_stats(nf_train)
+    save_data_to_file(nf_train, out_folder + "/NF_TRAIN/nf.train.txt")
+    print("Netflix full valid")
+    print_stats(nf_valid)
+    save_data_to_file(nf_valid, out_folder + "/NF_VALID/nf.valid.txt")
+    print("Netflix full test")
+    print_stats(nf_test)
+    save_data_to_file(nf_test, out_folder + "/NF_TEST/nf.test.txt")
+    '''
+    (n3m_train, n3m_valid, n3m_test) = create_NETFLIX_data_timesplit(
+        all_data, "2005-09-01", "2005-11-30", "2005-12-01", "2005-12-31")
+    
+    print("Netflix 3m train")
+    print_stats(n3m_train)
+    save_data_to_file(n3m_train, out_folder + "/N3M_TRAIN/n3m.train.txt")
+    print("Netflix 3m valid")
+    print_stats(n3m_valid)
+    save_data_to_file(n3m_valid, out_folder + "/N3M_VALID/n3m.valid.txt")
+    print("Netflix 3m test")
+    print_stats(n3m_test)
+    save_data_to_file(n3m_test, out_folder + "/N3M_TEST/n3m.test.txt")
+
+    (n6m_train, n6m_valid, n6m_test) = create_NETFLIX_data_timesplit(
+        all_data, "2005-06-01", "2005-11-30", "2005-12-01", "2005-12-31")
+    print("Netflix 6m train")
+    print_stats(n6m_train)
+    save_data_to_file(n6m_train, out_folder + "/N6M_TRAIN/n6m.train.txt")
+    print("Netflix 6m valid")
+    print_stats(n6m_valid)
+    save_data_to_file(n6m_valid, out_folder + "/N6M_VALID/n6m.valid.txt")
+    print("Netflix 6m test")
+    print_stats(n6m_test)
+    save_data_to_file(n6m_test, out_folder + "/N6M_TEST/n6m.test.txt")
+
+    # Netflix 1 year
+    (n1y_train, n1y_valid, n1y_test) = create_NETFLIX_data_timesplit(
+        all_data, "2004-06-01", "2005-05-31", "2005-06-01", "2005-06-30")
+    print("Netflix 1y train")
+    print_stats(n1y_train)
+    save_data_to_file(n1y_train, out_folder + "/N1Y_TRAIN/n1y.train.txt")
+    print("Netflix 1y valid")
+    print_stats(n1y_valid)
+    save_data_to_file(n1y_valid, out_folder + "/N1Y_VALID/n1y.valid.txt")
+    print("Netflix 1y test")
+    print_stats(n1y_test)
+    save_data_to_file(n1y_test, out_folder + "/N1Y_TEST/n1y.test.txt")
+    '''
+
+
+if __name__ == "__main__":
+    main(sys.argv)
diff --git a/datasets/Netflix_deeprec/run.sh b/datasets/Netflix_deeprec/run.sh
@@ -0,0 +1,4 @@
+wget https://paddlerec.bj.bcebos.com/datasets/Netflix-DeepRec/nf_prize_dataset.tar.gz 
+tar -xvf nf_prize_dataset.tar.gz
+tar -xf download/training_set.tar
+python netflix_data_convert.py training_set Netflix
diff --git a/datasets/ml-1m_ensfm/run.sh b/datasets/ml-1m_ensfm/run.sh
@@ -13,7 +13,7 @@
 # limitations under the License.
 #!/bin/bash
 
-
+mkdir data
 wget https://paddlerec.bj.bcebos.com/recall/ensfm/ml-1m-ensfm.tar.gz
 tar zxvf ml-1m-ensfm.tar.gz -C data
 rm ml-1m-ensfm.tar.gz
diff --git a/models/rank/autofis/readme.md b/models/rank/autofis/readme.md
@@ -12,7 +12,7 @@
 ├── README.md #文档
 ├── config.yaml # sample数据配置
 ├── config_bigdata.yaml # 全量数据配置
-├── net.py # 模型核心组网（动静统一）
+├── net.py # 模型核心组网
 ├── criteo_reader.py #数据读取程序
 ├── dygraph_model.py # 构建动态图
 ├── trainer.py # 训练脚本
@@ -33,11 +33,11 @@
 - [FAQ](#FAQ)
 
 ## 模型简介
-Automatic Feature Interaction Selection in Factorization Models（点击率预测问题下因子分解机模型的自动特征交互选择模）是华为在2020kdd上提出了新的CTR预估方法。论文指出，很多CTR预估算法都需要进行特征组合，但是传统的特征组合方式都是简单的暴力组合或者人工选择，人工选择的方式依赖于先验知识，而简单的暴力组合其实对模型的性能的提升并不是总有益的，有些组合方式其实对模型的性能提升并没有多少的帮助，甚至会损害模型的性能，而且大量无效的特征组合会形成很多的参数，降低内存的利用率。根据AutoML技术，提出AutoFIS，顾名思义，就是自动去找最佳的特征组合。
+Automatic Feature Interaction Selection in Factorization Models（点击率预测问题下因子分解机模型的自动特征交互选择模型）是华为在2020kdd上提出了新的CTR预估方法。论文指出，很多CTR预估算法都需要进行特征组合，但是传统的特征组合方式都是简单的暴力组合或者人工选择，人工选择的方式依赖于先验知识，而简单的暴力组合其实对模型的性能的提升并不总是有益的，有些组合方式其实对模型的性能提升并没有多少的帮助，甚至会损害模型的性能，而且大量无效的特征组合会形成很多的参数，降低内存的利用率。根据AutoML技术，提出AutoFIS，顾名思义，就是自动去找最佳的特征组合。
 
 ## 数据准备
 
-数据为[Criteo](http://labs.criteo.com/downloads/download-terabyte-click-log)，选择了第6-12天的数据作为训练集，低13天的数据测试集。正负样本采用后的比例约为1:1
+数据为[Criteo](http://labs.criteo.com/downloads/download-terabyte-click-log)，选择了第6-12天的数据作为训练集，第13天的数据测试集。正负样本采用后的比例约为1:1，
 在模型目录的data目录下为您准备了快速运行的示例数据，若需要使用全量数据可以参考下方[效果复现](#效果复现)部分。
 
 ## 运行环境
@@ -48,14 +48,16 @@ python 2.7/3.5/3.6/3.7
 os : windows/linux/macos 
 
 ## 快速开始
-本文提供了样例数据可以供您快速体验，在任意目录下均可执行。在deepfm模型目录的快速执行命令如下： 
+本文提供了样例数据可以供您快速体验，在任意目录下均可执行。在autofis模型目录的快速执行命令如下： 
 ```bash
 # 进入模型目录
-# cd models/rank/deepfm # 在任意目录均可运行
+# cd models/rank/autofis # 在任意目录均可运行
 # 动态图训练
-python -u ../../../tools/trainer.py -m config.yaml # 全量数据运行config_bigdata.yaml 
+python trainer.py -m config.yaml # stage0：自动搜索最佳特征组合 全量数据运行config_bigdata.yaml
+python trainer.py -m config.yaml -o stage=1 # stage1：训练最终模 全量数据运行config_bigdata.yaml型
+
 # 动态图预测
-python -u ../../../tools/infer.py -m config.yaml 
+python -u ../../../tools/infer.py -m config.yaml -o stage=1 # 全量数据运行config_bigdata.yaml
 ``` 
 ## 效果复现
 为了方便使用者能够快速的跑通每一个模型，我们在每个模型下都提供了样例数据。如果需要复现readme中的效果,请按如下步骤依次操作即可。
@@ -65,7 +67,7 @@ python -u ../../../tools/infer.py -m config.yaml
 | AutodeepFM | 0.8009 |0.5403 | 2000 | 1 | 约3小时 |
 
 1. 确认您当前所在目录为PaddleRec/models/rank/autofis
-2. 进入paddlerec/datasets/criteo_autofis
+2. 进入Paddlerec/datasets/criteo_autofis
 3. 执行命令运行全量数据
 
 ``` bash
@@ -77,7 +79,7 @@ cd - # 切回模型目录
 # 动态图训练
 python trainer.py -m config_bigdata.yaml # stage0：自动搜索最佳特征组合
 python trainer.py -m config_bigdata.yaml -o stage=1 # stage1：训练最终模型
-python -u ../../../tools/infer.py -m config_bigdata.yaml -o stage=1 # 全量数据运行config_bigdata.yaml 
+python -u ../../../tools/infer.py -m config_bigdata.yaml -o stage=1 # 预测 
 ```
 ## 进阶使用
   
diff --git a/models/rank/bert4rec/config_bigdata.yaml b/models/rank/bert4rec/config_bigdata.yaml
@@ -20,16 +20,16 @@ runner:
   use_gpu: True
   train_batch_size: 1
   data_batch_size: 256
-  epochs: 10
+  epochs: 50
   print_interval: 100
 
   model_save_path: "output_model_bert4rec_all"
   test_data_dir: "../../../datasets/Beauty/data/test"
   infer_reader_path: "data_reader" # importlib format
   infer_batch_size: 1
   infer_load_path: "output_model_bert4rec_all"
-  infer_start_epoch: 9
-  infer_end_epoch: 10
+  infer_start_epoch: 49
+  infer_end_epoch: 50
 
 
 # hyper parameters of user-defined network
diff --git a/models/rank/deeprec/README.md b/models/rank/deeprec/README.md
@@ -8,13 +8,15 @@
 		├── small_train.txt
 	├── test  #测试数据
 		├── small_test.txt
-├── __init__.py 
 ├── README.md #文档
 ├── config.yaml # sample数据配置
 ├── config_bigdata.yaml # 全量数据配置
-├── deeprec_reader.py # 数据读取程序
-├── net.py # 模型核心组网（动静统一）
 ├── dygraph_model.py # 构建动态图
+├── deeprec_reader.py # 数据读取程序
+├── infer.py # 预测入口
+├── net.py # 模型核心组网
+├── netflix_reader.py # 数据读取程序
+├── trainer.py # 训练入口
 ```
 
 注：在阅读该示例前，建议您先了解以下内容：
@@ -70,7 +72,7 @@ DeepRec是一个自编码器, 由encoder和decoder组成, 在encoder和decoder
 [DeepRec](../../../doc/imgs/AutoEncoder.png)
 
 
-### 效果复现
+## 效果复现
 为了方便使用者能够快速的跑通每一个模型，我们在每个模型下都提供了样例数据。如果需要复现readme中的效果,请按如下步骤依次操作即可。 
 在全量数据下模型的指标如下：
 
@@ -79,10 +81,10 @@ DeepRec是一个自编码器, 由encoder和decoder组成, 在encoder和decoder
 | DeepRec | 0.9172 | [n(17768), 512, 512, 1024] | 128        | 45        | 约55秒 |
 
 1. 确认您当前所在目录为PaddleRec/models/rank/deeprec
-2. 进入paddlerec/datasets/Netflix目录下，执行该脚本，会从国内源的服务器上下载Netflix Price数据集，并解压到指定文件夹。
+2. 进入Paddlerec/datasets/Netflix_deeprec目录下，执行该脚本
 
 ``` bash
-cd data
+cd ../../../datasets/Netflix_deeprec
 sh run.sh
 ```
 3. 切回模型目录,执行命令运行全量数据
diff --git a/models/rank/deeprec/config.yaml b/models/rank/deeprec/config.yaml
@@ -32,7 +32,7 @@ runner:
 
 hyper_parameters:
   dp_drop_prob: 0.0
-  layer_sizes: [1000, 16, 8]
+  layer_sizes: [50, 16, 8]
   optimizer:
     class: SGD
     learning_rate: 0.05
diff --git a/models/rank/deeprec/config_bigdata.yaml b/models/rank/deeprec/config_bigdata.yaml
@@ -14,21 +14,21 @@
 
 
 runner:
-  train_data_dir: "data/Netflix/NF_TRAIN"
+  train_data_dir: "../../../datasets/Netflix_deeprec/Netflix/NF_TRAIN"
   train_reader_path: "netflix_reader" # importlib format
   reader_batch_size: 128
   use_gpu: True
   mode: "train" # control the return of the create_feeds function
   epochs: 60
   print_interval: 1000
-  model_save_path: "output_model_deeprec"
+  model_save_path: "output_model_deeprec_all"
 
-  test_data_dir: "data/Netflix/NF_TEST"
+  test_data_dir: "../../../datasets/Netflix_deeprec/Netflix/NF_TEST"
   infer_reader_path: "netflix_reader" # importlib format
-  infer_load_path: "output_model_deeprec"
+  infer_load_path: "output_model_deeprec_all"
   infer_start_epoch: 30
-  infer_batch_size: 128
   infer_end_epoch: 39
+  infer_batch_size: 128
 
 hyper_parameters:
   dp_drop_prob: 0.8
diff --git a/models/recall/tisas/config.yaml b/models/recall/tisas/config.yaml
@@ -16,16 +16,16 @@ runner:
   train_data_dir: "data/sample_data"
   train_reader_path: "movielens_reader"  # importlib format
   train_batch_size: 2
-  model_save_path: "output_model_tisas_demo"
+  model_save_path: "output_model_tisas"
   mode: "train"
-  use_gpu: True 
+  use_gpu: False 
   epochs: 3
   print_interval: 10
   
   test_data_dir: "data/sample_data"
   infer_reader_path: "movielens_reader"  # importlib format
   infer_batch_size: 1
-  infer_load_path: "output_model_tisas_demo"
+  infer_load_path: "output_model_tisas"
   infer_start_epoch: 2
   infer_end_epoch: 3
 
diff --git a/models/recall/tisas/config_bigdata.yaml b/models/recall/tisas/config_bigdata.yaml
diff --git a/models/recall/tisas/data/sample_data/sample_data.txt b/models/recall/tisas/data/sample_data/sample_data.txt
diff --git a/models/recall/tisas/readme.md b/models/recall/tisas/readme.md