revert

seemingwang · seemingwang · commit 5fabe3c941da · 2021-01-27T14:41:17.000+08:00
diff --git a/datasets/MIND/run.sh b/datasets/MIND/run.sh
@@ -0,0 +1,3 @@
+wget https://paddlerec.bj.bcebos.com/datasets/MIND/bigdata.zip
+mkdir data
+unzip bigdata.zip -d ./data
diff --git a/models/rank/naml/NAMLDataReader.py b/models/rank/naml/NAMLDataReader.py
@@ -1,6 +1,20 @@
+# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
 from __future__ import print_function
 import numpy as np
-import re,random
+import re, random
 from paddle.io import IterableDataset
 
 
@@ -16,38 +30,50 @@ def __init__(self, file_list, config):
             elif re.match('[\\S]*article[0-9]*.txt$', x) != None:
                 self.article_file_list.append(x)
         self.config = config
-        self.article_content_size = config.get("hyper_parameters.article_content_size")
-        self.article_title_size = config.get("hyper_parameters.article_title_size")
+        self.article_content_size = config.get(
+            "hyper_parameters.article_content_size")
+        self.article_title_size = config.get(
+            "hyper_parameters.article_title_size")
         self.browse_size = config.get("hyper_parameters.browse_size")
-        self.neg_condidate_sample_size = config.get("hyper_parameters.neg_condidate_sample_size")
-        self.word_dict_size = int(config.get("hyper_parameters.word_dict_size"))
+        self.neg_condidate_sample_size = config.get(
+            "hyper_parameters.neg_condidate_sample_size")
+        self.word_dict_size = int(
+            config.get("hyper_parameters.word_dict_size"))
         self.category_size = int(config.get("hyper_parameters.category_size"))
-        self.sub_category_size = int(config.get("hyper_parameters.sub_category_size"))
+        self.sub_category_size = int(
+            config.get("hyper_parameters.sub_category_size"))
         self.article_map_cate = {}
         self.article_map_title = {}
         self.article_map_content = {}
         self.article_map_sub_cate = {}
         self.init()
 
-    def convert_unk(self,id):
+    def convert_unk(self, id):
         if id in self.article_map_cate:
             return id
         return "padding"
+
     def init(self):
         self.article_map_cate["padding"] = self.category_size
         self.article_map_sub_cate["padding"] = self.sub_category_size
-        self.article_map_title["padding"] = [self.word_dict_size] * self.article_title_size
-        self.article_map_content["padding"] = [self.word_dict_size]* self.article_content_size
+        self.article_map_title["padding"] = [self.word_dict_size
+                                             ] * self.article_title_size
+        self.article_map_content["padding"] = [self.word_dict_size
+                                               ] * self.article_content_size
         #line [0]id cate_id sub_cate_id [3]title content
         for file in self.article_file_list:
-            with open(file,"r") as rf:
+            with open(file, "r") as rf:
                 for l in rf:
                     line = l.strip().split('\t')
                     id = line[0]
                     #line 0 cate   1:subcate,  2:title, 3 content;
-                    line = [[int(line[1])],[int(line[2])],[int(t) for t in line[3].split(" ")],[int(t) for t in line[4].split(" ")]]
-                    line[2] += [self.word_dict_size] * (self.article_title_size - len(line[2]))
-                    line[3] += [self.word_dict_size] * (self.article_content_size - len(line[3]))
+                    line = [[int(line[1])], [int(line[2])],
+                            [int(t) for t in line[3].split(" ")],
+                            [int(t) for t in line[4].split(" ")]]
+                    line[2] += [self.word_dict_size] * (
+                        self.article_title_size - len(line[2]))
+                    line[3] += [self.word_dict_size] * (
+                        self.article_content_size - len(line[3]))
                     self.article_map_cate[id] = line[0][0]
                     self.article_map_sub_cate[id] = line[1][0]
                     if len(line[2]) > self.article_title_size:
@@ -77,29 +103,61 @@ def __iter__(self):
                     line[0] += ["unk"] * (self.browse_size - len(line[0]))
                     neg_candidate = line[2]
                     if len(neg_candidate) < self.neg_condidate_sample_size:
-                        continue;
+                        continue
                     candidate = neg_candidate[:self.neg_condidate_sample_size]
                     candidate.append(line[1][0])
                     line[1] = []
                     ids = list(range(self.neg_condidate_sample_size + 1))
                     random.shuffle(ids)
                     label = []
                     for i in ids:
-                        line[1].append(candidate[i]) #1 condidate 0:visit
+                        line[1].append(candidate[i])  #1 condidate 0:visit
                         if i == self.neg_condidate_sample_size:
                             label.append(1)
                         else:
                             label.append(0)
 
                     article_list = [np.array(label)]
-#                    l = [self.article_map[i] for i in line[1]]
-                    article_list.append(np.array([self.article_map_cate[self.convert_unk(i)] for i in line[1]]))
-                    article_list.append(np.array([self.article_map_cate[self.convert_unk(i)] for i in line[0]]))
-                    article_list.append(np.array([self.article_map_sub_cate[self.convert_unk(i)] for i in line[1]]))
-                    article_list.append(np.array([self.article_map_sub_cate[self.convert_unk(i)] for i in line[0]]))
-                    article_list.append(np.array([self.article_map_title[self.convert_unk(i)] for i in line[1]]))
-                    article_list.append(np.array([self.article_map_title[self.convert_unk(i)] for i in line[0]]))
-                    article_list.append(np.array([self.article_map_content[self.convert_unk(i)] for i in line[1]]))
-                    article_list.append(np.array([self.article_map_content[self.convert_unk(i)] for i in line[0]]))
+                    #                    l = [self.article_map[i] for i in line[1]]
+                    article_list.append(
+                        np.array([
+                            self.article_map_cate[self.convert_unk(i)]
+                            for i in line[1]
+                        ]))
+                    article_list.append(
+                        np.array([
+                            self.article_map_cate[self.convert_unk(i)]
+                            for i in line[0]
+                        ]))
+                    article_list.append(
+                        np.array([
+                            self.article_map_sub_cate[self.convert_unk(i)]
+                            for i in line[1]
+                        ]))
+                    article_list.append(
+                        np.array([
+                            self.article_map_sub_cate[self.convert_unk(i)]
+                            for i in line[0]
+                        ]))
+                    article_list.append(
+                        np.array([
+                            self.article_map_title[self.convert_unk(i)]
+                            for i in line[1]
+                        ]))
+                    article_list.append(
+                        np.array([
+                            self.article_map_title[self.convert_unk(i)]
+                            for i in line[0]
+                        ]))
+                    article_list.append(
+                        np.array([
+                            self.article_map_content[self.convert_unk(i)]
+                            for i in line[1]
+                        ]))
+                    article_list.append(
+                        np.array([
+                            self.article_map_content[self.convert_unk(i)]
+                            for i in line[0]
+                        ]))
                     #output_list = [article_list,None]
                     yield article_list
diff --git a/models/rank/naml/README.md b/models/rank/naml/README.md
@@ -41,6 +41,11 @@
 }
 ```
 
+naml 实现了一个news-encoder, 通过text卷积提取文章特征并采用attention机制把特征压缩为一个n维向量(article embedding)，
+n篇用户浏览过的文章的article embedding向量组将再次通过attention机制被进一步压缩成最终的user-behavior-embedding（包含了用户行为特征）
+此user-behavior-embedding 和 一篇新文章的article embedding 的向量内积则表示用户对此文章的喜好程度。
+
+
 ## 数据准备
 此模型训练和预测涉及用户浏览文章历史，以及文章的具体信息，需要先收集所有训练和预测数据里出现过的文章，
 每篇文章用一行表示，存放在一个或多个以article{number}.txt为后缀的文件里，如article.txt, article3.txt
@@ -91,10 +96,11 @@ python3 -u ../../../tools/infer.py -m config.yaml
 ## 效果复现
 为了方便使用者能够快速的跑通每一个模型，我们在每个模型下都提供了样例数据。
 同时，我们处理好了一份中等规模的microsoft news dataset的数据，可以从https://paddlerec.bj.bcebos.com/datasets/MIND/bigdata.zip下载，
-之后解压到data目录,
-运行
+之后解压到 ../../../datasets/MIND目录,也可以直接运行../../../datasets/MIND目录下的run.sh生成训练，测试数据
+
+运行方式
 ```
-python3 -u ../../../tools/trainer.py -m config.yaml
+python3 -u ../../../tools/trainer.py -m config_bigdata.yaml
 ```
 以下为训练2个epoch的结果
 | 模型 | top1 acc | batch_size | epoch_num| Time of each epoch| 
@@ -103,11 +109,8 @@ python3 -u ../../../tools/trainer.py -m config.yaml
 
 预测
 ```
-python3 -u ../../../tools/infer.py -m config.yaml
+python3 -u ../../../tools/infer.py -m config_bigdata.yaml
 ```
 
-预测top1 acc:0.427
-2021-01-27 10:58:27,084 - INFO - epoch: 1 done, acc: 0.427140, epoch time: 126.27 s
-
-
-
+期待运行结果如下
+INFO - epoch: 1 done, acc: 0.427140, epoch time: 126.27 s
diff --git a/models/rank/naml/config_bigdata.yaml b/models/rank/naml/config_bigdata.yaml
@@ -13,20 +13,20 @@
 # limitations under the License.
 
 runner:
-  train_data_dir: "data/bigdata/train"
+  train_data_dir: "../../../datasets/MIND/data/train"
   train_reader_path: "NAMLDataReader" # importlib format
-  use_gpu: False
+  use_gpu: True
   train_batch_size: 50
-  epochs: 30
+  epochs: 2
   print_interval: 2
   #model_init_path: "output_model/0" # init model
   model_save_path: "output_model"
   infer_batch_size: 10
   infer_reader_path: "NAMLDataReader" # importlib format
-  test_data_dir: "data/bigdata/test"
+  test_data_dir:  "../../../datasets/MIND/data/test"
   infer_load_path: "output_model"
   infer_start_epoch: 0
-  infer_end_epoch: 3
+  infer_end_epoch: 1
 
 # hyper parameters of user-defined network
 hyper_parameters:
diff --git a/models/rank/naml/dygraph_model.py b/models/rank/naml/dygraph_model.py
@@ -23,17 +23,21 @@
 class DygraphModel():
     # define model
     def create_model(self, config):
-        article_content_size = config.get("hyper_parameters.article_content_size")
+        article_content_size = config.get(
+            "hyper_parameters.article_content_size")
         article_title_size = config.get("hyper_parameters.article_title_size")
         browse_size = config.get("hyper_parameters.browse_size")
-        neg_condidate_sample_size = config.get("hyper_parameters.neg_condidate_sample_size")
+        neg_condidate_sample_size = config.get(
+            "hyper_parameters.neg_condidate_sample_size")
         word_dimension = config.get("hyper_parameters.word_dimension")
         category_size = config.get("hyper_parameters.category_size")
         sub_category_size = config.get("hyper_parameters.sub_category_size")
         cate_dimension = config.get("hyper_parameters.category_dimension")
         word_dict_size = config.get("hyper_parameters.word_dict_size")
-        return net.NAMLLayer(article_content_size, article_title_size, browse_size, neg_condidate_sample_size,
-                             word_dimension, category_size, sub_category_size, cate_dimension, word_dict_size)
+        return net.NAMLLayer(article_content_size, article_title_size,
+                             browse_size, neg_condidate_sample_size,
+                             word_dimension, category_size, sub_category_size,
+                             cate_dimension, word_dict_size)
 
     # define feeds which convert numpy of batch data to paddle.tensor
     def create_feeds(self, batch, config):
@@ -42,7 +46,10 @@ def create_feeds(self, batch, config):
 
     # define loss function by predicts and label
     def create_loss(self, raw_pred, label):
-        cost = paddle.nn.functional.cross_entropy(input=raw_pred, label=paddle.cast(label, "float32"), soft_label=True)
+        cost = paddle.nn.functional.cross_entropy(
+            input=raw_pred,
+            label=paddle.cast(label, "float32"),
+            soft_label=True)
         avg_cost = paddle.mean(x=cost)
         return avg_cost
 
@@ -63,11 +70,13 @@ def create_metrics(self):
 
     # construct train forward phase
     def train_forward(self, dy_model, metrics_list, batch_data, config):
-        labels, sparse_tensor, dense_tensor = self.create_feeds(batch_data,config)
+        labels, sparse_tensor, dense_tensor = self.create_feeds(batch_data,
+                                                                config)
 
         raw = dy_model(sparse_tensor, None)
 
-        loss = paddle.nn.functional.cross_entropy(input=raw, label=paddle.cast(labels, "float32"), soft_label=True)
+        loss = paddle.nn.functional.cross_entropy(
+            input=raw, label=paddle.cast(labels, "float32"), soft_label=True)
         correct = metrics_list[0].compute(raw, labels)
         metrics_list[0].update(correct)
         loss = paddle.mean(loss)
@@ -81,4 +90,5 @@ def infer_forward(self, dy_model, metrics_list, batch_data, config):
         raw = paddle.nn.functional.softmax(raw)
         correct = metrics_list[0].compute(raw, label)
         metrics_list[0].update(correct)
+
         return metrics_list, None
diff --git a/models/rank/naml/net.py b/models/rank/naml/net.py

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+wget https://paddlerec.bj.bcebos.com/datasets/MIND/bigdata.zip`
	`2`	`+mkdir data`
	`3`	`+unzip bigdata.zip -d ./data`