Merge pull request #386 from seemingwang/master

frankwhzhang · web-flow · commit fec3bdefff89 · 2021-03-15T16:01:56.000+08:00
naml static model for cross_entropy test
diff --git a/models/rank/naml/README.md b/models/rank/naml/README.md
@@ -51,11 +51,11 @@ n篇用户浏览过的文章的article embedding向量组将再次通过attentio
 每篇文章用一行表示，存放在一个或多个以article{number}.txt为后缀的文件里，如article.txt, article3.txt
 每行的格式为：
 文章id 主类id 子类id 分词后的文章标题id 分词后的文章单词id
-以上5项用分号分割，id均为自然数，分词后的文章标题id 和 分词后的文章单词id 都用空格做分隔符
+以上5项用tab符号分割，id均为自然数，分词后的文章标题id 和 分词后的文章单词id 都用空格做分隔符
 另外还需要收集用户的浏览记录，存放在一个或多个以browse{number}.txt为后缀的文件里，如browse.txt, browse3.txt
 每个用户的单次浏览序列用一行表示，格式为：
 浏览过的文章id序列 接下来浏览过的文章id 接下来没浏览的文章id序列
-以上3项用分号分割，id序列之间用空格分割，接下来没浏览的文章id序列如果没有实际数据，可以采用负采样生成,
+以上3项用tab符号分割，id序列之间用空格分割，接下来没浏览的文章id序列如果没有实际数据，可以采用负采样生成,
 但是没浏览的序列id个数建议大于等于yaml配置文件中的neg_candidate_size
 
 在模型目录的data/sample_data目录下为您准备了快速运行的示例数据
@@ -97,7 +97,7 @@ python3 -u ../../../tools/infer.py -m config.yaml
 为了方便使用者能够快速的跑通每一个模型，我们在每个模型下都提供了样例数据。
 同时，我们提供了全量数据生成的脚本，将会自动下载microsoft news dataset全量数据集并转换为模型能接受的
 输入格式，执行方法如下：
-PaddleRec/datasets/MIND/data
+进入路径PaddleRec/datasets/MIND/data
 执行 sh run.sh
 脚本运行完成后，打开dict/yaml_info.txt，将其中的词向量大小，类目大小，子类目大小信息copy到config_bigdata.yaml
 里，替换最后3行的超参数
@@ -109,13 +109,20 @@ PaddleRec/datasets/MIND/data
 python3 -u ../../../tools/trainer.py -m config_bigdata.yaml
 ```
 以下为训练2个epoch的结果
-| 模型 | top1 acc | batch_size | epoch_num| Time of each epoch| 
+| 模型 | auc | batch_size | epoch_num| Time of each epoch| 
 | :------| :------ | :------ | :------| :------ | 
-| naml | 0.72 | 50 | 3 | 约4小时 | 
+| naml | 0.66 | 50 | 3 | 约4小时 | 
 
 预测
 ```
 python3 -u ../../../tools/infer.py -m config_bigdata.yaml
 ```
 
 期待预测auc为0.66
+
+
+单机多卡执行方式(以训练为例)
+python3 -m paddle.distributed.launch ../../../tools/trainer.py -m config_bigdata.yaml
+在此情况下将使用单机上所有gpu卡，若需要指定部分gpu卡执行，可以通过设置环境变量CUDA_VISIBLE_DEVICES
+来实现。例如单机上有8张卡，只打算用前4卡张训练，可以设置export CUDA_VISIBLE_DEVICES=0,1,2,3
+再执行训练脚本即可。
diff --git a/models/rank/naml/config_bigdata.yaml b/models/rank/naml/config_bigdata.yaml
@@ -15,7 +15,7 @@
 runner:
   train_data_dir: "../../../datasets/MIND/data/train"
   train_reader_path: "NAMLDataReader" # importlib format
-  use_gpu: False
+  use_gpu: True
   train_batch_size: 50
   epochs: 2
   print_interval: 10
diff --git a/models/rank/naml/dygraph_model.py b/models/rank/naml/dygraph_model.py
@@ -19,19 +19,20 @@
 import numpy as np
 
 import net
+import sys
 
 
 class DygraphModel():
-    def __init__(self):
-        self.bucket = 100000
-        self.absolute_limt = 200.0
-
-    def rescale(self, number):
-        if number > self.absolute_limt:
-            number = self.absolute_limt
-        elif number < -self.absolute_limt:
-            number = -self.absolute_limt
-        return (number + self.absolute_limt) / (self.absolute_limt * 2 + 1e-8)
+    # def __init__(self):
+    #     self.bucket = 100000
+    #     self.absolute_limt = 200.0
+    #
+    # def rescale(self, number):
+    #     if number > self.absolute_limt:
+    #         number = self.absolute_limt
+    #     elif number < -self.absolute_limt:
+    #         number = -self.absolute_limt
+    #     return (number + self.absolute_limt) / (self.absolute_limt * 2 + 1e-8)
 
     # define model
     def create_model(self, config):
@@ -54,7 +55,7 @@ def create_model(self, config):
     # define feeds which convert numpy of batch data to paddle.tensor
     def create_feeds(self, batch, config):
         label = batch[0]
-        return label, batch[1:], None
+        return label, batch[1:]
 
     # define loss function by predicts and label
     def create_loss(self, raw_pred, label):
@@ -78,50 +79,37 @@ def create_metrics(self):
         # metrics_list_name = ["acc"]
         # auc_metric = paddle.metric.Accuracy()
         metrics_list_name = ["auc"]
-        auc_metric = paddle.metric.Auc(num_thresholds=self.bucket)
+        auc_metric = paddle.metric.Auc()
         metrics_list = [auc_metric]
         return metrics_list, metrics_list_name
 
     # construct train forward phase
     def train_forward(self, dy_model, metrics_list, batch_data, config):
-        labels, sparse_tensor, dense_tensor = self.create_feeds(batch_data,
-                                                                config)
+        labels, sparse_tensor = self.create_feeds(batch_data, config)
 
-        raw = dy_model(sparse_tensor, None)
+        raw = dy_model(sparse_tensor)
 
         loss = paddle.nn.functional.cross_entropy(
             input=raw, label=paddle.cast(labels, "float32"), soft_label=True)
 
-        scaled = raw.numpy()
-        scaled_pre = []
-        [rows, cols] = scaled.shape
-        for i in range(rows):
-            for j in range(cols):
-                scaled_pre.append(1.0 - self.rescale(scaled[i, j]))
-                scaled_pre.append(self.rescale(scaled[i, j]))
-        scaled_np_predict = np.array(scaled_pre).reshape([-1, 2])
-        metrics_list[0].update(scaled_np_predict,
-                               paddle.reshape(labels, [-1, 1]))
+        soft_predict = paddle.nn.functional.sigmoid(
+            paddle.reshape(raw, [-1, 1]))
+        predict_2d = paddle.concat(x=[1 - soft_predict, soft_predict], axis=-1)
+        labels = paddle.reshape(labels, [-1, 1])
+        metrics_list[0].update(preds=predict_2d.numpy(), labels=labels.numpy())
 
         loss = paddle.mean(loss)
         print_dict = None
         return loss, metrics_list, print_dict
 
     def infer_forward(self, dy_model, metrics_list, batch_data, config):
-        labels, sparse_tensor, dense_tensor = self.create_feeds(batch_data,
-                                                                config)
-        raw = dy_model(sparse_tensor, None)
+        labels, sparse_tensor = self.create_feeds(batch_data, config)
+        raw = dy_model(sparse_tensor)
         #predict_raw = paddle.nn.functional.softmax(raw)
 
-        scaled = raw.numpy()
-        scaled_pre = []
-        [rows, cols] = scaled.shape
-        for i in range(rows):
-            for j in range(cols):
-                scaled_pre.append(1.0 - self.rescale(scaled[i, j]))
-                scaled_pre.append(self.rescale(scaled[i, j]))
-        scaled_np_predict = np.array(scaled_pre).reshape([-1, 2])
-        metrics_list[0].update(scaled_np_predict,
-                               paddle.reshape(labels, [-1, 1]))
-
+        soft_predict = paddle.nn.functional.sigmoid(
+            paddle.reshape(raw, [-1, 1]))
+        predict_2d = paddle.concat(x=[1 - soft_predict, soft_predict], axis=-1)
+        labels = paddle.reshape(labels, [-1, 1])
+        metrics_list[0].update(preds=predict_2d.numpy(), labels=labels.numpy())
         return metrics_list, None
diff --git a/models/rank/naml/net.py b/models/rank/naml/net.py
@@ -144,7 +144,7 @@ def __init__(self, article_content_size, article_title_size, browse_size,
         self.content_attention = self.make_attention_layer(
             "content_attention",
             [self.conv_out_channel_size, self.attention_projection_size])
-        print(self.word2vec_embedding)
+        #print(self.word2vec_embedding)
 
     def make_attention_layer(self, name_base, size):
         row = size[0]
@@ -182,7 +182,7 @@ def func(input):
 
         return func
 
-    def forward(self, sparse_inputs, dense_inputs):
+    def forward(self, sparse_inputs):
         cate_sample, cate_visit, sub_cate_sample, sub_cate_visit, title_sample, title_visit, content_sample, content_visit = sparse_inputs[:]
         cate = paddle.concat([cate_sample, cate_visit], axis=-1)
         sub_cate = paddle.concat([sub_cate_sample, sub_cate_visit], axis=-1)
diff --git a/models/rank/naml/static_model.py b/models/rank/naml/static_model.py
@@ -0,0 +1,131 @@
+# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import math
+import paddle
+
+from net import NAMLLayer
+
+
+class StaticModel():
+    def __init__(self, config):
+        self.cost = None
+        self.infer_target_var = None
+        self.config = config
+        self._init_hyper_parameters()
+
+    def _init_hyper_parameters(self):
+        self.article_content_size = self.config.get(
+            "hyper_parameters.article_content_size")
+        self.article_title_size = self.config.get(
+            "hyper_parameters.article_title_size")
+        self.browse_size = self.config.get("hyper_parameters.browse_size")
+        self.neg_condidate_sample_size = self.config.get(
+            "hyper_parameters.neg_condidate_sample_size")
+        self.word_dimension = self.config.get(
+            "hyper_parameters.word_dimension")
+        self.category_size = self.config.get("hyper_parameters.category_size")
+        self.sub_category_size = self.config.get(
+            "hyper_parameters.sub_category_size")
+        self.cate_dimension = self.config.get(
+            "hyper_parameters.category_dimension")
+        self.word_dict_size = self.config.get(
+            "hyper_parameters.word_dict_size")
+        self.learning_rate = self.config.get(
+            "hyper_parameters.optimizer.learning_rate")
+        self.sample_size = self.neg_condidate_sample_size + 1
+
+    def create_feeds(self, is_infer=False):
+        inputs = [
+            paddle.static.data(
+                name="sampe_cate",
+                shape=[None, self.sample_size],
+                dtype='int64'), paddle.static.data(
+                    name="browse_cate",
+                    shape=[None, self.browse_size],
+                    dtype='int64'), paddle.static.data(
+                        name="sampe_sub_cate",
+                        shape=[None, self.sample_size],
+                        dtype='int64'), paddle.static.data(
+                            name="browse_sub_cate",
+                            shape=[None, self.browse_size],
+                            dtype='int64'),
+            paddle.static.data(
+                name="sampe_title",
+                shape=[None, self.sample_size, self.article_title_size],
+                dtype='int64'), paddle.static.data(
+                    name="browse_title",
+                    shape=[None, self.browse_size, self.article_title_size],
+                    dtype='int64'),
+            paddle.static.data(
+                name="sample_article",
+                shape=[None, self.sample_size, self.article_content_size],
+                dtype='int64'), paddle.static.data(
+                    name="browse_article",
+                    shape=[None, self.browse_size, self.article_content_size],
+                    dtype='int64')
+        ]
+        label = paddle.static.data(
+            name="label", shape=[None, self.sample_size], dtype="int64")
+        return [label] + inputs
+
+    def net(self, input, is_infer=False):
+        self.labels = input[0]
+        self.sparse_inputs = input[1:]
+        #self.dense_input = input[-1]
+        #sparse_number = self.sparse_inputs_slots - 1
+        model = NAMLLayer(self.article_content_size, self.article_title_size,
+                          self.browse_size, self.neg_condidate_sample_size,
+                          self.word_dimension, self.category_size,
+                          self.sub_category_size, self.cate_dimension,
+                          self.word_dict_size)
+
+        raw = model(self.sparse_inputs)
+
+        soft_predict = paddle.nn.functional.sigmoid(
+            paddle.reshape(raw, [-1, 1]))
+        predict_2d = paddle.concat(x=[1 - soft_predict, soft_predict], axis=-1)
+        labels = paddle.reshape(self.labels, [-1, 1])
+        #metrics_list[0].update(preds=predict_2d.numpy(), labels=labels.numpy())
+        #self.predict = predict_2d
+
+        auc, batch_auc, _ = paddle.static.auc(input=predict_2d,
+                                              label=labels,
+                                              num_thresholds=2**12,
+                                              slide_steps=20)
+        self.inference_target_var = auc
+        if is_infer:
+            fetch_dict = {'auc': auc}
+            return fetch_dict
+
+        cost = paddle.nn.functional.cross_entropy(
+            input=raw,
+            label=paddle.cast(self.labels, "float32"),
+            soft_label=True)
+        avg_cost = paddle.mean(x=cost)
+        self._cost = avg_cost
+
+        fetch_dict = {'cost': avg_cost, 'auc': auc}
+        return fetch_dict
+
+    def create_optimizer(self, strategy=None):
+        optimizer = paddle.optimizer.Adam(
+            learning_rate=self.learning_rate, lazy_mode=True)
+        if strategy != None:
+            import paddle.distributed.fleet as fleet
+            optimizer = fleet.distributed_optimizer(optimizer, strategy)
+        optimizer.minimize(self._cost)
+
+    def infer_net(self, input):
+        return self.net(input, is_infer=True)