Merge pull request #413 from tangzhiyi11/tzy

seemingwang · web-flow · commit 3ef7a1c1ff84 · 2021-05-14T13:42:04.000+08:00
support train naml on kunlun
diff --git a/models/rank/naml/config_bigdata_kunlun.yaml b/models/rank/naml/config_bigdata_kunlun.yaml
@@ -0,0 +1,48 @@
+# Copyright (c) 2020 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+runner:
+  train_data_dir: "../../../datasets/MIND/data/train"
+  train_reader_path: "NAMLDataReader" # importlib format
+  use_gpu: False
+  use_xpu: True
+  train_batch_size: 50
+  epochs: 2
+  print_interval: 10
+  #model_init_path: "output_model/0" # init model
+  model_save_path: "output_model_all"
+  infer_batch_size: 10
+  infer_reader_path: "NAMLDataReader" # importlib format
+  test_data_dir:  "../../../datasets/MIND/data/test"
+  infer_load_path: "output_model_all"
+  infer_start_epoch: 1
+  infer_end_epoch: 2
+
+# hyper parameters of user-defined network
+hyper_parameters:
+  # optimizer config
+  optimizer:
+    class: Adam
+    learning_rate: 0.001
+    strategy: async
+  # user-defined <key, value> pairs
+  article_content_size: 100
+  article_title_size: 10
+  browse_size: 30
+  neg_condidate_sample_size: 4
+  word_dimension: 60
+  category_dimension: 32
+  category_size: 19
+  sub_category_size: 294
+  word_dict_size: 31440
diff --git a/models/rank/naml/config_kunlun.yaml b/models/rank/naml/config_kunlun.yaml
@@ -0,0 +1,48 @@
+# Copyright (c) 2020 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+runner:
+  train_data_dir: "data/sample_data/train"
+  train_reader_path: "NAMLDataReader" # importlib format
+  use_gpu: False
+  use_xpu: True
+  train_batch_size: 10
+  epochs: 20
+  print_interval: 2
+  #model_init_path: "output_model/0" # init model
+  model_save_path: "output_model_all"
+  infer_batch_size: 2
+  infer_reader_path: "NAMLDataReader" # importlib format
+  test_data_dir: "data/sample_data/train"
+  infer_load_path: "output_model_all"
+  infer_start_epoch: 0
+  infer_end_epoch: 3
+
+# hyper parameters of user-defined network
+hyper_parameters:
+  # optimizer config
+  optimizer:
+    class: Adam
+    learning_rate: 0.001
+    strategy: async
+  # user-defined <key, value> pairs
+  article_content_size: 30
+  article_title_size: 10
+  browse_size: 10
+  neg_condidate_sample_size: 4
+  word_dimension: 30
+  category_size: 4
+  sub_category_size: 10
+  category_dimension: 32
+  word_dict_size: 101
diff --git a/models/rank/naml/train_on_kunlun.md b/models/rank/naml/train_on_kunlun.md
@@ -0,0 +1,52 @@
+# 使用昆仑XPU芯片加速NAML模型训练
+
+## 准备Paddle昆仑XPU版训练环境
+[昆仑XPU芯片运行飞桨](https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/xpu_docs/index_cn.html)
+
+## 数据准备
+
+### 示例数据
+参考 [数据准备](README##数据准备)
+
+
+### 全量数据
+```shell
+cd PaddleRec/datasets/MIND/data
+bash run.sh
+```
+
+## 训练
+```shell
+# 设置训练使用的昆仑XPU芯片卡号
+export FLAGS_selected_xpus=0
+# 开启昆仑XPU芯片卷积计算加速(可不设置)
+export XPU_CONV_AUTOTUNE=2
+
+cd PaddleRec/models/rank/naml 
+# 全量数据静态图训练
+python3.7 -u ../../../tools/static_trainer.py -m config_bigdata_kunlun.yaml # 使用示例数据，请指定config_kunlun.yaml
+```
+
+## 评估
+```shell
+# 设置训练使用的昆仑XPU芯片卡号
+export FLAGS_selected_xpus=0
+# 开启昆仑XPU芯片卷积计算加速(可不设置)
+export XPU_CONV_AUTOTUNE=2
+
+cd PaddleRec/models/rank/naml 
+# 全量数据静态图预测
+python3.7 -u ../../../tools/static_infer.py -m config_bigdata_kunlun.yaml # 使用示例数据，请指定config_kunlun.yaml
+```
+
+## 模型效果
+以下为全量数据训练2个epoch的结果:
+
+| 模型 | 训练auc |batch_size | epoch_num| Time of each epoch| 
+| :------| :------ | :------ | :------| :------ | 
+| naml | 0.71 | 50 | 2 | 约7小时 | 
+
+
+| 模型 | 预测auc |batch_size | Time of each epoch| 
+| :------| :------ | :------ | :------ | 
+| naml | 0.67 | 10 | 约2小时 | 
diff --git a/tools/infer.py b/tools/infer.py
@@ -63,6 +63,7 @@ def main(args):
 
     # tools.vars
     use_gpu = config.get("runner.use_gpu", True)
+    use_xpu = config.get("runner.use_xpu", False)
     use_visual = config.get("runner.use_visual", False)
     test_data_dir = config.get("runner.test_data_dir", None)
     print_interval = config.get("runner.print_interval", None)
@@ -73,12 +74,16 @@ def main(args):
 
     logger.info("**************common.configs**********")
     logger.info(
-        "use_gpu: {}, use_visual: {}, infer_batch_size: {}, test_data_dir: {}, start_epoch: {}, end_epoch: {}, print_interval: {}, model_load_path: {}".
-        format(use_gpu, use_visual, infer_batch_size, test_data_dir,
+        "use_gpu: {}, use_xpu: {}, use_visual: {}, infer_batch_size: {}, test_data_dir: {}, start_epoch: {}, end_epoch: {}, print_interval: {}, model_load_path: {}".
+        format(use_gpu, use_xpu, use_visual, infer_batch_size, test_data_dir,
                start_epoch, end_epoch, print_interval, model_load_path))
     logger.info("**************common.configs**********")
 
-    place = paddle.set_device('gpu' if use_gpu else 'cpu')
+    if use_xpu:
+        xpu_device = 'xpu:{0}'.format(os.getenv('FLAGS_selected_xpus', 0))
+        place = paddle.set_device(xpu_device)
+    else:
+        place = paddle.set_device('gpu' if use_gpu else 'cpu')
 
     dy_model = dy_model_class.create_model(config)
 
diff --git a/tools/static_infer.py b/tools/static_infer.py
@@ -68,6 +68,7 @@ def main(args):
     logger.info("cpu_num: {}".format(os.getenv("CPU_NUM")))
 
     use_gpu = config.get("runner.use_gpu", True)
+    use_xpu = config.get("runner.use_xpu", False)
     use_auc = config.get("runner.use_auc", False)
     use_visual = config.get("runner.use_visual", False)
     auc_num = config.get("runner.auc_num", 1)
@@ -80,12 +81,16 @@ def main(args):
     os.environ["CPU_NUM"] = str(config.get("runner.thread_num", 1))
     logger.info("**************common.configs**********")
     logger.info(
-        "use_gpu: {}, use_visual: {}, infer_batch_size: {}, test_data_dir: {}, start_epoch: {}, end_epoch: {}, print_interval: {}, model_load_path: {}".
-        format(use_gpu, use_visual, batch_size, test_data_dir, start_epoch,
-               end_epoch, print_interval, model_load_path))
+        "use_gpu: {}, use_xpu: {}, use_visual: {}, infer_batch_size: {}, test_data_dir: {}, start_epoch: {}, end_epoch: {}, print_interval: {}, model_load_path: {}".
+        format(use_gpu, use_xpu, use_visual, batch_size, test_data_dir,
+               start_epoch, end_epoch, print_interval, model_load_path))
     logger.info("**************common.configs**********")
 
-    place = paddle.set_device('gpu' if use_gpu else 'cpu')
+    if use_xpu:
+        xpu_device = 'xpu:{0}'.format(os.getenv('FLAGS_selected_xpus', 0))
+        place = paddle.set_device(xpu_device)
+    else:
+        place = paddle.set_device('gpu' if use_gpu else 'cpu')
     exe = paddle.static.Executor(place)
     # initialize
     exe.run(paddle.static.default_startup_program())
diff --git a/tools/static_trainer.py b/tools/static_trainer.py
@@ -72,6 +72,7 @@ def main(args):
     logger.info("cpu_num: {}".format(os.getenv("CPU_NUM")))
 
     use_gpu = config.get("runner.use_gpu", True)
+    use_xpu = config.get("runner.use_xpu", False)
     use_auc = config.get("runner.use_auc", False)
     use_visual = config.get("runner.use_visual", False)
     use_inference = config.get("runner.use_inference", False)
@@ -87,12 +88,16 @@ def main(args):
     os.environ["CPU_NUM"] = str(config.get("runner.thread_num", 1))
     logger.info("**************common.configs**********")
     logger.info(
-        "use_gpu: {}, use_visual: {}, train_batch_size: {}, train_data_dir: {}, epochs: {}, print_interval: {}, model_save_path: {}".
-        format(use_gpu, use_visual, batch_size, train_data_dir, epochs,
-               print_interval, model_save_path))
+        "use_gpu: {}, use_xpu: {}, use_visual: {}, train_batch_size: {}, train_data_dir: {}, epochs: {}, print_interval: {}, model_save_path: {}".
+        format(use_gpu, use_xpu, use_visual, batch_size, train_data_dir,
+               epochs, print_interval, model_save_path))
     logger.info("**************common.configs**********")
 
-    place = paddle.set_device('gpu' if use_gpu else 'cpu')
+    if use_xpu:
+        xpu_device = 'xpu:{0}'.format(os.getenv('FLAGS_selected_xpus', 0))
+        place = paddle.set_device(xpu_device)
+    else:
+        place = paddle.set_device('gpu' if use_gpu else 'cpu')
 
     if use_fleet:
         from paddle.distributed import fleet
diff --git a/tools/trainer.py b/tools/trainer.py
@@ -63,6 +63,7 @@ def main(args):
 
     # tools.vars
     use_gpu = config.get("runner.use_gpu", True)
+    use_xpu = config.get("runner.use_xpu", False)
     use_visual = config.get("runner.use_visual", False)
     train_data_dir = config.get("runner.train_data_dir", None)
     epochs = config.get("runner.epochs", None)
@@ -74,12 +75,16 @@ def main(args):
 
     logger.info("**************common.configs**********")
     logger.info(
-        "use_gpu: {}, use_visual: {}, train_batch_size: {}, train_data_dir: {}, epochs: {}, print_interval: {}, model_save_path: {}".
-        format(use_gpu, use_visual, train_batch_size, train_data_dir, epochs,
-               print_interval, model_save_path))
+        "use_gpu: {}, use_xpu: {}, use_visual: {}, train_batch_size: {}, train_data_dir: {}, epochs: {}, print_interval: {}, model_save_path: {}".
+        format(use_gpu, use_xpu, use_visual, train_batch_size, train_data_dir,
+               epochs, print_interval, model_save_path))
     logger.info("**************common.configs**********")
 
-    place = paddle.set_device('gpu' if use_gpu else 'cpu')
+    if use_xpu:
+        xpu_device = 'xpu:{0}'.format(os.getenv('FLAGS_selected_xpus', 0))
+        place = paddle.set_device(xpu_device)
+    else:
+        place = paddle.set_device('gpu' if use_gpu else 'cpu')
 
     dy_model = dy_model_class.create_model(config)