PaddlePaddle
diff --git a/‎models/treebased/tdm/README.md‎
Lines changed: 1 addition & 0 deletions b/‎models/treebased/tdm/README.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎models/treebased/tdm/build_tree.md‎
Lines changed: 0 additions & 19 deletions b/‎models/treebased/tdm/build_tree.md‎
Lines changed: 0 additions & 19 deletions
diff --git a/‎models/treebased/tdm/config.yaml‎
Lines changed: 9 additions & 19 deletions b/‎models/treebased/tdm/config.yaml‎
Lines changed: 9 additions & 19 deletions
diff --git a/‎models/treebased/tdm/gen_tree/README.md‎
Lines changed: 120 additions & 0 deletions b/‎models/treebased/tdm/gen_tree/README.md‎
Lines changed: 120 additions & 0 deletions
diff --git a/‎models/treebased/tdm/gen_tree/__init__.py‎
Lines changed: 17 additions & 0 deletions b/‎models/treebased/tdm/gen_tree/__init__.py‎
Lines changed: 17 additions & 0 deletions
@@ -13,6 +13,7 @@ cd paddle-rec
 
 python -m paddlerec.run -m models/treebased/tdm/config.yaml
 ```
+3. 建树及自定义训练的细节可以查阅[TDM-Demo建树及训练](./gen_tree/README.md)
 
 ## 树结构的准备
 ### 名词概念
 
@@ -59,57 +59,47 @@ hyper_parameters:
     tree_emb_path: "{workspace}/tree/tree_emb.npy"
 
 # select runner by name
-mode: runner1
-# config of each runner.
-# runner is a kind of paddle training class, which wraps the train/infer process.
+mode: [runner1]
+
 runner:
 - name: runner1
   class: train
   startup_class_path: "{workspace}/tdm_startup.py"
-  # num of epochs
   epochs: 10
-  # device to run training or infer
   device: cpu
   save_checkpoint_interval: 2 # save model interval of epochs
-  save_inference_interval: 4 # save inference
   save_checkpoint_path: "increment" # save checkpoint path
-  save_inference_path: "inference" # save inference path
-  save_inference_feed_varnames: [] # feed vars of save inference
-  save_inference_fetch_varnames: [] # fetch vars of save inference
   init_model_path: "" # load model path
   print_interval: 10
+  phases: [phase1]
 
 - name: runner2
   class: infer
   startup_class_path: "{workspace}/tdm_startup.py"
-  # device to run training or infer
   device: cpu
   init_model_path: "increment/0" # load model path
   print_interval: 1
+  phases: [phase2]
 
 - name: runner3
   class: local_cluster_train
   startup_class_path: "{workspace}/tdm_startup.py"
   fleet_mode: ps
   epochs: 10
-  # device to run training or infer
   device: cpu
   save_checkpoint_interval: 2 # save model interval of epochs
-  save_inference_interval: 4 # save inference
   save_checkpoint_path: "increment" # save checkpoint path
-  save_inference_path: "inference" # save inference path
-  save_inference_feed_varnames: [] # feed vars of save inference
-  save_inference_fetch_varnames: [] # fetch vars of save inference
   init_model_path: "init_model" # load model path
   print_interval: 10
+  phases: [phase1]
 
 # runner will run all the phase in each epoch
 phase:
 - name: phase1
   model: "{workspace}/model.py" # user-defined model
   dataset_name: dataset_train # select dataset by name
   thread_num: 1
-# - name: phase2
-#   model: "{workspace}/model.py"
-#   dataset_name: dataset_infer
-#   thread_num: 2
+- name: phase2
+  model: "{workspace}/model.py"
+  dataset_name: dataset_infer
+  thread_num: 2
@@ -0,0 +1,120 @@
+# TDM-Demo建树及训练
+
+## 建树所需环境
+Requirements:
+- python >= 2.7
+- paddlepaddle >= 1.7.2（建议1.7.2）
+- paddle-rec （克隆github paddlerec，执行python setup.py install）
+- sklearn
+- anytree
+
+
+## 建树流程
+
+### 生成建树所需Embedding
+
+- 生成Fake的emb
+
+```shell
+cd gen_tree
+python -u emb_util.py
+```
+
+生成的emb维度是[13, 64]，含义是共有13个item，每个item的embedding维度是64，生成的item_emb位于`gen_tree/item_emb.txt`
+
+格式为`emb_value_0(float) 空格 emb_value_1(float) ... emb_value_63(float) \t item_id `
+
+在demo中，要求item的编号从0开始，范围 [0, item_nums-1]
+
+真实场景可以通过各种hash映射满足该要求
+
+### 对Item_embedding进行聚类建树
+
+执行
+
+```shell
+cd gen_tree
+# emd_path: item_emb的地址
+# emb_size: item_emb的第二个维度，即每个item的emb的size（示例中为64）
+# threads: 多线程建树配置的线程数
+# n_clusters: 最终建树为几叉树，此处设置为2叉树
+python gen_tree.py --emd_path item_emb.txt --emb_size 64 --output_dir ./output --threads 1 --n_clusters 2
+```
+
+生成的训练所需树结构文件位于`gen_tree/output`
+```shell
+.
+├── id2item.json         # 树节点id到item id的映射表
+├── layer_list.txt       # 树的每个层级都有哪些节点
+├── travel_list.npy      # 每个item从根到叶子的遍历路径，按item顺序排序
+├── travel_list.txt      # 上个文件的明文txt
+├── tree_embedding.txt   # 所有节点按节点id排列组成的embedding
+├── tree_emb.npy         # 上个文件的.npy版本
+├── tree_info.npy        # 每个节点：是否对应item/父/层级/子节点，按节点顺序排列
+├── tree_info.txt        # 上个文件的明文txt
+└── tree.pkl             # 聚类得到的树结构
+```
+
+我们最终需要使用建树生成的以下四个文件，参与网络训练，参考`models/treebased/tdm/config.yaml`
+
+1. layer_list.txt
+2. travel_list.npy 
+3. tree_info.npy
+4. tree_emb.npy
+
+
+### 执行训练
+
+- 更改`config.yaml`中的配置
+
+首先更改
+```yaml
+hyper_parameters:
+    # ...
+    tree:
+        # 单机训练建议tree只load一次，保存为paddle tensor，之后从paddle模型热启
+        # 分布式训练trainer需要独立load 
+        # 预测时也改为从paddle模型加载
+        load_tree_from_numpy: True # only once
+        load_paddle_model: False # train & infer need, after load from npy, change it to True
+        tree_layer_path: "{workspace}/tree/layer_list.txt"
+        tree_travel_path: "{workspace}/tree/travel_list.npy"
+        tree_info_path: "{workspace}/tree/tree_info.npy"
+        tree_emb_path: "{workspace}/tree/tree_emb.npy"
+```
+将上述几个path改为建树得到的文件所在的地址
+
+再更改
+```yaml
+hyper_parameters:
+  max_layers: 4                          # 不含根节点，树的层数
+  node_nums: 26                          # 树共有多少个节点，数量与tree_info文件的行数相等
+  leaf_node_nums: 13                     # 树共有多少个叶子节点
+  layer_node_num_list: [2, 4, 8, 10]     # 树的每层有多少个节点
+  child_nums: 2                          # 每个节点最多有几个孩子结点（几叉树）
+  neg_sampling_list: [1, 2, 3, 4]        # 在树的每层做多少负采样，训练自定义的参数
+```
+
+若并不知道对上面几个参数具体值，可以试运行一下，paddlerec读取建树生成的文件后，会将具体信息打印到屏幕上，如下所示：
+```shell
+...
+File_list: ['models/treebased/tdm/data/train/demo_fake_input.txt']
+2020-09-10 15:17:19,259 - INFO - Run TDM Trainer Startup Pass
+2020-09-10 15:17:19,283 - INFO - load tree from numpy
+2020-09-10 15:17:19,284 - INFO - TDM Tree leaf node nums: 13
+2020-09-10 15:17:19,284 - INFO - TDM Tree max layer: 4
+2020-09-10 15:17:19,284 - INFO - TDM Tree layer_node_num_list: [2, 4, 8, 10]
+2020-09-10 15:17:19,285 - INFO - Begin Save Init model.
+2020-09-10 15:17:19,394 - INFO - End Save Init model.
+Running SingleRunner.
+...
+```
+将其抄到配置中即可
+
+- 训练
+
+执行
+```
+cd /PaddleRec # PaddleRec 克隆的根目录
+python -m paddlerec.run -m models/treebased/tdm/config.yaml
+```
@@ -0,0 +1,17 @@
+# Copyright (c) 2020 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from . import cluster
+
+__all__ = []
+__all__ += cluster.__all__