fix bug from qa

wangzhen38 · wangzhen38 · commit d3354e8f3126 · 2022-03-25T08:12:19.000Z
diff --git a/datasets/Avazu_flen/data_config.yaml b/datasets/Avazu_flen/data_config.yaml
@@ -14,7 +14,7 @@
 
 
 runner:
-  raw_file_dir: "path"  # raw_data dir
+  raw_file_dir: "raw_file/train"  # raw_data dir
   raw_filled_file_dir: "./raw_data" # raw_data_filled dir
   train_data_dir: "./train_data_full"  # train datasets
   test_data_dir:  "./test_data_full"  # test datasets
diff --git a/datasets/Avazu_flen/preprocess.py b/datasets/Avazu_flen/preprocess.py
@@ -59,7 +59,7 @@ def __init__(self, config):
         self.min_threshold = self.config.get("runner.min_threshold")
         self.feature_map_cache = self.config.get("runner.feature_map_cache")
 
-        # self.filled_raw()
+        self.filled_raw()
 
         self.init()
 
diff --git a/datasets/Avazu_flen/readme.md b/datasets/Avazu_flen/readme.md
@@ -2,11 +2,11 @@
 #### 1.Get raw datasets:
 you can go to：[https://www.kaggle.com/c/avazu-ctr-prediction/data](https://www.kaggle.com/c/avazu-ctr-prediction)
 
-将下载的原始数据目录配置在data_config.yaml中，执行命令获取全量数据
+将下载的数据解压后，只保留训练集即可，且命名为`train``
 
 | 名称 | 说明 | 
 | -------- | -------- | 
-| raw_file_dir | 原始数据集目录 |
+| raw_file | 原始数据集目录 |
 | raw_filled_file_dir     | 原始数据缺失值处理后的目录     |
 |   train_data_dir   | 训练集存放目录     | 
 |   test_data_dir   | 测试集存放目录     | 
@@ -15,9 +15,9 @@ you can go to：[https://www.kaggle.com/c/avazu-ctr-prediction/data](https://www
 | feature_map_cache     | 特征缓存数据     | 
 
 
-
+然后执行脚本
 ```bash
-sh data_process.sh
+sh run.sh
 ```
 #### 2.Get preprocessd datasets:
 you can also go to: [AiStudio数据集](https://aistudio.baidu.com/aistudio/datasetdetail/125200)
diff --git a/datasets/Avazu_flen/run.sh b/datasets/Avazu_flen/run.sh
@@ -1 +1,7 @@
+mkdir train_data_full
+mkdir test_data_full
+mkdir raw_file
+mkdir raw_filled_file_dir
+mv train ./raw_file
+
 python preprocess.py -m data_config.yaml
diff --git a/models/rank/dcn_v2/README.md b/models/rank/dcn_v2/README.md
@@ -4,9 +4,7 @@
 
 ```
 ├── data # 样例数据
-    ├── sample_data # 样例数据
-        ├── train
-            ├── sample_train.txt # 训练数据样例
+    ├── sample_train.txt # 训练数据样例
 ├── __init__.py
 ├── README.md # 文档
 ├── config.yaml # sample数据配置
diff --git a/models/rank/flen/README.md b/models/rank/flen/README.md
@@ -63,8 +63,14 @@ os : windows/linux/macos
 
 ## 快速开始
 
-
-本文提供了[FLEN-Paddle AiStudio项目](https://aistudio.baidu.com/aistudio/projectdetail/3247609)可以供您快速体验，进入项目快速开始。
+本文提供了样例数据可以供您快速体验，在任意目录下均可执行。在FLEN模型目录的快速执行命令如下： 
+```bash
+# 进入模型目录
+# cd models/rank/flen # 在任意目录均可运行
+# 动态图训练
+python -u ../../../tools/trainer.py -m config.yaml # 全量数据运行config_bigdata.yaml 
+# 动态图预测
+python -u ../../../tools/infer.py -m config.yaml # 全量数据运行config_bigdata.yaml
 
 
 ## 模型组网
diff --git a/models/rank/flen/config.yaml b/models/rank/flen/config.yaml
@@ -14,7 +14,7 @@
 
 
 runner:
-  train_data_dir: "./data/sample_data/dataset"
+  train_data_dir: "./data/sample_data/train"
   train_reader_path: "avazu_reader" # importlib format
   use_gpu: False
   use_auc: True
@@ -25,7 +25,7 @@ runner:
 
   #model_init_path: "output_model/0" # init model
   model_save_path: "output_model_flen"
-  test_data_dir:  "./data/sample_data/dataset" #"../../../../data/test"
+  test_data_dir:  "./data/sample_data/train" #"../../../../data/test"
   infer_reader_path: "avazu_reader" # importlib format
   infer_batch_size: 3 #512
   infer_load_path: "output_model_flen"
@@ -41,7 +41,7 @@ hyper_parameters:
     learning_rate: 0.04
     strategy: async
   # user-defined <key, value> pairs
-  sparse_inputs_slots: 23
+  sparse_inputs_slots: 22
   sparse_feature_number: 20 #1544488
   sparse_num_field: 3
   sparse_feature_dim: 32
diff --git a/models/recall/mhcn/README.md b/models/recall/mhcn/README.md
@@ -6,10 +6,6 @@
 
 ```
 ├── data # 样例数据
-    ├── train
-        ├── train.txt
-    ├── test
-        ├── test.txt
     ├── ratings.txt
     ├── trusts.txt
 ├── __init__.py