Merge pull request #406 from yinhaofeng/log_normalization

seemingwang · web-flow · commit 779f512a5c8b · 2021-04-07T19:22:48.000+08:00
log normalization
diff --git a/tools/infer.py b/tools/infer.py
@@ -50,6 +50,7 @@
 def parse_args():
     parser = argparse.ArgumentParser(description='paddle-rec run')
     parser.add_argument("-m", "--config_yaml", type=str)
+    parser.add_argument("-o", "--opt", nargs='*', type=str)
     args = parser.parse_args()
     args.abs_dir = os.path.dirname(os.path.abspath(args.config_yaml))
     args.config_yaml = get_abs_model(args.config_yaml)
@@ -62,20 +63,28 @@ def main(args):
     config = load_yaml(args.config_yaml)
     dy_model_class = load_dy_model_class(args.abs_dir)
     config["config_abs_dir"] = args.abs_dir
+    # modify config from command
+    if args.opt:
+        for parameter in args.opt:
+            parameter = parameter.strip()
+            key, value = parameter.split("=")
+            config[key] = value
+
     # tools.vars
     use_gpu = config.get("runner.use_gpu", True)
     use_visual = config.get("runner.use_visual", False)
     test_data_dir = config.get("runner.test_data_dir", None)
     print_interval = config.get("runner.print_interval", None)
+    infer_batch_size = config.get("runner.infer_batch_size", None)
     model_load_path = config.get("runner.infer_load_path", "model_output")
     start_epoch = config.get("runner.infer_start_epoch", 0)
     end_epoch = config.get("runner.infer_end_epoch", 10)
 
     logger.info("**************common.configs**********")
     logger.info(
-        "use_gpu: {}, use_visual: {}, test_data_dir: {}, start_epoch: {}, end_epoch: {}, print_interval: {}, model_load_path: {}".
-        format(use_gpu, use_visual, test_data_dir, start_epoch, end_epoch,
-               print_interval, model_load_path))
+        "use_gpu: {}, use_visual: {}, infer_batch_size: {}, test_data_dir: {}, start_epoch: {}, end_epoch: {}, print_interval: {}, model_load_path: {}".
+        format(use_gpu, use_visual, infer_batch_size, test_data_dir,
+               start_epoch, end_epoch, print_interval, model_load_path))
     logger.info("**************common.configs**********")
 
     place = paddle.set_device('gpu' if use_gpu else 'cpu')
@@ -105,12 +114,20 @@ def main(args):
         model_path = os.path.join(model_load_path, str(epoch_id))
         load_model(model_path, dy_model)
         dy_model.eval()
+        infer_reader_cost = 0.0
+        infer_run_cost = 0.0
+        reader_start = time.time()
+
         for batch_id, batch in enumerate(test_dataloader()):
+            infer_reader_cost += time.time() - reader_start
+            infer_start = time.time()
             batch_size = len(batch[0])
 
             metric_list, tensor_print_dict = dy_model_class.infer_forward(
                 dy_model, metric_list, batch, config)
 
+            infer_run_cost += time.time() - infer_start
+
             if batch_id % print_interval == 0:
                 tensor_print_str = ""
                 if tensor_print_dict is not None:
@@ -133,13 +150,19 @@ def main(args):
                             tag="infer/" + metric_list_name[metric_id],
                             step=step_num,
                             value=metric_list[metric_id].accumulate())
-                logger.info("epoch: {}, batch_id: {}, ".format(
-                    epoch_id, batch_id) + metric_str + tensor_print_str +
-                            " speed: {:.2f} ins/s".format(
-                                print_interval * batch_size / (time.time(
-                                ) - interval_begin)))
+                logger.info(
+                    "epoch: {}, batch_id: {}, ".format(
+                        epoch_id, batch_id) + metric_str + tensor_print_str +
+                    " avg_reader_cost: {:.5f} sec, avg_batch_cost: {:.5f} sec, avg_samples: {:.5f}, ips: {:.2f} ins/s".
+                    format(infer_reader_cost / print_interval, (
+                        infer_reader_cost + infer_run_cost) / print_interval,
+                           infer_batch_size, print_interval * batch_size / (
+                               time.time() - interval_begin)))
                 interval_begin = time.time()
+                infer_reader_cost = 0.0
+                infer_run_cost = 0.0
             step_num = step_num + 1
+            reader_start = time.time()
 
         metric_str = ""
         for metric_id in range(len(metric_list_name)):
diff --git a/tools/static_infer.py b/tools/static_infer.py
@@ -35,6 +35,7 @@
 def parse_args():
     parser = argparse.ArgumentParser("PaddleRec train static script")
     parser.add_argument("-m", "--config_yaml", type=str)
+    parser.add_argument("-o", "--opt", nargs='*', type=str)
     args = parser.parse_args()
     args.abs_dir = os.path.dirname(os.path.abspath(args.config_yaml))
     args.config_yaml = get_abs_model(args.config_yaml)
@@ -47,6 +48,12 @@ def main(args):
     # load config
     config = load_yaml(args.config_yaml)
     config["config_abs_dir"] = args.abs_dir
+    # modify config from command
+    if args.opt:
+        for parameter in args.opt:
+            parameter = parameter.strip()
+            key, value = parameter.split("=")
+            config[key] = value
     # load static model class
     static_model_class = load_static_model_class(config)
 
@@ -69,9 +76,9 @@ def main(args):
     os.environ["CPU_NUM"] = str(config.get("runner.thread_num", 1))
     logger.info("**************common.configs**********")
     logger.info(
-        "use_gpu: {}, use_visual: {}, test_data_dir: {}, start_epoch: {}, end_epoch: {}, print_interval: {}, model_load_path: {}".
-        format(use_gpu, use_visual, test_data_dir, start_epoch, end_epoch,
-               print_interval, model_load_path))
+        "use_gpu: {}, use_visual: {}, infer_batch_size: {}, test_data_dir: {}, start_epoch: {}, end_epoch: {}, print_interval: {}, model_load_path: {}".
+        format(use_gpu, use_visual, batch_size, test_data_dir, start_epoch,
+               end_epoch, print_interval, model_load_path))
     logger.info("**************common.configs**********")
 
     place = paddle.set_device('gpu' if use_gpu else 'cpu')
@@ -98,13 +105,20 @@ def main(args):
 
         epoch_begin = time.time()
         interval_begin = time.time()
+        infer_reader_cost = 0.0
+        infer_run_cost = 0.0
+        reader_start = time.time()
+
         if use_auc:
             reset_auc(auc_num)
         for batch_id, batch_data in enumerate(test_dataloader()):
+            infer_reader_cost += time.time() - reader_start
+            infer_start = time.time()
             fetch_batch_var = exe.run(
                 program=paddle.static.default_main_program(),
                 feed=dict(zip(input_data_names, batch_data)),
                 fetch_list=[var for _, var in fetch_vars.items()])
+            infer_run_cost += time.time() - infer_start
             if batch_id % print_interval == 0:
                 metric_str = ""
                 for var_idx, var_name in enumerate(fetch_vars):
@@ -115,11 +129,17 @@ def main(args):
                             tag="infer/" + var_name,
                             step=step_num,
                             value=fetch_batch_var[var_idx][0])
-                logger.info("epoch: {}, batch_id: {}, ".format(
-                    epoch_id, batch_id) + metric_str + "speed: {:.2f} ins/s".
-                            format(print_interval * batch_size / (time.time(
-                            ) - interval_begin)))
+                logger.info(
+                    "epoch: {}, batch_id: {}, ".format(epoch_id,
+                                                       batch_id) + metric_str +
+                    "avg_reader_cost: {:.5f} sec, avg_batch_cost: {:.5f} sec, avg_samples: {:.5f}, ips: {:.2f} ins/s".
+                    format(infer_reader_cost / print_interval, (
+                        infer_reader_cost + infer_run_cost) / print_interval,
+                           batch_size, print_interval * batch_size / (
+                               time.time() - interval_begin)))
                 interval_begin = time.time()
+                infer_reader_cost = 0.0
+                infer_run_cost = 0.0
             reader_start = time.time()
             step_num = step_num + 1
 
diff --git a/tools/static_trainer.py b/tools/static_trainer.py
@@ -36,6 +36,7 @@
 def parse_args():
     parser = argparse.ArgumentParser("PaddleRec train static script")
     parser.add_argument("-m", "--config_yaml", type=str)
+    parser.add_argument("-o", "--opt", nargs='*', type=str)
     args = parser.parse_args()
     args.abs_dir = os.path.dirname(os.path.abspath(args.config_yaml))
     args.config_yaml = get_abs_model(args.config_yaml)
@@ -49,6 +50,12 @@ def main(args):
     config = load_yaml(args.config_yaml)
     config["yaml_path"] = args.config_yaml
     config["config_abs_dir"] = args.abs_dir
+    # modify config from command
+    if args.opt:
+        for parameter in args.opt:
+            parameter = parameter.strip()
+            key, value = parameter.split("=")
+            config[key] = value
     # load static model class
     static_model_class = load_static_model_class(config)
 
@@ -74,9 +81,9 @@ def main(args):
     os.environ["CPU_NUM"] = str(config.get("runner.thread_num", 1))
     logger.info("**************common.configs**********")
     logger.info(
-        "use_gpu: {}, use_visual: {}, train_data_dir: {}, epochs: {}, print_interval: {}, model_save_path: {}".
-        format(use_gpu, use_visual, train_data_dir, epochs, print_interval,
-               model_save_path))
+        "use_gpu: {}, use_visual: {}, train_batch_size: {}, train_data_dir: {}, epochs: {}, print_interval: {}, model_save_path: {}".
+        format(use_gpu, use_visual, batch_size, train_data_dir, epochs,
+               print_interval, model_save_path))
     logger.info("**************common.configs**********")
 
     place = paddle.set_device('gpu' if use_gpu else 'cpu')
@@ -179,7 +186,7 @@ def dataloader_train(epoch_id, train_dataloader, input_data_names, fetch_vars,
             logger.info(
                 "epoch: {}, batch_id: {}, ".format(epoch_id,
                                                    batch_id) + metric_str +
-                "avg_reader_cost: {:.5f} sec, avg_batch_cost: {:.5f} sec, avg_samples: {:.5f}, ips: {:.5f} images/sec".
+                "avg_reader_cost: {:.5f} sec, avg_batch_cost: {:.5f} sec, avg_samples: {:.5f}, ips: {:.5f} ins/s".
                 format(train_reader_cost / print_interval, (
                     train_reader_cost + train_run_cost) / print_interval,
                        total_samples / print_interval, total_samples / (
diff --git a/tools/trainer.py b/tools/trainer.py
@@ -50,6 +50,7 @@
 def parse_args():
     parser = argparse.ArgumentParser(description='paddle-rec run')
     parser.add_argument("-m", "--config_yaml", type=str)
+    parser.add_argument("-o", "--opt", nargs='*', type=str)
     args = parser.parse_args()
     args.abs_dir = os.path.dirname(os.path.abspath(args.config_yaml))
     args.config_yaml = get_abs_model(args.config_yaml)
@@ -62,21 +63,28 @@ def main(args):
     config = load_yaml(args.config_yaml)
     dy_model_class = load_dy_model_class(args.abs_dir)
     config["config_abs_dir"] = args.abs_dir
+    # modify config from command
+    if args.opt:
+        for parameter in args.opt:
+            parameter = parameter.strip()
+            key, value = parameter.split("=")
+            config[key] = value
 
     # tools.vars
     use_gpu = config.get("runner.use_gpu", True)
     use_visual = config.get("runner.use_visual", False)
     train_data_dir = config.get("runner.train_data_dir", None)
     epochs = config.get("runner.epochs", None)
     print_interval = config.get("runner.print_interval", None)
+    train_batch_size = config.get("runner.train_batch_size", None)
     model_save_path = config.get("runner.model_save_path", "model_output")
     model_init_path = config.get("runner.model_init_path", None)
 
     logger.info("**************common.configs**********")
     logger.info(
-        "use_gpu: {}, use_visual: {}, train_data_dir: {}, epochs: {}, print_interval: {}, model_save_path: {}".
-        format(use_gpu, use_visual, train_data_dir, epochs, print_interval,
-               model_save_path))
+        "use_gpu: {}, use_visual: {}, train_batch_size: {}, train_data_dir: {}, epochs: {}, print_interval: {}, model_save_path: {}".
+        format(use_gpu, use_visual, train_batch_size, train_data_dir, epochs,
+               print_interval, model_save_path))
     logger.info("**************common.configs**********")
 
     place = paddle.set_device('gpu' if use_gpu else 'cpu')
@@ -151,7 +159,7 @@ def main(args):
                 logger.info(
                     "epoch: {}, batch_id: {}, ".format(
                         epoch_id, batch_id) + metric_str + tensor_print_str +
-                    " avg_reader_cost: {:.5f} sec, avg_batch_cost: {:.5f} sec, avg_samples: {:.5f}, ips: {:.5f} images/sec".
+                    " avg_reader_cost: {:.5f} sec, avg_batch_cost: {:.5f} sec, avg_samples: {:.5f}, ips: {:.5f} ins/s".
                     format(train_reader_cost / print_interval, (
                         train_reader_cost + train_run_cost) / print_interval,
                            total_samples / print_interval, total_samples / (
@@ -168,8 +176,15 @@ def main(args):
                 metric_list_name[metric_id] +
                 ": {:.6f},".format(metric_list[metric_id].accumulate()))
 
+        tensor_print_str = ""
+        if tensor_print_dict is not None:
+            for var_name, var in tensor_print_dict.items():
+                tensor_print_str += (
+                    "{}:".format(var_name) + str(var.numpy()) + ",")
+
         logger.info("epoch: {} done, ".format(epoch_id) + metric_str +
-                    "epoch time: {:.2f} s".format(time.time() - epoch_begin))
+                    tensor_print_str + " epoch time: {:.2f} s".format(
+                        time.time() - epoch_begin))
 
         save_model(
             dy_model, optimizer, model_save_path, epoch_id, prefix='rec')