more detailed dataloader benchmark

ppwwyyxx · facebook-github-bot · commit 0954ef32ef85 · 2021-07-23T15:38:02.000-07:00
Reviewed By: zhanghang1989

Differential Revision: D29766279

fbshipit-source-id: d1481523a468cc8d42a133cfc769b182c9d71f10
diff --git a/detectron2/config/config.py b/detectron2/config/config.py
@@ -194,6 +194,7 @@ def wrapped(*args, **kwargs):
                 else:
                     return orig_func(*args, **kwargs)
 
+            wrapped.from_config = from_config
             return wrapped
 
         return wrapper
diff --git a/detectron2/data/benchmark.py b/detectron2/data/benchmark.py
@@ -0,0 +1,224 @@
+import logging
+import numpy as np
+from itertools import count
+from typing import List, Tuple
+import torch
+import tqdm
+from fvcore.common.timer import Timer
+
+from detectron2.utils import comm
+
+from .build import build_batch_data_loader
+from .common import DatasetFromList, MapDataset
+from .samplers import TrainingSampler
+
+logger = logging.getLogger(__name__)
+
+
+class _EmptyMapDataset(torch.utils.data.Dataset):
+    """
+    Map anything to emptiness.
+    """
+
+    def __init__(self, dataset):
+        self.ds = dataset
+
+    def __len__(self):
+        return len(self.ds)
+
+    def __getitem__(self, idx):
+        _ = self.ds[idx]
+        return [0]
+
+
+def iter_benchmark(
+    iterator, num_iter: int, warmup: int = 5, max_time_seconds: float = 60
+) -> Tuple[float, List[float]]:
+    """
+    Benchmark an iterator/iterable for `num_iter` iterations with an extra
+    `warmup` iterations of warmup.
+    End early if `max_time_seconds` time is spent on iterations.
+
+    Returns:
+        float: average time (seconds) per iteration
+        list[float]: time spent on each iteration. Sometimes useful for further analysis.
+    """
+    num_iter, warmup = int(num_iter), int(warmup)
+
+    iterator = iter(iterator)
+    for _ in range(warmup):
+        next(iterator)
+    timer = Timer()
+    all_times = []
+    for curr_iter in tqdm.trange(num_iter):
+        start = timer.seconds()
+        if start > max_time_seconds:
+            num_iter = curr_iter
+            break
+        next(iterator)
+        all_times.append(timer.seconds() - start)
+    avg = timer.seconds() / num_iter
+    return avg, all_times
+
+
+class DataLoaderBenchmark:
+    """
+    Some common benchmarks that help understand perf bottleneck of a standard dataloader
+    made of dataset, mapper and sampler.
+    """
+
+    def __init__(
+        self,
+        dataset,
+        *,
+        mapper,
+        sampler=None,
+        total_batch_size,
+        num_workers=0,
+        max_time_seconds: int = 90,
+    ):
+        """
+        Args:
+            max_time_seconds (int): maximum time to spent for each benchmark
+            other args: same as in `build.py:build_detection_train_loader`
+        """
+        if isinstance(dataset, list):
+            dataset = DatasetFromList(dataset, copy=False, serialize=True)
+        if sampler is None:
+            sampler = TrainingSampler(len(dataset))
+
+        self.dataset = dataset
+        self.mapper = mapper
+        self.sampler = sampler
+        self.total_batch_size = total_batch_size
+        self.num_workers = num_workers
+        self.per_gpu_batch_size = self.total_batch_size // comm.get_world_size()
+
+        self.max_time_seconds = max_time_seconds
+
+    def _benchmark(self, iterator, num_iter, warmup, msg=None):
+        avg, all_times = iter_benchmark(iterator, num_iter, warmup, self.max_time_seconds)
+        if msg is not None:
+            self._log_time(msg, avg, all_times)
+        return avg, all_times
+
+    def _log_time(self, msg, avg, all_times, distributed=False):
+        percentiles = [np.percentile(all_times, k, interpolation="nearest") for k in [1, 5, 95, 99]]
+        if not distributed:
+            logger.info(
+                f"{msg}: avg={1.0/avg:.1f} it/s, "
+                f"p1={percentiles[0]:.2g}s, p5={percentiles[1]:.2g}s, "
+                f"p95={percentiles[2]:.2g}s, p99={percentiles[3]:.2g}s."
+            )
+            return
+        avg_per_gpu = comm.all_gather(avg)
+        percentiles_per_gpu = comm.all_gather(percentiles)
+        if comm.get_rank() > 0:
+            return
+        for idx, avg, percentiles in zip(count(), avg_per_gpu, percentiles_per_gpu):
+            logger.info(
+                f"GPU{idx} {msg}: avg={1.0/avg:.1f} it/s, "
+                f"p1={percentiles[0]:.2g}s, p5={percentiles[1]:.2g}s, "
+                f"p95={percentiles[2]:.2g}s, p99={percentiles[3]:.2g}s."
+            )
+
+    def benchmark_dataset(self, num_iter, warmup=5):
+        """
+        Benchmark the speed of taking raw samples from the dataset.
+        """
+
+        def loader():
+            while True:
+                for k in self.sampler:
+                    yield self.dataset[k]
+
+        self._benchmark(loader(), num_iter, warmup, "Dataset Alone")
+
+    def benchmark_mapper(self, num_iter, warmup=5):
+        """
+        Benchmark the speed of taking raw samples from the dataset and map
+        them in a single process.
+        """
+
+        def loader():
+            while True:
+                for k in self.sampler:
+                    yield self.mapper(self.dataset[k])
+
+        self._benchmark(loader(), num_iter, warmup, "Single Process Mapper (sec/sample)")
+
+    def benchmark_workers(self, num_iter, warmup=10):
+        """
+        Benchmark the dataloader by tuning num_workers to [0, 1, self.num_workers].
+        """
+        candidates = [0, 1]
+        if self.num_workers not in candidates:
+            candidates.append(self.num_workers)
+
+        dataset = MapDataset(self.dataset, self.mapper)
+        for n in candidates:
+            loader = build_batch_data_loader(
+                dataset,
+                self.sampler,
+                self.total_batch_size,
+                num_workers=n,
+            )
+            self._benchmark(
+                iter(loader),
+                num_iter * max(n, 1),
+                warmup * max(n, 1),
+                f"DataLoader ({n} workers, bs={self.per_gpu_batch_size})",
+            )
+            del loader
+
+    def benchmark_IPC(self, num_iter, warmup=10):
+        """
+        Benchmark the dataloader where each worker outputs nothing. This
+        eliminates the IPC overhead compared to the regular dataloader.
+
+        PyTorch multiprocessing's IPC only optimizes for torch tensors.
+        Large numpy arrays or other data structure may incur large IPC overhead.
+        """
+        n = self.num_workers
+        dataset = _EmptyMapDataset(MapDataset(self.dataset, self.mapper))
+        loader = build_batch_data_loader(
+            dataset, self.sampler, self.total_batch_size, num_workers=n
+        )
+        self._benchmark(
+            iter(loader),
+            num_iter * max(n, 1),
+            warmup * max(n, 1),
+            f"DataLoader ({n} workers, bs={self.per_gpu_batch_size}) w/o comm",
+        )
+
+    def benchmark_distributed(self, num_iter, warmup=10):
+        """
+        Benchmark the dataloader in each distributed worker, and log results of
+        all workers. This helps understand the final performance as well as
+        the variances among workers.
+
+        It also prints startup time (first iter) of the dataloader.
+        """
+        gpu = comm.get_world_size()
+        dataset = MapDataset(self.dataset, self.mapper)
+        n = self.num_workers
+        loader = build_batch_data_loader(
+            dataset, self.sampler, self.total_batch_size, num_workers=n
+        )
+
+        timer = Timer()
+        loader = iter(loader)
+        next(loader)
+        startup_time = timer.seconds()
+        logger.info("Dataloader startup time: {:.2f} seconds".format(startup_time))
+
+        comm.synchronize()
+
+        avg, all_times = self._benchmark(loader, num_iter * max(n, 1), warmup * max(n, 1))
+        del loader
+        self._log_time(
+            f"DataLoader ({gpu} GPUs x {n} workers, total bs={self.total_batch_size})",
+            avg,
+            all_times,
+            True,
+        )
diff --git a/tests/config/test_yacs_config.py b/tests/config/test_yacs_config.py
@@ -259,6 +259,8 @@ def testFuncWithCfg(self):
         self.assertEqual(_test_func(cfg, arg1=100, arg2=20), (100, 20, 30, 4))
         self.assertEqual(_test_func(cfg, arg1=100, arg2=20, arg4=40), (100, 20, 30, 40))
 
+        self.assertTrue(callable(_test_func.from_config))
+
     def testOmegaConf(self):
         cfg = model_zoo.get_config("COCO-InstanceSegmentation/mask_rcnn_R_50_FPN_1x.yaml")
         cfg = OmegaConf.create(cfg.dump())
diff --git a/tools/benchmark.py b/tools/benchmark.py
@@ -15,12 +15,13 @@
 from torch.nn.parallel import DistributedDataParallel
 
 from detectron2.checkpoint import DetectionCheckpointer
-from detectron2.config import get_cfg
+from detectron2.config import LazyConfig, get_cfg, instantiate
 from detectron2.data import (
     DatasetFromList,
     build_detection_test_loader,
     build_detection_train_loader,
 )
+from detectron2.data.benchmark import DataLoaderBenchmark
 from detectron2.engine import AMPTrainer, SimpleTrainer, default_argument_parser, hooks, launch
 from detectron2.modeling import build_model
 from detectron2.solver import build_optimizer
@@ -33,15 +34,31 @@
 
 
 def setup(args):
-    cfg = get_cfg()
-    cfg.merge_from_file(args.config_file)
-    cfg.SOLVER.BASE_LR = 0.001  # Avoid NaNs. Not useful in this script anyway.
-    cfg.merge_from_list(args.opts)
-    cfg.freeze()
+    if args.config_file.endswith(".yaml"):
+        cfg = get_cfg()
+        cfg.merge_from_file(args.config_file)
+        cfg.SOLVER.BASE_LR = 0.001  # Avoid NaNs. Not useful in this script anyway.
+        cfg.merge_from_list(args.opts)
+        cfg.freeze()
+    else:
+        cfg = LazyConfig.load(args.config_file)
+        cfg = LazyConfig.apply_overrides(cfg, args.opts)
     setup_logger(distributed_rank=comm.get_rank())
     return cfg
 
 
+def create_data_benchmark(cfg, args):
+    if args.config_file.endswith(".py"):
+        dl_cfg = cfg.dataloader.train
+        dl_cfg._target_ = DataLoaderBenchmark
+        return instantiate(dl_cfg)
+    else:
+        kwargs = build_detection_train_loader.from_config(cfg)
+        kwargs.pop("aspect_ratio_grouping", None)
+        kwargs["_target_"] = DataLoaderBenchmark
+        return instantiate(kwargs)
+
+
 def RAM_msg():
     vram = psutil.virtual_memory()
     return "RAM Usage: {:.2f}/{:.2f} GB".format(
@@ -51,41 +68,29 @@ def RAM_msg():
 
 def benchmark_data(args):
     cfg = setup(args)
-
     logger.info("After spawning " + RAM_msg())
-    timer = Timer()
-    dataloader = build_detection_train_loader(cfg)
-    logger.info("Initialize loader using {} seconds.".format(timer.seconds()))
-
-    timer.reset()
-    itr = iter(dataloader)
-    for i in range(10):  # warmup
-        next(itr)
-        if i == 0:
-            startup_time = timer.seconds()
-    logger.info("Startup time: {} seconds".format(startup_time))
-    timer = Timer()
-    max_iter = 1000
-    for _ in tqdm.trange(max_iter):
-        next(itr)
-    logger.info(
-        "{} iters ({} images) in {} seconds.".format(
-            max_iter, max_iter * cfg.SOLVER.IMS_PER_BATCH, timer.seconds()
-        )
-    )
 
+    benchmark = create_data_benchmark(cfg, args)
+    benchmark.benchmark_distributed(250, 10)
     # test for a few more rounds
     for k in range(10):
         logger.info(f"Iteration {k} " + RAM_msg())
-        timer = Timer()
-        max_iter = 1000
-        for _ in tqdm.trange(max_iter):
-            next(itr)
-        logger.info(
-            "{} iters ({} images) in {} seconds.".format(
-                max_iter, max_iter * cfg.SOLVER.IMS_PER_BATCH, timer.seconds()
-            )
-        )
+        benchmark.benchmark_distributed(250, 1)
+
+
+def benchmark_data_advanced(args):  # benchmark dataloader with more details
+    cfg = setup(args)
+    benchmark = create_data_benchmark(cfg, args)
+
+    if comm.get_rank() == 0:
+        benchmark.benchmark_dataset(100)
+        benchmark.benchmark_mapper(100)
+        benchmark.benchmark_workers(100, warmup=10)
+        benchmark.benchmark_IPC(100, warmup=10)
+    if comm.get_world_size() > 1:
+        benchmark.benchmark_distributed(100)
+        logger.info("Rerun ...")
+        benchmark.benchmark_distributed(100)
 
 
 def benchmark_train(args):
@@ -157,14 +162,17 @@ def f():
 
 if __name__ == "__main__":
     parser = default_argument_parser()
-    parser.add_argument("--task", choices=["train", "eval", "data"], required=True)
+    parser.add_argument("--task", choices=["train", "eval", "data", "data_advanced"], required=True)
     args = parser.parse_args()
     assert not args.eval_only
 
     logger.info("Environment info:\n" + collect_env_info())
+    if "data" in args.task:
+        print("Initial " + RAM_msg())
     if args.task == "data":
         f = benchmark_data
-        print("Initial " + RAM_msg())
+    if args.task == "data_advanced":
+        f = benchmark_data_advanced
     elif args.task == "train":
         """
         Note: training speed may not be representative.
diff --git a/tools/lazyconfig_train_net.py b/tools/lazyconfig_train_net.py
@@ -50,7 +50,7 @@ def do_train(args, cfg):
             dataloader.evaluator: instantiate to evaluator for test set
             optimizer: instantaite to an optimizer
             lr_multiplier: instantiate to a fvcore scheduler
-            train: other misc config defined in `common_train.py`, including:
+            train: other misc config defined in `configs/common/train.py`, including:
                 output_dir (str)
                 init_checkpoint (str)
                 amp.enabled (bool)