MegEngine
diff --git a/‎official/vision/classification/resnet/README.md‎
Lines changed: 16 additions & 16 deletions b/‎official/vision/classification/resnet/README.md‎
Lines changed: 16 additions & 16 deletions
diff --git a/‎official/vision/classification/resnet/inference.py‎
Lines changed: 13 additions & 8 deletions b/‎official/vision/classification/resnet/inference.py‎
Lines changed: 13 additions & 8 deletions
diff --git a/‎official/vision/classification/resnet/test.py‎
Lines changed: 138 additions & 88 deletions b/‎official/vision/classification/resnet/test.py‎
Lines changed: 138 additions & 88 deletions
@@ -8,12 +8,12 @@
 
 | 模型 | top1 acc | top5 acc |
 | --- | --- | --- |
-| ResNet18 |  70.312  |  89.430  | 
-| ResNet34 |  73.960  |  91.630  | 
-| ResNet50 | 76.254 | 93.056 | 
-| ResNet101 | 77.944 | 93.844 | 
-| ResNet152 | 78.582 | 94.130 | 
-| ResNeXt50 32x4d | 77.592 | 93.644 | 
+| ResNet18 |  70.312  |  89.430  |
+| ResNet34 |  73.960  |  91.630  |
+| ResNet50 | 76.254 | 93.056 |
+| ResNet101 | 77.944 | 93.844 |
+| ResNet152 | 78.582 | 94.130 |
+| ResNeXt50 32x4d | 77.592 | 93.644 |
 | ResNeXt101 32x8d| 79.520 | 94.586 |
 
 用户可以通过`megengine.hub`直接加载本目录下定义好的模型，例如：
@@ -64,20 +64,20 @@ python3 train.py --dataset-dir=/path/to/imagenet
 `train.py`提供了灵活的命令行选项，包括：
 
 - `--data`, ImageNet数据集的根目录，默认`/data/datasets/imagenet`;
-- `--arch`, 需要训练的网络结构，默认`resnet18`；
-- `--batch-size`，训练时每张卡采用的batch size, 默认32；
-- `--ngpus`, 训练时采用的节点/gpu数量，默认1；当使用多张gpu时，将自动切换为分布式训练模式；
-- `--save`, 模型以及log存储的目录，默认`/data/models`;
-- `--learning-rate`, 训练时的初始学习率，默认0.0125，在分布式训练下，实际学习率等于初始学习率乘以节点/gpu数；
-- `--epochs`, 训练多少个epoch，默认100；
+- `--arch`, 需要训练的网络结构，默认`resnet50`；
+- `--batch-size`，训练时每张卡采用的batch size, 默认64；
+- `--ngpus`, 训练时每个节点采用的gpu数量，默认`None`，即使用全部gpu；当使用多张gpu时，将自动切换为分布式训练模式；
+- `--save`, 模型以及log存储的目录，默认`output`;
+- `--learning-rate`, 训练时的初始学习率，默认0.025，在分布式训练下，实际学习率等于初始学习率乘以总gpu数；
+- `--epochs`, 训练多少个epoch，默认90；
 
 例如，可以通过以下命令在2块GPU上以64的batch大小训练一个`resnet50`的模型：
 
 ```bash
 python3 train.py --data /path/to/imagenet \
                  --arch resnet50 \
-                 --batch-size 32 \
-                 --learning-rate 0.0125 \
+                 --batch-size 64 \
+                 --learning-rate 0.025 \
                  --ngpus 2 \
                  --save /path/to/save_dir
 ```
@@ -95,9 +95,9 @@ python3 test.py --data=/path/to/imagenet --arch resnet50 --model /path/to/model
 `test.py`的命令行选项如下：
 
 - `--data`，ImageNet数据集的根目录，默认`/data/datasets/imagenet`；
-- `--arch`, 需要测试的网络结构，默认`resnet18`；
+- `--arch`, 需要测试的网络结构，默认`resnet50`；
 - `--model`, 需要测试的模型，默认使用官方预训练模型；
-- `--ngpus`, 用于测试的gpu数量，默认1；
+- `--ngpus`, 用于测试的gpu数量，默认`None`；
 
 更多详细介绍可以通过运行`python3 test.py --help`查看。
 
 
@@ -9,14 +9,17 @@
 import argparse
 import json
 
+import model as resnet_model
+
 import cv2
-import megengine as mge
+import numpy as np
+
+import megengine
 import megengine.data.transform as T
 import megengine.functional as F
 import megengine.jit as jit
-import numpy as np
 
-import model as M
+logging = megengine.logger.get_logger()
 
 
 def main():
@@ -26,9 +29,12 @@ def main():
     parser.add_argument("-i", "--image", default=None, type=str)
     args = parser.parse_args()
 
-    model = getattr(M, args.arch)(pretrained=(args.model is None))
-    if args.model:
-        state_dict = mge.load(args.model)
+    model = resnet_model.__dict__[args.arch](pretrained=(args.model is None))
+    if args.model is not None:
+        logging.info("load from checkpoint %s", args.model)
+        checkpoint = megengine.load(args.model)
+        if "state_dict" in checkpoint:
+            state_dict = checkpoint["state_dict"]
         model.load_state_dict(state_dict)
 
     if args.image is None:
@@ -48,7 +54,6 @@ def main():
         ]
     )
 
-    @jit.trace(symbolic=True)
     def infer_func(processed_img):
         model.eval()
         logits = model(processed_img)
@@ -58,7 +63,7 @@ def infer_func(processed_img):
     processed_img = transform.apply(image)[np.newaxis, :]
     probs = infer_func(processed_img)
 
-    top_probs, classes = F.top_k(probs, k=5, descending=True)
+    top_probs, classes = F.topk(probs, k=5, descending=True)
 
     with open("../../../assets/imagenet_class_info.json") as fp:
         imagenet_class_index = json.load(fp)
 
@@ -7,85 +7,170 @@
 # software distributed under the License is distributed on an
 # "AS IS" BASIS, WITHOUT ARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 import argparse
-import multiprocessing as mp
+import bisect
+import multiprocessing
+import os
+import threading
 import time
 
-import megengine as mge
-import megengine.data as data
-import megengine.data.transform as T
-import megengine.distributed as dist
-import megengine.functional as F
-import megengine.jit as jit
+import model as resnet_model
 
-import model as M
+import megengine
+from megengine import data as data
+from megengine import distributed as dist
+from megengine import functional as F
+from megengine import jit as jit
+from megengine.data import transform as T
 
-logger = mge.get_logger(__name__)
+logging = megengine.logger.get_logger()
 
 
 def main():
-    parser = argparse.ArgumentParser()
-    parser.add_argument("-a", "--arch", default="resnet18", type=str)
-    parser.add_argument("-d", "--data", default=None, type=str)
-    parser.add_argument("-m", "--model", default=None, type=str)
-
-    parser.add_argument("-n", "--ngpus", default=None, type=int)
-    parser.add_argument("-w", "--workers", default=4, type=int)
-    parser.add_argument("--report-freq", default=50, type=int)
-    args = parser.parse_args()
+    parser = argparse.ArgumentParser(description="MegEngine ImageNet Training")
+    parser.add_argument("-d", "--data", metavar="DIR", help="path to imagenet dataset")
+    parser.add_argument(
+        "-a",
+        "--arch",
+        default="resnet50",
+        help="model architecture (default: resnet50)",
+    )
+    parser.add_argument(
+        "-n",
+        "--ngpus",
+        default=None,
+        type=int,
+        help="number of GPUs per node (default: None, use all available GPUs)",
+    )
+    parser.add_argument(
+        "-m", "--model", metavar="PKL", default=None, help="path to model checkpoint"
+    )
 
-    world_size = mge.get_device_count("gpu") if args.ngpus is None else args.ngpus
+    parser.add_argument("-j", "--workers", default=2, type=int)
+    parser.add_argument(
+        "-p",
+        "--print-freq",
+        default=20,
+        type=int,
+        metavar="N",
+        help="print frequency (default: 10)",
+    )
 
-    if world_size > 1:
-        # start distributed training, dispatch sub-processes
-        mp.set_start_method("spawn")
-        processes = []
-        for rank in range(world_size):
-            p = mp.Process(target=worker, args=(rank, world_size, args))
-            p.start()
-            processes.append(p)
+    parser.add_argument("--dist-addr", default="localhost")
+    parser.add_argument("--dist-port", default=23456)
+    parser.add_argument("--world-size", default=1)
+    parser.add_argument("--rank", default=0)
 
-        for p in processes:
-            p.join()
-    else:
-        worker(0, 1, args)
+    args = parser.parse_args()
+
+    # create server if is master
+    if args.rank <= 0:
+        dist.Server(port=args.dist_port)
+
+    # get device count
+    with multiprocessing.Pool(1) as pool:
+        ngpus_per_node, _ = pool.map(megengine.get_device_count, ["gpu", "cpu"])
+    if args.ngpus:
+        ngpus_per_node = args.ngpus
+
+    # launch processes
+    procs = []
+    for local_rank in range(ngpus_per_node):
+        p = multiprocessing.Process(
+            target=worker,
+            kwargs=dict(
+                rank=args.rank * ngpus_per_node + local_rank,
+                world_size=args.world_size * ngpus_per_node,
+                ngpus_per_node=ngpus_per_node,
+                args=args,
+            ),
+        )
+        p.start()
+        procs.append(p)
 
+    # join processes
+    for p in procs:
+        p.join()
 
-def worker(rank, world_size, args):
+
+def worker(rank, world_size, ngpus_per_node, args):
     if world_size > 1:
-        # Initialize distributed process group
-        logger.info("init distributed process group {} / {}".format(rank, world_size))
+        # init process group
         dist.init_process_group(
-            master_ip="localhost",
-            master_port=23456,
+            master_ip=args.dist_addr,
+            port=args.dist_port,
             world_size=world_size,
             rank=rank,
-            dev=rank,
+            device=rank % ngpus_per_node,
+            backend="nccl",
+        )
+        logging.info(
+            "init process group rank %d / %d", dist.get_rank(), dist.get_world_size()
         )
 
-    model = getattr(M, args.arch)(pretrained=(args.model is None))
+    # build dataset
+    _, valid_dataloader = build_dataset(args)
 
-    if args.model:
-        logger.info("load weights from %s", args.model)
-        model.load_state_dict(mge.load(args.model))
+    # build model
+    model = resnet_model.__dict__[args.arch](pretrained=args.model is None)
+    if args.model is not None:
+        logging.info("load from checkpoint %s", args.model)
+        checkpoint = megengine.load(args.model)
+        if "state_dict" in checkpoint:
+            state_dict = checkpoint["state_dict"]
+        model.load_state_dict(state_dict)
 
-    @jit.trace(symbolic=True)
-    def valid_func(image, label):
-        model.eval()
+    def valid_step(image, label):
         logits = model(image)
-        loss = F.cross_entropy_with_softmax(logits, label)
-        acc1, acc5 = F.accuracy(logits, label, (1, 5))
-        if dist.is_distributed():  # all_reduce_mean
-            loss = dist.all_reduce_sum(loss, "valid_loss") / dist.get_world_size()
-            acc1 = dist.all_reduce_sum(acc1, "valid_acc1") / dist.get_world_size()
-            acc5 = dist.all_reduce_sum(acc5, "valid_acc5") / dist.get_world_size()
+        loss = F.nn.cross_entropy(logits, label)
+        acc1, acc5 = F.topk_accuracy(logits, label, topk=(1, 5))
+        # calculate mean values
+        if world_size > 1:
+            loss = F.distributed.all_reduce_sum(loss) / world_size
+            acc1 = F.distributed.all_reduce_sum(acc1) / world_size
+            acc5 = F.distributed.all_reduce_sum(acc5) / world_size
         return loss, acc1, acc5
 
-    logger.info("preparing dataset..")
+    model.eval()
+    _, valid_acc1, valid_acc5 = valid(valid_step, valid_dataloader, args)
+    logging.info(
+        "Test Acc@1 %.3f, Acc@5 %.3f", valid_acc1, valid_acc5,
+    )
+
+
+def valid(func, data_queue, args):
+    objs = AverageMeter("Loss")
+    top1 = AverageMeter("Acc@1")
+    top5 = AverageMeter("Acc@5")
+    clck = AverageMeter("Time")
+
+    t = time.time()
+    for step, (image, label) in enumerate(data_queue):
+        image = megengine.tensor(image, dtype="float32")
+        label = megengine.tensor(label, dtype="int32")
+
+        n = image.shape[0]
+
+        loss, acc1, acc5 = func(image, label)
+
+        objs.update(loss.item(), n)
+        top1.update(100 * acc1.item(), n)
+        top5.update(100 * acc5.item(), n)
+        clck.update(time.time() - t, n)
+        t = time.time()
+
+        if step % args.print_freq == 0 and dist.get_rank() == 0:
+            logging.info("Test step %d, %s %s %s %s", step, objs, top1, top5, clck)
+
+    return objs.avg, top1.avg, top5.avg
+
+
+def build_dataset(args):
+    train_dataloader = None
     valid_dataset = data.dataset.ImageNet(args.data, train=False)
     valid_sampler = data.SequentialSampler(
         valid_dataset, batch_size=100, drop_last=False
     )
-    valid_queue = data.DataLoader(
+    valid_dataloader = data.DataLoader(
         valid_dataset,
         sampler=valid_sampler,
         transform=T.Compose(
@@ -100,42 +185,7 @@ def valid_func(image, label):
         ),
         num_workers=args.workers,
     )
-    _, valid_acc, valid_acc5 = infer(valid_func, valid_queue, args)
-    logger.info("Valid %.3f / %.3f", valid_acc, valid_acc5)
-
-
-def infer(model, data_queue, args, epoch=0):
-    objs = AverageMeter("Loss")
-    top1 = AverageMeter("Acc@1")
-    top5 = AverageMeter("Acc@5")
-    total_time = AverageMeter("Time")
-
-    t = time.time()
-    for step, (image, label) in enumerate(data_queue):
-        n = image.shape[0]
-        image = image.astype("float32")  # convert np.uint8 to float32
-        label = label.astype("int32")
-
-        loss, acc1, acc5 = model(image, label)
-
-        objs.update(loss.numpy()[0], n)
-        top1.update(100 * acc1.numpy()[0], n)
-        top5.update(100 * acc5.numpy()[0], n)
-        total_time.update(time.time() - t)
-        t = time.time()
-
-        if step % args.report_freq == 0 and dist.get_rank() == 0:
-            logger.info(
-                "Epoch %d Step %d, %s %s %s %s",
-                epoch,
-                step,
-                objs,
-                top1,
-                top5,
-                total_time,
-            )
-
-    return objs.avg, top1.avg, top5.avg
+    return train_dataloader, valid_dataloader
 
 
 class AverageMeter: