Merge branch 'release_04' of https://github.com/ECP-CANDLE/Benchmarks into release_04

jmohdyusof · jmohdyusof · commit 731566b83d13 · 2021-07-15T00:45:00.000-06:00
diff --git a/Pilot3/P3B5/test.py b/Pilot3/P3B5/test.py
diff --git a/examples/histogen/extract_code_default_model.txt b/examples/histogen/extract_code_default_model.txt
@@ -3,5 +3,8 @@ size = 256
 batch_size = 128
 use_gpus = True
 ckpt_directory = './'
+ckpt_restart = 'checkpoint/vqvae_001.pt'
+lmdb_filename = 'lmdb_001'
+data_dir = '../../Data/Examples/histogen/svs_pngs/'
 
 
diff --git a/examples/histogen/sample_default_model.txt b/examples/histogen/sample_default_model.txt
@@ -8,5 +8,4 @@ batch_size = 8
 use_gpus = True
 
 [Monitor_Params]
-timeout=3600
-
+timeout = 3600
diff --git a/examples/histogen/train_pixelsnail_baseline_pytorch.py b/examples/histogen/train_pixelsnail_baseline_pytorch.py
@@ -32,10 +32,10 @@
         'type': str,
         'default': None,
         'help': 'Mode of learning rate scheduler'},
-    {'name': 'data_dir',
+    {'name': 'lmdb_filename',
         'type': str,
         'default': SUPPRESS,
-        'help': 'dataset path'},
+        'help': 'lmdb dataset path'},
     {'name': 'amp',
         'type': str,
         'default': 'O0',
@@ -83,7 +83,7 @@
     'dropout',
     'amp',
     'sched_mode',
-    'data_dir',
+    'lmdb_filename',
 ]
 
 
@@ -178,7 +178,7 @@ def run(params):
 
     device = 'cuda'
 
-    dataset = LMDBDataset(args.data_dir)
+    dataset = LMDBDataset(args.lmdb_filename)
     loader = DataLoader(
         dataset, batch_size=args.batch_size, shuffle=True, num_workers=4, drop_last=True
     )
diff --git a/examples/histogen/train_pixelsnail_default_model.txt b/examples/histogen/train_pixelsnail_default_model.txt
@@ -1,4 +1,5 @@
 [Global_Params]
+lmdb_filename = 'lmdb_001'
 epochs = 420
 batch_size = 32
 learning_rate = 3e-4
@@ -12,5 +13,3 @@ dropout = 0.1
 amp = 'O0'
 use_gpus = True
 ckpt_directory = './'
-
-
diff --git a/examples/histogen/train_vqvae_baseline_pytorch.py b/examples/histogen/train_vqvae_baseline_pytorch.py
@@ -43,7 +43,7 @@
         'type': str,
         'default': SUPPRESS,
         'help': 'dataset path'},
-    {'name': 'size',
+    {'name': 'image_size',
         'type': int,
         'default': 256,
         'help': 'Image size to use'},
@@ -55,7 +55,7 @@
     'epochs',
     'learning_rate',
     'sched_mode',
-    'size',
+    'image_size',
 ]
 
 
@@ -168,8 +168,8 @@ def config_and_train(args):
 
     transform = transforms.Compose(
         [
-            transforms.Resize(args.size),
-            transforms.CenterCrop(args.size),
+            transforms.Resize(args.image_size),
+            transforms.CenterCrop(args.image_size),
             transforms.ToTensor(),
             transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5]),
         ]
@@ -212,7 +212,7 @@ def fetch_data(params):
     if params['data_dir'] is None:
         params['data_dir'] = candle.fetch_file(data_url + params['train_data'], subdir='Examples/histogen')
     else:
-        tempfile = candle.fetch_file(data_url + params['train_data'], cache_subdir='Examples/histogen')
+        tempfile = candle.fetch_file(data_url + params['train_data'], subdir='Examples/histogen')
         params['data_dir'] = os.path.join(os.path.dirname(tempfile), params['data_dir'])
 
 
diff --git a/examples/histogen/train_vqvae_default_model.txt b/examples/histogen/train_vqvae_default_model.txt
@@ -5,7 +5,6 @@ data_dir = 'svs_pngs'
 epochs = 560
 learning_rate = 3e-4
 batch_size = 128
-use_gpus = True
+n_gpu_per_machine = 1
 ckpt_directory = './'
-
-
+image_size = 256
diff --git a/examples/rnngen/infer_rnngen_baseline_pytorch.py b/examples/rnngen/infer_rnngen_baseline_pytorch.py
@@ -10,7 +10,7 @@
 
 from model.model import CharRNN
 from model.vocab import START_CHAR, END_CHAR
-from train import get_vocab_from_file
+from model.vocab import get_vocab_from_file
 
 file_path = os.path.dirname(os.path.realpath(__file__))
 lib_path = os.path.abspath(os.path.join(file_path, '..'))
@@ -70,6 +70,7 @@
     'output',
     'input',
     'nsamples',
+    'model',
 ]
 
 
@@ -175,6 +176,18 @@ def run(params):
     print("Note: This script is very picky. Please check device output to see where this is running. ")
     args = candle.ArgumentStruct(**params)
 
+    data_url = args.data_url
+
+    if args.model == 'ft_goodperforming_model.pt':
+        file = 'pilot1/ft_goodperforming_model.pt'
+    elif args.model == 'ft_poorperforming_model.pt':
+        file = 'pilot1/ft_poorperforming_model.pt'
+    else: # Corresponding to args.model == 'autosave.model.pt':
+        file = 'mosesrun/autosave.model.pt'
+
+    print('Recovering trained model')
+    trained = candle.fetch_file(data_url + file, subdir='examples/rnngen')
+
     # Configure GPU
     if args.use_gpus and torch.cuda.is_available():
         device = 'cuda'
@@ -188,10 +201,12 @@ def run(params):
     model = CharRNN(len(vocab), len(vocab), max_len=args.maxlen).to(device)
     optimizer = torch.optim.Adam(model.parameters(), lr=args.learning_rate)
 
-    pt = torch.load(args.logdir + "/" + args.model, map_location=device)
+    print("Loading trained model.")
+    pt = torch.load(trained, map_location=device)
     model.load_state_dict(pt['state_dict'])
     optimizer.load_state_dict(pt['optim_state_dict'])
 
+    print("Applying to loaded data")
     total_sampled = 0
     total_valid = 0
     total_unqiue = 0
diff --git a/examples/rnngen/infer_rnngen_default_model.txt b/examples/rnngen/infer_rnngen_default_model.txt
@@ -1,4 +1,5 @@
 [Global_Params]
+data_url = 'ftp://ftp.mcs.anl.gov/pub/candle/public/benchmarks/Examples/rnngen/'
 input = 'mosesrun/'
 logdir = 'mosesrun/'
 output = 'samples.txt'

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	`[Global_Params]`
	`2`	`+data_url = 'ftp://ftp.mcs.anl.gov/pub/candle/public/benchmarks/Examples/rnngen/'`
`2`	`3`	`input = 'mosesrun/'`
`3`	`4`	`logdir = 'mosesrun/'`
`4`	`5`	`output = 'samples.txt'`