ECP-CANDLE
diff --git a/‎Pilot1/NT3/infer.py‎
Lines changed: 0 additions & 145 deletions b/‎Pilot1/NT3/infer.py‎
Lines changed: 0 additions & 145 deletions
diff --git a/‎Pilot1/NT3/nt3.py‎
Lines changed: 54 additions & 0 deletions b/‎Pilot1/NT3/nt3.py‎
Lines changed: 54 additions & 0 deletions
diff --git a/‎Pilot1/NT3/nt3_baseline_keras2.py‎
Lines changed: 21 additions & 97 deletions b/‎Pilot1/NT3/nt3_baseline_keras2.py‎
Lines changed: 21 additions & 97 deletions
@@ -0,0 +1,54 @@
+import os
+import sys
+
+file_path = os.path.dirname(os.path.realpath(__file__))
+lib_path2 = os.path.abspath(os.path.join(file_path, '..', '..', 'common'))
+sys.path.append(lib_path2)
+
+import candle_keras as candle
+
+additional_definitions = [
+{'name':'model_name',
+    'default':'nt3',
+    'type':str},
+{'name':'classes',
+    'type':int,
+    'default':2}
+]
+
+required = [
+    'data_url',
+    'train_data',
+    'test_data',
+    'model_name',
+    'conv',
+    'dense',
+    'activation',
+    'out_act',
+    'loss',
+    'optimizer',
+    'metrics',
+    'epochs',
+    'batch_size',
+    'learning_rate',
+    'drop',
+    'classes',
+    'pool',
+    'save',
+    'timeout'
+]
+
+class BenchmarkNT3(candle.Benchmark):
+
+    def set_locals(self):
+        """Functionality to set variables specific for the benchmark
+        - required: set of required parameters for the benchmark.
+        - additional_definitions: list of dictionaries describing the additional parameters for the
+        benchmark.
+        """
+
+        if required is not None:
+            self.required = set(required)
+        if additional_definitions is not None:
+            self.additional_definitions = additional_definitions
+
@@ -1,14 +1,10 @@
 from __future__ import print_function
+
 import pandas as pd
 import numpy as np
 import os
 import sys
 import gzip
-import argparse
-try:
-    import configparser
-except ImportError:
-    import ConfigParser as configparser
 
 from keras import backend as K
 
@@ -21,94 +17,22 @@
 from sklearn.metrics import accuracy_score
 from sklearn.preprocessing import StandardScaler, MinMaxScaler, MaxAbsScaler
 
-TIMEOUT=3600 # in sec; set this to -1 for no timeout 
-file_path = os.path.dirname(os.path.realpath(__file__))
-lib_path = os.path.abspath(os.path.join(file_path, '..', 'common'))
-sys.path.append(lib_path)
-lib_path2 = os.path.abspath(os.path.join(file_path, '..', '..', 'common'))
-sys.path.append(lib_path2)
-
-import data_utils
-import p1_common, p1_common_keras
-from solr_keras import CandleRemoteMonitor, compute_trainable_params, TerminateOnTimeOut
-
-
-#url_nt3 = 'ftp://ftp.mcs.anl.gov/pub/candle/public/benchmarks/Pilot1/normal-tumor/'
-#file_train = 'nt_train2.csv'
-#file_test = 'nt_test2.csv'
-
-#EPOCH = 400
-#BATCH = 20
-#CLASSES = 2
-
-#PL = 60484   # 1 + 60483 these are the width of the RNAseq datasets
-#P     = 60483   # 60483
-#DR    = 0.1      # Dropout rate
-
-def common_parser(parser):
-
-    parser.add_argument("--config_file", dest='config_file', type=str,
-                        default=os.path.join(file_path, 'nt3_default_model.txt'),
-                        help="specify model configuration file")
-
-    # Parse has been split between arguments that are common with the default neon parser
-    # and all the other options
-    parser = p1_common.get_default_neon_parse(parser)
-    parser = p1_common.get_p1_common_parser(parser)
-
-    return parser
-
-def get_nt3_parser():
-
-	parser = argparse.ArgumentParser(prog='nt3_baseline', formatter_class=argparse.ArgumentDefaultsHelpFormatter,
-                                     description='Train Autoencoder - Pilot 1 Benchmark NT3')
-
-	return common_parser(parser)
-
-def read_config_file(file):
-    config = configparser.ConfigParser()
-    config.read(file)
-    section = config.sections()
-    fileParams = {}
-
-    fileParams['data_url'] = eval(config.get(section[0],'data_url'))
-    fileParams['train_data'] = eval(config.get(section[0],'train_data'))
-    fileParams['test_data'] = eval(config.get(section[0],'test_data'))
-    fileParams['model_name'] = eval(config.get(section[0],'model_name'))
-    fileParams['conv'] = eval(config.get(section[0],'conv'))
-    fileParams['dense'] = eval(config.get(section[0],'dense'))
-    fileParams['activation'] = eval(config.get(section[0],'activation'))
-    fileParams['out_act'] = eval(config.get(section[0],'out_act'))
-    fileParams['loss'] = eval(config.get(section[0],'loss'))
-    fileParams['optimizer'] = eval(config.get(section[0],'optimizer'))
-    fileParams['metrics'] = eval(config.get(section[0],'metrics'))
-    fileParams['epochs'] = eval(config.get(section[0],'epochs'))
-    fileParams['batch_size'] = eval(config.get(section[0],'batch_size'))
-    fileParams['learning_rate'] = eval(config.get(section[0], 'learning_rate'))
-    fileParams['drop'] = eval(config.get(section[0],'drop'))
-    fileParams['classes'] = eval(config.get(section[0],'classes'))
-    fileParams['pool'] = eval(config.get(section[0],'pool'))
-    fileParams['save'] = eval(config.get(section[0], 'save'))
-
-    # parse the remaining values
-    for k,v in config.items(section[0]):
-        if not k in fileParams:
-            fileParams[k] = eval(v)
-
-    return fileParams
+#TIMEOUT=3600 # in sec; set this to -1 for no timeout 
+
+import nt3 as bmk
+import candle_keras as candle
 
 def initialize_parameters():
-    # Get command-line parameters
-    parser = get_nt3_parser()
-    args = parser.parse_args()
-    #print('Args:', args)
-    # Get parameters from configuration file
-    fileParameters = read_config_file(args.config_file)
-    #print ('Params:', fileParameters)
-    # Consolidate parameter set. Command-line parameters overwrite file configuration
-    gParameters = p1_common.args_overwrite_config(args, fileParameters)
-    return gParameters
 
+    # Build benchmark object
+    nt3Bmk = bmk.BenchmarkNT3(bmk.file_path, 'nt3_default_model.txt', 'keras',
+    prog='nt3_baseline', desc='Multi-task (DNN) for data extraction from clinical reports - Pilot 3 Benchmark 1')
+
+    # Initialize parameters
+    gParameters = candle.initialize_parameters(nt3Bmk)
+    #benchmark.logger.info('Params: {}'.format(gParameters))
+
+    return gParameters
 
 def load_data(train_path, test_path, gParameters):
 
@@ -155,8 +79,8 @@ def run(gParameters):
     file_test = gParameters['test_data']
     url = gParameters['data_url']
 
-    train_file = data_utils.get_file(file_train, url+file_train, cache_subdir='Pilot1')
-    test_file = data_utils.get_file(file_test, url+file_test, cache_subdir='Pilot1')
+    train_file = candle.get_file(file_train, url+file_train, cache_subdir='Pilot1')
+    test_file = candle.get_file(file_test, url+file_test, cache_subdir='Pilot1')
 
     X_train, Y_train, X_test, Y_test = load_data(train_file, test_file, gParameters)
 
@@ -231,10 +155,10 @@ def run(gParameters):
 #model.add(Dense(CLASSES))
 #model.add(Activation('softmax'))
 
-    kerasDefaults = p1_common.keras_default_config()
+    kerasDefaults = candle.keras_default_config()
 
     # Define optimizer
-    optimizer = p1_common_keras.build_optimizer(gParameters['optimizer'],
+    optimizer = candle.build_optimizer(gParameters['optimizer'],
                                                 gParameters['learning_rate'],
                                                 kerasDefaults)
 
@@ -249,16 +173,16 @@ def run(gParameters):
         os.makedirs(output_dir)
 
     # calculate trainable and non-trainable params
-    gParameters.update(compute_trainable_params(model))
+    gParameters.update(candle.compute_trainable_params(model))
 
     # set up a bunch of callbacks to do work during model training..
     model_name = gParameters['model_name']
     path = '{}/{}.autosave.model.h5'.format(output_dir, model_name)
     # checkpointer = ModelCheckpoint(filepath=path, verbose=1, save_weights_only=False, save_best_only=True)
     csv_logger = CSVLogger('{}/training.log'.format(output_dir))
     reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.1, patience=10, verbose=1, mode='auto', epsilon=0.0001, cooldown=0, min_lr=0)
-    candleRemoteMonitor = CandleRemoteMonitor(params=gParameters)
-    timeoutMonitor = TerminateOnTimeOut(TIMEOUT)
+    candleRemoteMonitor = candle.CandleRemoteMonitor(params=gParameters)
+    timeoutMonitor = candle.TerminateOnTimeOut(gParameters['timeout'])
     history = model.fit(X_train, Y_train,
                     batch_size=gParameters['batch_size'],
                     epochs=gParameters['epochs'],