Added inference method and ability to download saved models from server as well as use local models. Fixed some cases of model not respecting parameters.

jmohdyusof · jmohdyusof · commit dd6b4593b430 · 2021-05-25T10:49:29.000-06:00
diff --git a/examples/ADRP/adrp.py b/examples/ADRP/adrp.py
@@ -112,7 +112,24 @@
         "default": "ADRP_6W02_A_1_H",
         "help": "base name of pocket",
     },
-
+    {
+        "name": "saved_model",
+        "type": str,
+        "default": None,
+        "help": "Saved model to test",
+    },
+    {
+        "name": "model_url",
+        "type": str,
+        "default": None,
+        "help": "Url for saved models to test",
+    },
+    {
+        "name": "infer",
+        "type": candle.str2bool,
+        "default": False,
+        "help": "Flag to toggle inference mode",
+    },
 ]
 
 required = [
@@ -206,6 +223,17 @@ def load_headers(desc_headers, train_headers, header_url):
     return dh_dict, th_list
 
 
+def get_model(params):
+    url = params['model_url']
+    file_model = ('DIR.ml.' + params['base_name']
+        + '.Orderable_zinc_db_enaHLL.sorted.4col.dd.parquet/'
+        + 'reg_go.autosave.model.h5')
+    model_file = candle.get_file(
+        file_model, url + file_model, cache_subdir="Pilot1"
+    )
+    return model_file
+
+
 def load_data(params, seed):
     header_url = params["header_url"]
     dh_dict, th_list = load_headers('descriptor_headers.csv', 'training_headers.csv', header_url)
diff --git a/examples/ADRP/adrp_baseline_keras2.py b/examples/ADRP/adrp_baseline_keras2.py
@@ -22,9 +22,10 @@
 from sklearn.metrics import (
     r2_score,
     roc_auc_score,
-    pearsonr,
+#    pearsonr,
     accuracy_score,
 )
+from scipy.stats import pearsonr
 
 import adrp
 import candle
@@ -179,6 +180,70 @@ def load_cache(cache_file):
     return x_train, y_train, x_val, y_val, x_test, y_test, x_labels, y_labels
 
 
+def run_inference(params):
+
+    if params['saved_model'] is not None:
+        model_file = params['saved_model']
+    else:
+        model_file = adrp.get_model(params)
+
+    print('Loading model from ', model_file)
+
+    # switch based on model type specified
+    if model_file.endswith('.json'):
+        # load json model + weights
+        base_model_file = model_file.split('.json')
+        # load json and create model
+        json_file = open(model_file, 'r')
+        loaded_model = json_file.read()
+        json_file.close()
+        loaded_model = model_from_json(loaded_model)
+
+        # load weights into new model
+        loaded_model.load_weights(base_model_file[0] + '.h5')
+        print("Loaded json model from disk")
+    elif model_file.endswith('.yaml'):
+        # load yaml model + weights
+        base_model_file = model_file.split('.yaml')
+        # load yaml and create model
+        yaml_file = open(model_file, 'r')
+        loaded_model = yaml_file.read()
+        yaml_file.close()
+        loaded_model = model_from_yaml(loaded_model)
+
+        # load weights into new model
+        loaded_model.load_weights(base_model_file[0] + '.h5')
+        print("Loaded yaml model from disk")
+    elif model_file.endswith('.h5'):
+        loaded_model = tf.keras.models.load_model(model_file, compile=False)
+        print("Loaded h5 model from disk")
+    else:
+        sys.exit("Model format should be one of json, yaml or h5")
+
+    # compile separately to get custom functions as needed
+    loaded_model.compile(optimizer = params['optimizer'], loss = params['loss'], metrics = ['mae', r2])
+
+    # use same data as training
+    seed = params['rng_seed']
+    X_train, Y_train, X_test, Y_test, PS, count_array = adrp.load_data(params, seed)
+
+    print("X_train shape:", X_train.shape)
+    print("X_test shape:", X_test.shape)
+
+    print("Y_train shape:", Y_train.shape)
+    print("Y_test shape:", Y_test.shape)
+
+    score_train = loaded_model.evaluate(X_train, Y_train, verbose=0)
+
+    print("Training set loss:", score_train[0])
+    print("Training set mae:", score_train[1])
+
+    score_test = loaded_model.evaluate(X_test, Y_test, verbose=0)
+
+    print("Validation set loss:", score_test[0])
+    print("Validation set mae:", score_test[1])
+
+
 def run(params):
     args = candle.ArgumentStruct(**params)
     seed = args.rng_seed
@@ -451,9 +516,7 @@ def post_process(params, X_train, X_test, Y_test, score, history, model):
     print("Loaded json model from disk")
 
     # evaluate json loaded model on test data
-    loaded_model_json.compile(
-        loss="binary_crossentropy", optimizer="SGD", metrics=["mean_absolute_error"]
-    )
+    loaded_model.compile(optimizer = params['optimizer'], loss = params['loss'], metrics = ['mae', r2])
     score_json = loaded_model_json.evaluate(X_test, Y_test, verbose=0)
 
     print("json Validation loss:", score_json[0])
@@ -466,9 +529,7 @@ def post_process(params, X_train, X_test, Y_test, score, history, model):
     print("Loaded yaml model from disk")
 
     # evaluate loaded model on test data
-    loaded_model_yaml.compile(
-        loss="binary_crossentropy", optimizer="SGD", metrics=["mean_absolute_error"]
-    )
+    loaded_model.compile(optimizer = params['optimizer'], loss = params['loss'], metrics = ['mae', r2])
     score_yaml = loaded_model_yaml.evaluate(X_test, Y_test, verbose=0)
 
     print("yaml Validation loss:", score_yaml[0])
@@ -517,7 +578,10 @@ def post_process(params, X_train, X_test, Y_test, score, history, model):
 
 def main():
     params = initialize_parameters()
-    run(params)
+    if params['infer'] is True:
+        run_inference(params)
+    else:
+        run(params)
 
 
 if __name__ == "__main__":
diff --git a/examples/ADRP/adrp_default_model.txt b/examples/ADRP/adrp_default_model.txt
@@ -1,6 +1,7 @@
 [Global_Params]
 header_url = 'https://raw.githubusercontent.com/brettin/ML-training-inferencing/master/'
 data_url = 'ftp://ftp.mcs.anl.gov/pub/candle/public/benchmarks/Examples/V5.1-1M-flatten/'
+model_url = 'ftp://ftp.mcs.anl.gov/pub/candle/public/models/examples/adrp/V5.1-ml-models-1M-flatten.release/'
 train_data = ''
 base_name = 'ADRP_6W02_A_1_H'
 model_name = 'adrp'
@@ -10,7 +11,7 @@ epochs = 400
 activation = 'elu'
 out_activation = 'relu'
 loss = 'mean_squared_error'
-optimizer = 'adam'
+optimizer = 'sgd'
 dropout = 0.1
 learning_rate = 0.0001
 momentum = 0.9