Fix up ST1 benchmarks and files.

jmohdyusof · jmohdyusof · commit 636c58b62681 · 2022-05-31T16:43:26.000-06:00
diff --git a/Pilot1/ST1/class_default_model.txt b/Pilot1/ST1/class_default_model.txt
@@ -16,3 +16,5 @@ vocab_size = 40000
 epochs = 400
 batch_size = 32
 loss = 'sparse_categorical_crossentropy'
+learning_rate = 0.000001
+optimizer = 'adam'
diff --git a/Pilot1/ST1/regress_default_model.txt b/Pilot1/ST1/regress_default_model.txt
@@ -16,3 +16,5 @@ vocab_size = 40000
 epochs = 400
 batch_size = 32
 loss = 'mean_squared_error'
+optimizer = 'adam'
+learning_rate = 0.001
diff --git a/Pilot1/ST1/sct_baseline_keras2.py b/Pilot1/ST1/sct_baseline_keras2.py
@@ -1,22 +1,11 @@
 # Setup
 
 import os
-import sys
-# import gzip
-
-# import math
-# import matplotlib
-# matplotlib.use('Agg')
-
-# import matplotlib.pyplot as plt
 
 from tensorflow.keras import backend as K
-from tensorflow.keras.optimizers import Adam  # RMSprop, SGD
 from tensorflow.keras.callbacks import ModelCheckpoint, CSVLogger, ReduceLROnPlateau, EarlyStopping
 
 file_path = os.path.dirname(os.path.realpath(__file__))
-lib_path = os.path.abspath(os.path.join(file_path, '..', '..', 'common'))
-sys.path.append(lib_path)
 
 import candle
 import smiles_transformer as st
@@ -26,8 +15,8 @@ def initialize_parameters(default_model='class_default_model.txt'):
 
     # Build benchmark object
     sctBmk = st.BenchmarkST(st.file_path, default_model, 'keras',
-                            prog='p1b1_baseline',
-                            desc='Multi-task (DNN) for data extraction from clinical reports - Pilot 3 Benchmark 1')
+                            prog='sct_baseline',
+                            desc='Transformer model for SMILES classification')
 
     # Initialize parameters
     gParameters = candle.finalize_parameters(sctBmk)
@@ -43,8 +32,12 @@ def run(params):
 
     model = st.transformer_model(params)
 
-    model.compile(loss='sparse_categorical_crossentropy',
-                  optimizer=Adam(lr=0.000001),
+    kerasDefaults = candle.keras_default_config()
+
+    optimizer = candle.build_optimizer(params['optimizer'], params['learning_rate'], kerasDefaults)
+
+    model.compile(loss=params['loss'],
+                  optimizer=optimizer,
                   metrics=['accuracy'])
 
     # set up a bunch of callbacks to do work during model training..
@@ -63,6 +56,8 @@ def run(params):
 
     model.load_weights('smile_class.autosave.model.h5')
 
+    return history
+
 
 def main():
     params = initialize_parameters()
diff --git a/Pilot1/ST1/smiles_class_transformer.py b/Pilot1/ST1/smiles_class_transformer.py
@@ -1,18 +1,12 @@
 # Setup
 
 import pandas as pd
-# import numpy as np
 import os
-import sys
-# import gzip
 import argparse
 
-# import math
 import matplotlib
 matplotlib.use('Agg')
 
-# import matplotlib.pyplot as plt
-
 import tensorflow as tf
 
 from tensorflow import keras
@@ -24,8 +18,6 @@
 from tensorflow.keras.preprocessing import text
 
 file_path = os.path.dirname(os.path.realpath(__file__))
-lib_path = os.path.abspath(os.path.join(file_path, '..', '..', 'common'))
-sys.path.append(lib_path)
 
 psr = argparse.ArgumentParser(description='input csv file')
 psr.add_argument('--in_train', default='in_train')
diff --git a/Pilot1/ST1/smiles_regress_transformer.py b/Pilot1/ST1/smiles_regress_transformer.py
@@ -1,19 +1,12 @@
 # Setup
 
 import pandas as pd
-# import numpy as np
 import os
-import sys
-# import gzip
 import argparse
 
-# import math
 import matplotlib
 matplotlib.use('Agg')
 
-# import matplotlib.pyplot as plt
-
-
 import tensorflow as tf
 
 from tensorflow import keras
@@ -26,8 +19,6 @@
 
 
 file_path = os.path.dirname(os.path.realpath(__file__))
-lib_path = os.path.abspath(os.path.join(file_path, '..', '..', 'common'))
-sys.path.append(lib_path)
 
 psr = argparse.ArgumentParser(description='input csv file')
 psr.add_argument('--in_train', default='in_train')
diff --git a/Pilot1/ST1/smiles_transformer.py b/Pilot1/ST1/smiles_transformer.py
@@ -1,7 +1,6 @@
 from __future__ import print_function
 
 import os
-import sys
 
 import pandas as pd
 
@@ -13,8 +12,6 @@
 from tensorflow.keras import backend as K
 
 file_path = os.path.dirname(os.path.realpath(__file__))
-lib_path2 = os.path.abspath(os.path.join(file_path, '..', '..', 'common'))
-sys.path.append(lib_path2)
 
 import candle
 
diff --git a/Pilot1/ST1/srt_baseline_keras2.py b/Pilot1/ST1/srt_baseline_keras2.py
@@ -1,22 +1,11 @@
 # Setup
 
 import os
-import sys
-# import gzip
-
-# import math
-# import matplotlib
-# matplotlib.use('Agg')
-
-# import matplotlib.pyplot as plt
 
 from tensorflow.keras import backend as K
-import tensorflow.keras.optimizers as optimizers
 from tensorflow.keras.callbacks import ModelCheckpoint, CSVLogger, ReduceLROnPlateau, EarlyStopping
 
 file_path = os.path.dirname(os.path.realpath(__file__))
-lib_path = os.path.abspath(os.path.join(file_path, '..', '..', 'common'))
-sys.path.append(lib_path)
 
 import candle
 import smiles_transformer as st
@@ -52,20 +41,24 @@ def run(params):
 
     model = st.transformer_model(params)
 
-    optimizer = optimizers.deserialize({'class_name': params['optimizer'], 'config': {}})
+    kerasDefaults = candle.keras_default_config()
+
+    optimizer = candle.build_optimizer(params['optimizer'], params['learning_rate'], kerasDefaults)
+
+    # optimizer = optimizers.deserialize({'class_name': params['optimizer'], 'config': {}})
 
     # I don't know why we set base_lr. It doesn't appear to be used.
     # if 'base_lr' in params and params['base_lr'] > 0:
     #     base_lr = params['base_lr']
     # else:
     #     base_lr = K.get_value(optimizer.lr)
 
-    if 'learning_rate' in params and params['learning_rate'] > 0:
-        K.set_value(optimizer.lr, params['learning_rate'])
-        print('Done setting optimizer {} learning rate to {}'.format(
-            params['optimizer'], params['learning_rate']))
+    # if 'learning_rate' in params and params['learning_rate'] > 0:
+    #     K.set_value(optimizer.lr, params['learning_rate'])
+    #     print('Done setting optimizer {} learning rate to {}'.format(
+    #         params['optimizer'], params['learning_rate']))
 
-    model.compile(loss='mean_squared_error',
+    model.compile(loss=params['loss'],
                   optimizer=optimizer,
                   metrics=['mae', st.r2])