Merge pull request #661 from mlcommons/self_tuning_docker

priyakasimbeg · web-flow · commit 7d5229de8b35 · 2024-03-02T11:40:07.000-08:00
[WIP] Self tuning workflow fixes
diff --git a/docker/scripts/startup.sh b/docker/scripts/startup.sh
@@ -50,6 +50,7 @@ HOME_DIR=""
 RSYNC_DATA="true"
 OVERWRITE="false"
 SAVE_CHECKPOINTS="true"
+TUNING_RULESET="external"
 
 # Pass flag
 while [ "$1" != "" ]; do
@@ -107,6 +108,10 @@ while [ "$1" != "" ]; do
             shift
             HOME_DIR=$1
             ;;
+        --tuning_ruleset)
+            shift
+            TUNING_RULESET=$1
+            ;;
         --num_tuning_trials)
             shift
             NUM_TUNING_TRIALS=$1
@@ -157,6 +162,7 @@ VALID_WORKLOADS=("criteo1tb" "imagenet_resnet" "imagenet_resnet_silu" "imagenet_
                  "librispeech_deepspeech_tanh" \
                  "librispeech_deepspeech_no_resnet" "librispeech_deepspeech_norm_and_spec_aug"
                  "fastmri_layernorm" "ogbg_gelu" "ogbg_silu" "ogbg_model_size")
+VALID_RULESETS=("self" "external")
 
 # Set data and experiment paths
 ROOT_DATA_BUCKET="gs://mlcommons-data"
@@ -167,17 +173,25 @@ EXPERIMENT_DIR="${HOME_DIR}/experiment_runs"
 
 if [[ -n ${DATASET+x} ]]; then 
     if [[ ! " ${VALID_DATASETS[@]} " =~ " $DATASET " ]]; then
-        echo "Error: invalid argument for dataset (d)."
+        echo "Error: invalid argument $DATASET for dataset (d)."
         exit 1
     fi
 fi
 
 if [[ -n ${WORKLOAD+x} ]]; then 
     if [[ ! " ${VALID_WORKLOADS[@]} " =~ " $WORKLOAD " ]]; then
-        echo "Error: invalid argument for workload (w)."
+        echo "Error: invalid argument $WORKLOAD for workload (w)."
+        exit 1
+    fi
+fi
+
+if [[ -n ${TUNING_RULESET+x} ]]; then 
+    if [[ ! " ${VALID_RULESETS[@]} " =~ " $TUNING_RULESET " ]]; then
+        echo "Error: invalid argument $TUNING_RULESET for tuning ruleset (tuning_ruleset)."
         exit 1
     fi
 fi
+TUNING_RULESET_FLAG="--tuning_ruleset=${TUNING_RULESET}"
 
 # Set run command prefix depending on framework
 if [[ "${FRAMEWORK}" == "jax" ]]; then
@@ -243,26 +257,42 @@ if [[ ! -z ${SUBMISSION_PATH+x} ]]; then
     if [[ ${FRAMEWORK} == "pytorch" ]]; then
         TORCH_COMPILE_FLAG="--torch_compile=true"
     fi
+
+    # Flags for rulesets
+    if [[ ${TUNING_RULESET} == "external" ]]; then
+        TUNING_SEARCH_SPACE_FLAG="--submission_path=${SUBMISSION_PATH}"
+    fi
     
     # The TORCH_RUN_COMMAND_PREFIX is only set if FRAMEWORK is "pytorch"
-    COMMAND="${COMMAND_PREFIX} submission_runner.py \
+    BASE_COMMAND="${COMMAND_PREFIX} submission_runner.py \
         --framework=${FRAMEWORK}  \
         --workload=${WORKLOAD} \
         --submission_path=${SUBMISSION_PATH}  \
-        --tuning_search_space=${TUNING_SEARCH_SPACE}  \
         --data_dir=${DATA_DIR} \
         --num_tuning_trials=1  \
         --experiment_dir=${EXPERIMENT_DIR}  \
         --experiment_name=${EXPERIMENT_NAME} \
         --overwrite=${OVERWRITE} \
         --save_checkpoints=${SAVE_CHECKPOINTS} \
-        ${NUM_TUNING_TRIALS_FLAG} \
-        ${HPARAM_START_INDEX_FLAG} \
-        ${HPARAM_END_INDEX_FLAG} \
         ${RNG_SEED_FLAG} \
         ${MAX_STEPS_FLAG}  \
         ${SPECIAL_FLAGS} \
-        ${TORCH_COMPILE_FLAG} 2>&1 | tee -a ${LOG_FILE}"
+        ${TORCH_COMPILE_FLAG}"
+    
+    if [[ ${TUNING_RULESET} == "external" ]]; then
+        COMMAND="${BASE_COMMAND} \
+                   ${TUNING_RULESET_FLAG} \
+                   ${TUNING_SEARCH_SPACE_FLAG} \
+                   ${NUM_TUNING_TRIALS_FLAG} \
+                   ${HPARAM_START_INDEX_FLAG} \
+                   ${HPARAM_END_INDEX_FLAG}"
+    else 
+        COMMAND="${BASE_COMMAND} \
+                   ${TUNING_RULESET_FLAG}"
+    fi
+
+    COMMAND="$COMMAND 2>&1 | tee -a ${LOG_FILE}"
+
     echo $COMMAND > ${LOG_FILE}
     echo $COMMAND
     eval $COMMAND
diff --git a/prize_qualification_baselines/self_tuning/jax_nadamw_full_budget.py b/prize_qualification_baselines/self_tuning/jax_nadamw_full_budget.py
@@ -180,14 +180,14 @@ def init_optimizer_state(workload: spec.Workload,
 
   def jax_cosine_warmup(step_hint: int, hyperparameters):
     # Create learning rate schedule.
-    warmup_steps = int(hyperparameters.warmup_factor * step_hint)
+    warmup_steps = int(hyperparameters['warmup_factor'] * step_hint)
     warmup_fn = optax.linear_schedule(
         init_value=0.,
-        end_value=hyperparameters.learning_rate,
+        end_value=hyperparameters['learning_rate'],
         transition_steps=warmup_steps)
     cosine_steps = max(step_hint - warmup_steps, 1)
     cosine_fn = optax.cosine_decay_schedule(
-        init_value=hyperparameters.learning_rate, decay_steps=cosine_steps)
+        init_value=hyperparameters['learning_rate'], decay_steps=cosine_steps)
     schedule_fn = optax.join_schedules(
         schedules=[warmup_fn, cosine_fn], boundaries=[warmup_steps])
     return schedule_fn
@@ -196,10 +196,10 @@ def jax_cosine_warmup(step_hint: int, hyperparameters):
   lr_schedule_fn = jax_cosine_warmup(workload.step_hint, hyperparameters)
   opt_init_fn, opt_update_fn = nadamw(
       learning_rate=lr_schedule_fn,
-      b1=1.0 - hyperparameters.one_minus_beta1,
-      b2=hyperparameters.beta2,
+      b1=1.0 - hyperparameters['one_minus_beta1'],
+      b2=hyperparameters['beta2'],
       eps=1e-8,
-      weight_decay=hyperparameters.weight_decay)
+      weight_decay=hyperparameters['weight_decay'])
   params_zeros_like = jax.tree_map(lambda s: jnp.zeros(s.shape_tuple),
                                    workload.param_shapes)
   optimizer_state = opt_init_fn(params_zeros_like)
@@ -286,11 +286,11 @@ def update_params(workload: spec.Workload,
   optimizer_state, opt_update_fn = optimizer_state
   per_device_rngs = jax.random.split(rng, jax.local_device_count())
   if hasattr(hyperparameters, 'label_smoothing'):
-    label_smoothing = hyperparameters.label_smoothing
+    label_smoothing = hyperparameters['label_smoothing']
   else:
     label_smoothing = 0.0
   if hasattr(hyperparameters, 'grad_clip'):
-    grad_clip = hyperparameters.grad_clip
+    grad_clip = hyperparameters['grad_clip']
   else:
     grad_clip = None
   outputs = pmapped_train_step(workload,
diff --git a/prize_qualification_baselines/self_tuning/jax_nadamw_target_setting.py b/prize_qualification_baselines/self_tuning/jax_nadamw_target_setting.py
@@ -180,14 +180,14 @@ def init_optimizer_state(workload: spec.Workload,
 
   def jax_cosine_warmup(step_hint: int, hyperparameters):
     # Create learning rate schedule.
-    warmup_steps = int(hyperparameters.warmup_factor * step_hint)
+    warmup_steps = int(hyperparameters['warmup_factor * step_hint'])
     warmup_fn = optax.linear_schedule(
         init_value=0.,
-        end_value=hyperparameters.learning_rate,
+        end_value=hyperparameters['learning_rate'],
         transition_steps=warmup_steps)
     cosine_steps = max(step_hint - warmup_steps, 1)
     cosine_fn = optax.cosine_decay_schedule(
-        init_value=hyperparameters.learning_rate, decay_steps=cosine_steps)
+        init_value=hyperparameters['learning_rate'], decay_steps=cosine_steps)
     schedule_fn = optax.join_schedules(
         schedules=[warmup_fn, cosine_fn], boundaries=[warmup_steps])
     return schedule_fn
@@ -196,10 +196,10 @@ def jax_cosine_warmup(step_hint: int, hyperparameters):
   lr_schedule_fn = jax_cosine_warmup(workload.step_hint * 0.75, hyperparameters)
   opt_init_fn, opt_update_fn = nadamw(
       learning_rate=lr_schedule_fn,
-      b1=1.0 - hyperparameters.one_minus_beta1,
-      b2=hyperparameters.beta2,
+      b1=1.0 - hyperparameters['one_minus_beta1'],
+      b2=hyperparameters['beta2'],
       eps=1e-8,
-      weight_decay=hyperparameters.weight_decay)
+      weight_decay=hyperparameters['weight_decay'])
   params_zeros_like = jax.tree_map(lambda s: jnp.zeros(s.shape_tuple),
                                    workload.param_shapes)
   optimizer_state = opt_init_fn(params_zeros_like)
@@ -286,11 +286,11 @@ def update_params(workload: spec.Workload,
   optimizer_state, opt_update_fn = optimizer_state
   per_device_rngs = jax.random.split(rng, jax.local_device_count())
   if hasattr(hyperparameters, 'label_smoothing'):
-    label_smoothing = hyperparameters.label_smoothing
+    label_smoothing = hyperparameters['label_smoothing']
   else:
     label_smoothing = 0.0
   if hasattr(hyperparameters, 'grad_clip'):
-    grad_clip = hyperparameters.grad_clip
+    grad_clip = hyperparameters['grad_clip']
   else:
     grad_clip = None
   outputs = pmapped_train_step(workload,
diff --git a/scoring/run_workloads.py b/scoring/run_workloads.py
@@ -50,6 +50,11 @@
     False,
     'Whether or not to actually run the docker containers. '
     'If False, simply print the docker run commands. ')
+flags.DEFINE_enum(
+    'tuning_ruleset',
+    'external',
+    enum_values=['external', 'self'],
+    help='Can be either external of self.')
 flags.DEFINE_integer('num_studies', 5, 'Number of studies to run')
 flags.DEFINE_integer('study_start_index', None, 'Start index for studies.')
 flags.DEFINE_integer('study_end_index', None, 'End index for studies.')
@@ -66,11 +71,13 @@
                     None,
                     'Path to config containing held-out workloads')
 flags.DEFINE_string(
-    'workload_meta_data_config_path',
-    'workload_meta_data.json',
+    'workload_metadata_path',
+    None,
     'Path to config containing dataset and maximum number of steps per workload.'
     'The default values of these are set to the full budgets as determined '
     'via the target-setting procedure. '
+    'We provide workload_metadata_external_tuning.json and '
+    'workload_metadata_self_tuning.json as references.'
     'Note that training will be interrupted at either the set maximum number '
     'of steps or the fixed workload maximum run time, whichever comes first. '
     'If your algorithm has a smaller per step time than our baselines '
@@ -126,10 +133,10 @@ def main(_):
   logging.info('Using RNG seed %d', rng_seed)
   rng_key = (prng.fold_in(prng.PRNGKey(rng_seed), hash(submission_id)))
 
-  with open(FLAGS.workload_meta_data_config_path) as f:
-    workload_meta_data = json.load(f)
+  with open(FLAGS.workload_metadata_path) as f:
+    workload_metadata = json.load(f)
 
-  workloads = [w for w in workload_meta_data.keys()]
+  workloads = [w for w in workload_metadata.keys()]
 
   # Read held-out workloads
   if FLAGS.held_out_workloads_config_path:
@@ -154,8 +161,8 @@ def main(_):
       os.system(
           "sudo sh -c 'echo 3 > /proc/sys/vm/drop_caches'")  # clear caches
       print('=' * 100)
-      dataset = workload_meta_data[base_workload_name]['dataset']
-      max_steps = int(workload_meta_data[base_workload_name]['max_steps'] *
+      dataset = workload_metadata[base_workload_name]['dataset']
+      max_steps = int(workload_metadata[base_workload_name]['max_steps'] *
                       run_fraction)
       mount_repo_flag = ''
       if FLAGS.local:
@@ -170,16 +177,26 @@ def main(_):
                  f'-f {framework} '
                  f'-s {submission_path} '
                  f'-w {workload} '
-                 f'-t {tuning_search_space} '
                  f'-e {study_dir} '
                  f'-m {max_steps} '
                  f'--num_tuning_trials {num_tuning_trials} '
-                 f'{hparam_start_index_flag} '
-                 f'{hparam_end_index_flag} '
                  f'--rng_seed {run_seed} '
                  '-c false '
                  '-o true '
                  '-i true ')
+
+      # Append tuning ruleset flags
+      tuning_ruleset_flags = ''
+      if FLAGS.tuning_ruleset == 'external':
+        tuning_ruleset_flags += f'--tuning_ruleset {FLAGS.tuning_ruleset}'
+        tuning_ruleset_flags += f'-t {tuning_search_space} '
+        tuning_ruleset_flags += f'{hparam_start_index_flag} '
+        tuning_ruleset_flags += f'{hparam_end_index_flag}'
+      else:
+        tuning_ruleset_flags += f'--tuning_ruleset {FLAGS.tuning_ruleset}'
+
+      command += tuning_ruleset_flags
+
       if not FLAGS.dry_run:
         print('Running docker container command')
         print('Container ID: ')
@@ -205,4 +222,5 @@ def main(_):
 
 
 if __name__ == '__main__':
+  flags.mark_flag_as_required('workload_metadata_path')
   app.run(main)
diff --git a/scoring/workload_metadata_external_tuning.json b/scoring/workload_metadata_external_tuning.json
@@ -0,0 +1,34 @@
+{
+    "imagenet_resnet": {
+      "max_steps": 186666,
+      "dataset": "imagenet"
+    },
+    "imagenet_vit": {
+      "max_steps": 186666,
+      "dataset": "imagenet"
+    },
+    "fastmri": {
+      "max_steps": 36189,
+      "dataset": "fastmri"
+    },
+    "ogbg": {
+      "max_steps": 80000,
+      "dataset": "ogbg"
+    },
+    "wmt": {
+      "max_steps": 133333,
+      "dataset": "wmt"
+    },
+    "librispeech_deepspeech": {
+      "max_steps": 48000,
+      "dataset": "librispeech"
+    },
+    "criteo1tb": {
+      "max_steps": 10666,
+      "dataset": "criteo1tb"
+    },
+    "librispeech_conformer": {
+      "max_steps": 80000,
+      "dataset": "librispeech"
+    }
+  }
diff --git a/scoring/workload_metadata_self_tuning.json b/scoring/workload_metadata_self_tuning.json
@@ -0,0 +1,34 @@
+{
+    "imagenet_resnet": {
+      "max_steps": 559998,
+      "dataset": "imagenet"
+    },
+    "imagenet_vit": {
+      "max_steps": 559998,
+      "dataset": "imagenet"
+    },
+    "fastmri": {
+      "max_steps": 108567,
+      "dataset": "fastmri"
+    },
+    "ogbg": {
+      "max_steps": 240000,
+      "dataset": "ogbg"
+    },
+    "wmt": {
+      "max_steps": 399999,
+      "dataset": "wmt"
+    },
+    "librispeech_deepspeech": {
+      "max_steps": 144000,
+      "dataset": "librispeech"
+    },
+    "criteo1tb": {
+      "max_steps": 31998,
+      "dataset": "criteo1tb"
+    },
+    "librispeech_conformer": {
+      "max_steps": 240000,
+      "dataset": "librispeech"
+    }
+  }