push update for ls standalone

JackTemaki · JackTemaki · commit 6ad1a0caa550 · 2024-01-22T16:43:34.000+09:00
diff --git a/users/rossenbach/experiments/librispeech/standalone_2023/ctc_bpe/exp_ls100_1023_base.py b/users/rossenbach/experiments/librispeech/standalone_2023/ctc_bpe/exp_ls100_1023_base.py
@@ -204,64 +204,68 @@ def run_exp(ft_name, datasets, train_args, search_args=None, with_prior=False, n
             
             
     # from here on onwards, use default AdamW with same OCLR
-    train_args_adamw_02 = {
-        "config": {
-            "optimizer": {"class": "adamw", "epsilon": 1e-16, "weight_decay": 1e-2},
-            "learning_rates": list(np.linspace(1e-5, 1e-3, 150)) + list(np.linspace(1e-3, 1e-6, 150)),
-            #############
-            "batch_size": 200 * 16000,
-            "max_seq_length": {"audio_features": 35 * 16000},
-            "accum_grad_multiple_step": 2,
-        },
-    }
-    
-    model_config_smaller = ModelConfig(
-        feature_extraction_config=fe_config,
-        frontend_config=frontend_config,
-        specaug_config=specaug_config,
-        label_target_size=vocab_size_without_blank,
-        conformer_size=384,
-        num_layers=12,
-        num_heads=4,
-        ff_dim=384,
-        att_weights_dropout=0.2,
-        conv_dropout=0.2,
-        ff_dropout=0.2,
-        mhsa_dropout=0.2,
-        conv_kernel_size=9,
-        final_dropout=0.2,
-        specauc_start_epoch=1,
-    )
+    # train_args_adamw_02 = {
+    #     "config": {
+    #         "optimizer": {"class": "adamw", "epsilon": 1e-16, "weight_decay": 1e-2},
+    #         "learning_rates": list(np.linspace(1e-5, 1e-3, 150)) + list(np.linspace(1e-3, 1e-6, 150)),
+    #         #############
+    #         "batch_size": 200 * 16000,
+    #         "max_seq_length": {"audio_features": 35 * 16000},
+    #         "accum_grad_multiple_step": 2,
+    #     },
+    # }
     
-    train_args = {
-        **copy.deepcopy(train_args_adamw_02),
-        "network_module": "ctc.conformer_1023.i6modelsV1_VGG4LayerActFrontendV1_v6",
-        "net_args": {"model_config_dict": asdict(model_config_smaller)},
-    }
-    for lm_weight in [1.6, 1.8, 2.0, 2.2]:
-        for prior_scale in [0.3, 0.5]:
-            search_args = {
-                **default_search_args,
-                "lm_weight": lm_weight,
-                "prior_scale": prior_scale,
-            }
-            run_exp(
-                prefix_name + "conformer_1023/i6modelsV1_VGG4LayerActFrontendV1_v6_peaknorm_smaller_decay1e-2/lm%.1f_prior%.2f_bs1024_th14" % (
-                    lm_weight, prior_scale),
-                datasets=train_data, train_args=train_args, search_args=search_args, with_prior=True)
+    # model_config_smaller = ModelConfig(
+    #     feature_extraction_config=fe_config,
+    #     frontend_config=frontend_config,
+    #     specaug_config=specaug_config,
+    #     label_target_size=vocab_size_without_blank,
+    #     conformer_size=384,
+    #     num_layers=12,
+    #     num_heads=4,
+    #     ff_dim=384,
+    #     att_weights_dropout=0.2,
+    #     conv_dropout=0.2,
+    #     ff_dropout=0.2,
+    #     mhsa_dropout=0.2,
+    #     conv_kernel_size=9,
+    #     final_dropout=0.2,
+    #     specauc_start_epoch=1,
+    # )
+    #
+    # train_args = {
+    #     **copy.deepcopy(train_args_adamw_02),
+    #     "network_module": "ctc.conformer_1023.i6modelsV1_VGG4LayerActFrontendV1_v6",
+    #     "net_args": {"model_config_dict": asdict(model_config_smaller)},
+    # }
 
-    model_config_smaller_start11 = copy.deepcopy(model_config_smaller)
-    model_config_smaller_start11.specauc_start_epoch = 11
-    train_args_start11 = copy.deepcopy(train_args)
-    train_args_start11["net_args"]["model_config_dict"] = asdict(model_config_smaller_start11)
-    for lm_weight in [1.6, 1.8, 2.0, 2.2]:
-        for prior_scale in [0.3, 0.5]:
-            search_args = {
-                **default_search_args,
-                "lm_weight": lm_weight,
-                "prior_scale": prior_scale,
-            }
-            run_exp(
-                prefix_name + "conformer_1023/i6modelsV1_VGG4LayerActFrontendV1_v6_peaknorm_smaller_decay1e-2_start11/lm%.1f_prior%.2f_bs1024_th14" % (
-                    lm_weight, prior_scale),
-                datasets=train_data, train_args=train_args_start11, search_args=search_args, with_prior=True)
+    # Diverged
+
+    # for lm_weight in [1.6, 1.8, 2.0, 2.2]:
+    #     for prior_scale in [0.3, 0.5]:
+    #         search_args = {
+    #             **default_search_args,
+    #             "lm_weight": lm_weight,
+    #             "prior_scale": prior_scale,
+    #         }
+    #         run_exp(
+    #             prefix_name + "conformer_1023/i6modelsV1_VGG4LayerActFrontendV1_v6_peaknorm_smaller_decay1e-2/lm%.1f_prior%.2f_bs1024_th14" % (
+    #                 lm_weight, prior_scale),
+    #             datasets=train_data, train_args=train_args, search_args=search_args, with_prior=True)
+
+    # This one was worse than the baseline 16.5 -> 17.9
+    # model_config_smaller_start11 = copy.deepcopy(model_config_smaller)
+    # model_config_smaller_start11.specauc_start_epoch = 11
+    # train_args_start11 = copy.deepcopy(train_args)
+    # train_args_start11["net_args"]["model_config_dict"] = asdict(model_config_smaller_start11)
+    # for lm_weight in [1.6, 1.8, 2.0, 2.2]:
+    #     for prior_scale in [0.3, 0.5]:
+    #         search_args = {
+    #             **default_search_args,
+    #             "lm_weight": lm_weight,
+    #             "prior_scale": prior_scale,
+    #         }
+    #         run_exp(
+    #             prefix_name + "conformer_1023/i6modelsV1_VGG4LayerActFrontendV1_v6_peaknorm_smaller_decay1e-2_start11/lm%.1f_prior%.2f_bs1024_th14" % (
+    #                 lm_weight, prior_scale),
+    #             datasets=train_data, train_args=train_args_start11, search_args=search_args, with_prior=True)
diff --git a/users/rossenbach/experiments/librispeech/standalone_2023/data/common.py b/users/rossenbach/experiments/librispeech/standalone_2023/data/common.py
@@ -16,7 +16,8 @@
 from i6_experiments.users.rossenbach.common_setups.returnn.datastreams.base import Datastream
 from i6_experiments.users.rossenbach.datasets.librispeech import get_mixed_cv_segments
 
-from returnn_common.datasets import Dataset, OggZipDataset, MetaDataset
+# from returnn_common.datasets import Dataset, OggZipDataset, MetaDataset
+from i6_experiments.common.setups.returnn.datasets import Dataset, OggZipDataset, MetaDataset
 
 from ..default_tools import MINI_RETURNN_ROOT, RETURNN_EXE
 
diff --git a/users/rossenbach/experiments/librispeech/standalone_2023/default_tools.py b/users/rossenbach/experiments/librispeech/standalone_2023/default_tools.py
@@ -4,7 +4,9 @@
 
 # python from apptainer
 RETURNN_EXE = tk.Path("/usr/bin/python3", hash_overwrite="GENERIC_RETURNN_LAUNCHER")
-MINI_RETURNN_ROOT = tk.Path("/u/rossenbach/src/NoReturnn", hash_overwrite="LIBRISPEECH_DEFAULT_RETURNN_ROOT")
+# MINI_RETURNN_ROOT = tk.Path("/u/rossenbach/src/NoReturnn", hash_overwrite="LIBRISPEECH_DEFAULT_RETURNN_ROOT")
+MINI_RETURNN_ROOT = CloneGitRepositoryJob("https://github.com/JackTemaki/MiniReturnn", commit="1ccdcb77414cb062b4fe69f051238d01022e2b15").out_repository
+MINI_RETURNN_ROOT.hash_overwrite="LIBRISPEECH_DEFAULT_RETURNN_ROOT"
 
 from i6_experiments.common.tools.sctk import compile_sctk
 
diff --git a/users/rossenbach/experiments/librispeech/standalone_2023/serializer.py b/users/rossenbach/experiments/librispeech/standalone_2023/serializer.py
@@ -51,12 +51,12 @@ def get_pytorch_serializer_v3(
     )
 
     # TODO: add flag to switch and maybe move to default tools
-    # i6_models_repo = CloneGitRepositoryJob(
-    #     url="https://github.com/rwth-i6/i6_models",
-    #     commit="1e94a4d9d1aa48fe3ac7f60de2cd7bd3fea19c3e",
-    #     checkout_folder_name="i6_models"
-    # ).out_repository
-    i6_models_repo = tk.Path("/u/rossenbach/experiments/tts_asr_2023_pycharm/i6_models")
+    i6_models_repo = CloneGitRepositoryJob(
+        url="https://github.com/rwth-i6/i6_models",
+        commit="933c6c13f7d6c74e5a59af0257e17c208dae9da3",
+        checkout_folder_name="i6_models"
+    ).out_repository
+    #i6_models_repo = tk.Path("/u/rossenbach/experiments/tts_asr_2023_pycharm/i6_models")
     i6_models_repo.hash_overwrite = "LIBRISPEECH_DEFAULT_I6_MODELS"
     i6_models = ExternalImport(import_path=i6_models_repo)