update data loader with old mapping names

nbbb24 · nbbb24 · commit b7ce9d975e50 · 2025-09-02T23:26:02.000Z
diff --git a/ecg_bench/scripts/train_1st.sh b/ecg_bench/scripts/train_1st.sh
@@ -1,7 +1,7 @@
 #!/bin/bash
 
 # models=("stmem" "merl" "mlae" "mtae" "siglip" "clip" "vit")
-models=("merl")
+models=("siglip")
 # data=("ecg-qa-mimic-iv-ecg-250-1250")
 # data=("ecg_instruct_45k_mapped_1250") 
 
@@ -10,7 +10,7 @@ for model in "${models[@]}"; do
     python main.py \
     --data=ecg-qa_mimic-iv-ecg_mapped_1250 \
     --model=$model \
-    --device=cuda:0 \
+    --device=cuda:4 \
     --train=first \
     --batch_size=64 \
     --seg_len=1250 \
diff --git a/ecg_bench/scripts/train_2nd.sh b/ecg_bench/scripts/train_2nd.sh
@@ -1,9 +1,12 @@
 #!/usr/bin/env bash
 # ------------------- CONFIGURABLE LISTS -------------------
-encoders=("stmem" "merl" "mlae" "mtae" "siglip" "clip" "vit")
-encoders_checkpoints=("stmem_256_50_0.0001_0.9_0.99_1e-08_500_0.01_True_None_None_None_None" "merl_256_50_0.0001_0.9_0.99_1e-08_500_0.01_True_None_None_None_None" "mlae_256_50_0.0001_0.9_0.99_1e-08_500_0.01_True_None_None_None_None" "mtae_256_50_0.0001_0.9_0.99_1e-08_500_0.01_True_None_None_None_None")
-llms=("gemma-2-2b-it" "llama-3.2-1b-instruct" "qwen2.5-1.5b-instruct")
-datasets=("ecg-qa_ptbxl-250-1250" "ecg-qa-mimic-iv-ecg-250-1250" "ecg-instruct-45k-250-1250" "ecg-instruct-pulse-250-1250" "pretrain-mimic-250-1250") # add more datasets here
+# encoders=("stmem" "merl" "mlae" "mtae" "siglip" "clip" "vit")
+encoders=("merl")
+encoders_checkpoints=("merl_adam_64_50_1024_0.0001_0.9_0.99_1e-08_500_0.01_True_None_None_None_None_1_None_None_False")
+# llms=("gemma-2-2b-it" "llama-3.2-1b-instruct" "qwen2.5-1.5b-instruct")
+llms=("llama-3.2-1b-instruct")
+# datasets=("ecg-qa_ptbxl-250-1250" "ecg-qa-mimic-iv-ecg-250-1250" "ecg-instruct-45k-250-1250" "ecg-instruct-pulse-250-1250" "pretrain-mimic-250-1250") # add more datasets here
+datasets=("ecg_instruct_45k_mapped_1250")
 # ----------------------------------------------------------
 
 for data in "${datasets[@]}"; do
@@ -26,7 +29,7 @@ for data in "${datasets[@]}"; do
             python main.py \
                 --data="$data" \
                 --model="${encoder}_${llm}" \
-                --device=cuda:7 \
+                --device=cuda:3 \
                 --train=second \
                 --batch_size=2 \
                 --seg_len=1250 \
@@ -37,25 +40,25 @@ for data in "${datasets[@]}"; do
                 --attn_implementation=flash_attention_2 \
                 --system_prompt=./data/system_prompt_e2e.txt \
                 $([ -n "$checkpoint_path" ] && echo "--encoder_checkpoint=$checkpoint_path") \
-                --dev
+                --log
         done
     done
 done
 
 
-models=("vit" "clip" "siglip" )
+# models=("merl")
 
-for model in "${models[@]}"; do
-    python main.py \
-    --data=ecg-qa_mimic-iv-ecg_mapped_1250 \
-    --model=$model \
-    --device=cuda:6 \
-    --train=first \
-    --batch_size=8 \
-    --seg_len=1250 \
-    --epochs=2 \
-    --instance_normalize \
-    --attn_implementation=flash_attention_2 \
-    --image \
-    --log
-done
+# for model in "${models[@]}"; do
+#     python main.py \
+#     --data=ecg-qa_mimic-iv-ecg_mapped_1250 \
+#     --model=$model \
+#     --device=cuda:6 \
+#     --train=first \
+#     --batch_size=8 \
+#     --seg_len=1250 \
+#     --epochs=2 \
+#     --instance_normalize \
+#     --attn_implementation=flash_attention_2 \
+#     --image \
+#     --log
+# done
diff --git a/ecg_bench/utils/data_loader_utils.py b/ecg_bench/utils/data_loader_utils.py
@@ -81,9 +81,11 @@ def create_position_ids(self, padded_sequence):
         return position_ids
 
     def get_qa(self, altered_text):
-        if self.args.data == f"pretrain-mimic-{self.args.target_sf}-{self.args.seg_len}":
+        # if self.args.data == f"pretrain-mimic-{self.args.target_sf}-{self.args.seg_len}":
+        if self.args.data == f"pretrain_mimic_mapped_{self.args.seg_len}":
             question, answer = altered_text[0]["value"].replace("\n", "").replace("<ecg>", ""), altered_text[1]["value"]
-        elif self.args.data in [f"ecg-qa-mimic-iv-ecg-{self.args.target_sf}-{self.args.seg_len}", f"ecg-qa-ptbxl-{self.args.target_sf}-{self.args.seg_len}"]:
+        # elif self.args.data in [f"ecg-qa-mimic-iv-ecg-{self.args.target_sf}-{self.args.seg_len}", f"ecg-qa-ptbxl-{self.args.target_sf}-{self.args.seg_len}"]:
+        elif self.args.data in [f"ecg-qa_mimic-iv-ecg_mapped_{self.args.seg_len}", f"ecg-qa_ptbxl_mapped_{self.args.seg_len}"]:
             question_type, question, answer = altered_text[0], altered_text[1], altered_text[2]
             answer = " ".join(answer) if isinstance(answer, list) else answer
         return question, answer
@@ -128,7 +130,8 @@ def setup_conversation_template(self, signal = None):
         return conv
 
     def process_altered_text(self, altered_text):
-        if self.args.data not in [f"ecg-instruct-45k-{self.args.target_sf}-{self.args.seg_len}",
+        if self.args.data not in [#f"ecg-instruct-45k-{self.args.target_sf}-{self.args.seg_len}",
+                                  f"ecg_instruct_45k_mapped_{self.args.seg_len}",
                                   f"ecg-instruct-pulse-{self.args.target_sf}-{self.args.seg_len}",
                                   f"ecg-bench-pulse-{self.args.target_sf}-{self.args.seg_len}"]:
             question, answer = self.get_qa(altered_text)