fix hard coding path

yuekaizhang · yuekaizhang · commit b1342409360b · 2026-03-10T17:02:46.000+08:00
Signed-off-by: root &lt;zhangyuekai@foxmail.com&gt;
diff --git a/examples/configs/audio_grpo_3B_megatron.yaml b/examples/configs/audio_grpo_3B_megatron.yaml
@@ -54,14 +54,14 @@ loss_fn:
   force_on_policy_ratio: false
 checkpointing:
   enabled: true
-  checkpoint_dir: results/audio_grpo_3B_megatron_rerun
+  checkpoint_dir: results/audio_grpo_3B_megatron
   metric_name: val:accuracy
   higher_is_better: true
   keep_top_k: 10
   save_period: 100
   checkpoint_must_save_by: null
 policy:
-  model_name: /workspace_yuekai/HF/Qwen2.5-Omni-3B
+  model_name: Qwen/Qwen2.5-Omni-3B
   tokenizer:
     name: ${policy.model_name}
   train_global_batch_size: 32
@@ -224,7 +224,7 @@ data:
     split: validation
   # default settings for all datasets
   default:
-    prompt_file: examples/prompts/avqa_cot.txt
+    prompt_file: null
     system_prompt_file: null
     processor: "vlm_hf_data_processor"
     env_name: "avqa"
diff --git a/examples/configs/sft_audio_lm_megatron.yaml b/examples/configs/sft_audio_lm_megatron.yaml
@@ -22,7 +22,7 @@ checkpointing:
   save_period: 500
 
 policy:
-  model_name: "/workspace_yuekai/HF/Qwen2-Audio-7B"
+  model_name: "Qwen/Qwen2-Audio-7B"
   tokenizer:
     name: ${policy.model_name}
   train_global_batch_size: 32
diff --git a/examples/prompts/avqa_cot.txt b/examples/prompts/avqa_cot.txt
diff --git a/nemo_rl/data/datasets/response_datasets/avqa.py b/nemo_rl/data/datasets/response_datasets/avqa.py
@@ -81,7 +81,7 @@ def __init__(self, split: str = "train", **kwargs):
                 f"Invalid split: {split}. Please use one of {VALID_SPLITS}."
             )
 
-        self.dataset = load_dataset("/workspace_yuekai/HF/avqa-processed", split=split)
+        self.dataset = load_dataset("gijs/avqa-processed", split=split)
 
         self.dataset = self.dataset.add_column(
             "task_name", [self.task_name] * len(self.dataset)
diff --git a/nemo_rl/data/processors.py b/nemo_rl/data/processors.py
@@ -469,6 +469,8 @@ def vlm_hf_data_processor(
         datum_dict = format_geometry3k_dataset(datum_dict)
     elif datum_dict["task_name"] == "avqa":
         pass  # AVQA data is already formatted by AVQADataset.format_data
+    elif datum_dict["task_name"] == "aishell":
+        pass  # AISHELL data is already formatted by AishellDataset.format_data
     else:
         raise ValueError(f"No data processor for task {datum_dict['task_name']}")
 

Original file line number	Diff line number	Diff line change
`@@ -81,7 +81,7 @@ def __init__(self, split: str = "train", **kwargs):`
`81`	`81`	`f"Invalid split: {split}. Please use one of {VALID_SPLITS}."`
`82`	`82`	`)`
`83`	`83`
`84`		`- self.dataset = load_dataset("/workspace_yuekai/HF/avqa-processed", split=split)`
	`84`	`+ self.dataset = load_dataset("gijs/avqa-processed", split=split)`
`85`	`85`
`86`	`86`	`self.dataset = self.dataset.add_column(`
`87`	`87`	`"task_name", [self.task_name] * len(self.dataset)`