some bug fixes

Ye Shaokai · Ye Shaokai · commit c5ee60bd74ac · 2025-02-05T17:59:07.000+01:00
diff --git a/.vscode/launch.json b/.vscode/launch.json
@@ -219,144 +219,144 @@
 // }
 
 //shaokai
-// {
-//     "version": "0.2.0",
-//     "configurations": [
-//         {
-//             "name": "Run LLAVA Training with torchrun",
-//             "type": "debugpy",
-//             "request": "launch",
-//             "module": "torch.distributed.run",
-//             "env": {
-//                 "CUDA_VISIBLE_DEVICES": "0",
-//                 "OMP_NUM_THREADS": "8",
-//                 "NCCL_IB_DISABLE": "0",
-//                 "NCCL_IB_GID_INDEX": "3",
-//                 "NCCL_SOCKET_IFNAME": "eth0",
-//                 "HF_HOME": "/data/shaokai",
-//                 "NCCL_DEBUG": "INFO",
-//                 "ACCELERATE_CPU_AFFINITY": "1",
-//                 "WANDB_API_KEY": "4474ec79de023b0c3ffb43588ab6163264f875db",
-//                 "PYTHONPATH": "/data/shaokai/LLaVA-NeXT:/usr/local/lib/python3.10/site-packages/decord-0.6.0-py3.10-linux-x86_64.egg/"
-//             },
-//             "args": [
-//                 "--nproc_per_node=1",
-//                 "--nnodes=1",
-//                 "--node_rank=0",
-//                 "--master_addr=127.0.0.1",
-//                 "--master_port=29500",
-//                 "llava/train/train_mem.py",                
-//                 "--deepspeed", "scripts/zero3.json",
-//                 "--model_name_or_path", "lmms-lab/llava-onevision-qwen2-0.5b-ov",
-//                 "--version", "qwen_1_5",
-//                 "--data_path", "scripts/train/simple_avion_top5_gt_and_direct.yaml",
-//                 "--video_folder", "/data/shaokai/EK100_512/",
-//                 "--mm_tunable_parts", "mm_vision_tower,mm_mlp_adapter,mm_language_model",
-//                 "--mm_vision_tower_lr", "2e-6",
-//                 "--vision_tower", "google/siglip-so400m-patch14-384",
-//                 "--mm_projector_type", "mlp2x_gelu",
-//                 "--mm_vision_select_layer", "-2",
-//                 "--mm_use_im_start_end", "False",
-//                 "--mm_use_im_patch_token", "False",
-//                 "--group_by_modality_length", "True",
-//                 "--image_aspect_ratio", "anyres_max_9",
-//                 "--image_grid_pinpoints", "(1x1),...,(6x6)",
-//                 "--mm_patch_merge_type", "spatial_unpad",
-//                 "--bf16", "True",
-//                 "--run_name", "dpo_test",
-//                 "--output_dir", "experiments/dpo_test",
-//                 "--num_train_epochs", "1",
-//                 "--per_device_train_batch_size", "4",
-//                 "--per_device_eval_batch_size", "4",
-//                 "--gradient_accumulation_steps", "2",
-//                 "--evaluation_strategy", "steps",
-//                 "--save_strategy", "steps",
-//                 "--save_steps", "1000",
-//                 "--save_total_limit", "1",
-//                 "--learning_rate", "1e-5",
-//                 "--weight_decay", "0.",
-//                 "--warmup_ratio", "0.03",
-//                 "--lr_scheduler_type", "cosine",
-//                 "--logging_steps", "1",
-//                 "--tf32", "True",
-//                 "--model_max_length", "32768",
-//                 "--gradient_checkpointing", "True",
-//                 "--dataloader_num_workers", "4",
-//                 "--lazy_preprocess", "True",
-//                 "--report_to", "wandb",
-//                 "--torch_compile", "True",
-//                 "--torch_compile_backend", "inductor",
-//                 "--dataloader_drop_last", "True",
-//                 "--frames_upbound", "4",
-//                 "--root", "/data/shaokai/EK100_512/EK100",
-//                 "--action_predictions", "/data/shaokai/AVION_PREDS/avion_pred_ids_val.json",
-//                 "--val_metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv",
-//                 "--llava_num_frames", "4",
-//                 "--clip_length", "4",
-//                 "--action_representation", "official_key",
-//                 "--topk_predictions", "5",
-//                 "--eval_steps", "1",
-//                 "--vision_supervision", "three_tokens",
-//                 "--vision_token_training", "all_layers",
-//                 "--action_types",  "97,300,3806",
-//                 "--learn_neighbor_actions", "True"
-//             ],
-//             "console": "integratedTerminal",
-//             "justMyCode": false,
-//             "cwd": "${workspaceFolder}"
-//         }
-//     ]
-// }
-
-
 {
-        "version": "0.2.0",
-        "configurations": [
-            {
-                "name": "Run LLAVA Training with torchrun",
-                "type": "debugpy",
-                "request": "launch",
-                "module": "torch.distributed.run",
-                "env": {
-                    "CUDA_VISIBLE_DEVICES": "0",
-                    "OMP_NUM_THREADS": "8",
-                    "NCCL_IB_DISABLE": "0",
-                    "NCCL_IB_GID_INDEX": "3",
-                    "NCCL_SOCKET_IFNAME": "eth0",
-                    "HF_HOME": "/data/shaokai",
-                    "NCCL_DEBUG": "INFO",
-                    "ACCELERATE_CPU_AFFINITY": "1",
-                    "WANDB_API_KEY": "4474ec79de023b0c3ffb43588ab6163264f875db",
-                    "PYTHONPATH": "/data/shaokai/LLaVA-NeXT:/usr/local/lib/python3.10/site-packages/decord-0.6.0-py3.10-linux-x86_64.egg/"
-                },
-                "args": [
-                    "--nproc_per_node=1",
-                    "--nnodes=1",
-                    "--node_rank=0",
-                    "--master_addr=127.0.0.1",
-                    "--master_port=29500",
-                    "llava/action/ek_eval.py",
-                    "--pretrained_name", "experiments/dev_0.5b_4f_avion_top5_and_direct_neighbor",
-                    "--root", "/data/shaokai/EK100",
-                    "--train-metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv",
-                    "--val-metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv",
-                    "--llava_num_frames", "4",
-                    "--clip-length", "4",
-                    "--action_predictions","/data/shaokai/TIM_PREDS/tim_pred_ids_val.json",
-                    "--action_representation", "official_key",
-                    "--topk_predictions", "5",
-                    "--test_type", "temporal_cot",
-                    "--output_dir", "test_0.5b_direct",  
-                    "--learn_neighbor_actions"                  
-                ],
-                "console": "integratedTerminal",
-                "justMyCode": false,
-                "cwd": "${workspaceFolder}"
-            }
-        ]
+    "version": "0.2.0",
+    "configurations": [
+        {
+            "name": "Run LLAVA Training with torchrun",
+            "type": "debugpy",
+            "request": "launch",
+            "module": "torch.distributed.run",
+            "env": {
+                "CUDA_VISIBLE_DEVICES": "0",
+                "OMP_NUM_THREADS": "8",
+                "NCCL_IB_DISABLE": "0",
+                "NCCL_IB_GID_INDEX": "3",
+                "NCCL_SOCKET_IFNAME": "eth0",
+                "HF_HOME": "/data/shaokai",
+                "NCCL_DEBUG": "INFO",
+                "ACCELERATE_CPU_AFFINITY": "1",
+                "WANDB_API_KEY": "4474ec79de023b0c3ffb43588ab6163264f875db",
+                "PYTHONPATH": "/data/shaokai/LLaVA-NeXT:/usr/local/lib/python3.10/site-packages/decord-0.6.0-py3.10-linux-x86_64.egg/"
+            },
+            "args": [
+                "--nproc_per_node=1",
+                "--nnodes=1",
+                "--node_rank=0",
+                "--master_addr=127.0.0.1",
+                "--master_port=29500",
+                "llava/train/train_mem.py",                
+                "--deepspeed", "scripts/zero3.json",
+                "--model_name_or_path", "lmms-lab/llava-onevision-qwen2-0.5b-ov",
+                "--version", "qwen_1_5",
+                "--data_path", "scripts/train/simple_avion_top5_gt_and_direct.yaml",
+                "--video_folder", "/data/shaokai/EK100_512/",
+                "--mm_tunable_parts", "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+                "--mm_vision_tower_lr", "2e-6",
+                "--vision_tower", "google/siglip-so400m-patch14-384",
+                "--mm_projector_type", "mlp2x_gelu",
+                "--mm_vision_select_layer", "-2",
+                "--mm_use_im_start_end", "False",
+                "--mm_use_im_patch_token", "False",
+                "--group_by_modality_length", "True",
+                "--image_aspect_ratio", "anyres_max_9",
+                "--image_grid_pinpoints", "(1x1),...,(6x6)",
+                "--mm_patch_merge_type", "spatial_unpad",
+                "--bf16", "True",
+                "--run_name", "dpo_test",
+                "--output_dir", "experiments/dpo_test",
+                "--num_train_epochs", "1",
+                "--per_device_train_batch_size", "4",
+                "--per_device_eval_batch_size", "4",
+                "--gradient_accumulation_steps", "2",
+                "--evaluation_strategy", "steps",
+                "--save_strategy", "steps",
+                "--save_steps", "1000",
+                "--save_total_limit", "1",
+                "--learning_rate", "1e-5",
+                "--weight_decay", "0.",
+                "--warmup_ratio", "0.03",
+                "--lr_scheduler_type", "cosine",
+                "--logging_steps", "1",
+                "--tf32", "True",
+                "--model_max_length", "32768",
+                "--gradient_checkpointing", "True",
+                "--dataloader_num_workers", "4",
+                "--lazy_preprocess", "True",
+                "--report_to", "wandb",
+                "--torch_compile", "True",
+                "--torch_compile_backend", "inductor",
+                "--dataloader_drop_last", "True",
+                "--frames_upbound", "4",
+                "--root", "/data/shaokai/EK100_512/EK100",
+                "--action_predictions", "/data/shaokai/AVION_PREDS/avion_pred_ids_val.json",
+                "--val_metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv",
+                "--llava_num_frames", "4",
+                "--clip_length", "4",
+                "--action_representation", "official_key",
+                "--topk_predictions", "5",
+                "--eval_steps", "1",
+                "--vision_supervision", "three_tokens",
+                "--vision_token_training", "all_layers",
+                "--action_types",  "97,300,3806",
+                "--perspective", "first_person"
+            ],
+            "console": "integratedTerminal",
+            "justMyCode": false,
+            "cwd": "${workspaceFolder}"
+        }
+    ]
 }
 
 
+// {
+//         "version": "0.2.0",
+//         "configurations": [
+//             {
+//                 "name": "Run LLAVA Training with torchrun",
+//                 "type": "debugpy",
+//                 "request": "launch",
+//                 "module": "torch.distributed.run",
+//                 "env": {
+//                     "CUDA_VISIBLE_DEVICES": "0",
+//                     "OMP_NUM_THREADS": "8",
+//                     "NCCL_IB_DISABLE": "0",
+//                     "NCCL_IB_GID_INDEX": "3",
+//                     "NCCL_SOCKET_IFNAME": "eth0",
+//                     "HF_HOME": "/data/shaokai",
+//                     "NCCL_DEBUG": "INFO",
+//                     "ACCELERATE_CPU_AFFINITY": "1",
+//                     "WANDB_API_KEY": "4474ec79de023b0c3ffb43588ab6163264f875db",
+//                     "PYTHONPATH": "/data/shaokai/LLaVA-NeXT:/usr/local/lib/python3.10/site-packages/decord-0.6.0-py3.10-linux-x86_64.egg/"
+//                 },
+//                 "args": [
+//                     "--nproc_per_node=1",
+//                     "--nnodes=1",
+//                     "--node_rank=0",
+//                     "--master_addr=127.0.0.1",
+//                     "--master_port=29500",
+//                     "llava/action/ek_eval.py",
+//                     "--pretrained_name", "experiments/dev_0.5b_4f_avion_top5_and_direct_neighbor",
+//                     "--root", "/data/shaokai/EK100",
+//                     "--train-metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv",
+//                     "--val-metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv",
+//                     "--llava_num_frames", "4",
+//                     "--clip-length", "4",
+//                     "--action_predictions","/data/shaokai/TIM_PREDS/tim_pred_ids_val.json",
+//                     "--action_representation", "official_key",
+//                     "--topk_predictions", "5",
+//                     "--test_type", "temporal_cot",
+//                     "--output_dir", "test_0.5b_direct",  
+//                     "--learn_neighbor_actions"                  
+//                 ],
+//                 "console": "integratedTerminal",
+//                 "justMyCode": false,
+//                 "cwd": "${workspaceFolder}"
+//             }
+//         ]
+// }
+
+
 // {
 //     "version": "0.2.0",
 //     "configurations": [
diff --git a/llava/train/llava_trainer.py b/llava/train/llava_trainer.py
@@ -496,10 +496,7 @@ def __init__(self,
         self.model_max_length = model_max_length
 
     def evaluate(self, eval_dataset=None, ignore_keys=None, metric_key_prefix="eval", eval_result_folder = None):                
-        
-        print ('debug')
-        print (self.eval_args)
-        
+                
         accuracy = evaluate_on_EK100(self.eval_args, self.model, self.tokenizer, eval_result_folder = eval_result_folder)
         metrics = {f"{metric_key_prefix}_EK100_accuracy": accuracy}
         self.log(metrics)
diff --git a/llava/train/train.py b/llava/train/train.py
@@ -203,6 +203,7 @@ class EK100EvalArguments:
     test_type: str = 'base'
     learn_neighbor_actions: bool = False
     perspective: str = "first_person"
+    pseudo_folder: str = ""
 
 def maybe_zero_3(param, ignore_status=False, name=None):
     from deepspeed import zero
diff --git a/llava/train/train_dpo_new.py b/llava/train/train_dpo_new.py
@@ -223,6 +223,8 @@ class EK100EvalArguments:
     n_narrations: int = -1
     test_type: str = 'base'
     learn_neighbor_actions: bool = False
+    perspective: str = "first_person"
+    pseudo_folder: str = ""
     
 
 def maybe_zero_3(param, ignore_status=False, name=None):