fixed a recently introduced bug about action model prediction evaluation

Ye Shaokai · Ye Shaokai · commit 6c3db97d703d · 2025-02-08T14:14:56.000+01:00
diff --git a/.vscode/launch.json b/.vscode/launch.json
@@ -219,145 +219,144 @@
 // }
 
 //shaokai
-{
-    "version": "0.2.0",
-    "configurations": [
-        {
-            "name": "Run LLAVA Training with torchrun",
-            "type": "debugpy",
-            "request": "launch",
-            "module": "torch.distributed.run",
-            "env": {
-                "CUDA_VISIBLE_DEVICES": "0",
-                "OMP_NUM_THREADS": "8",
-                "NCCL_IB_DISABLE": "0",
-                "NCCL_IB_GID_INDEX": "3",
-                "NCCL_SOCKET_IFNAME": "eth0",
-                "HF_HOME": "/data/shaokai",
-                "NCCL_DEBUG": "INFO",
-                "ACCELERATE_CPU_AFFINITY": "1",
-                "WANDB_API_KEY": "4474ec79de023b0c3ffb43588ab6163264f875db",
-                "PYTHONPATH": "/data/shaokai/LLaVA-NeXT:/usr/local/lib/python3.10/site-packages/decord-0.6.0-py3.10-linux-x86_64.egg/"
-            },
-            "args": [
-                "--nproc_per_node=1",
-                "--nnodes=1",
-                "--node_rank=0",
-                "--master_addr=127.0.0.1",
-                "--master_port=29500",
-                "llava/train/train_mem.py",                
-                "--deepspeed", "scripts/zero3.json",
-                "--model_name_or_path", "lmms-lab/llava-onevision-qwen2-0.5b-ov",
-                "--version", "qwen_1_5",
-                "--data_path", "scripts/train/simple_avion_top5_gt_and_direct.yaml",
-                "--video_folder", "/data/shaokai/EK100_512/",
-                "--mm_tunable_parts", "mm_vision_tower,mm_mlp_adapter,mm_language_model",
-                "--mm_vision_tower_lr", "2e-6",
-                "--vision_tower", "google/siglip-so400m-patch14-384",
-                "--mm_projector_type", "mlp2x_gelu",
-                "--mm_vision_select_layer", "-2",
-                "--mm_use_im_start_end", "False",
-                "--mm_use_im_patch_token", "False",
-                "--group_by_modality_length", "True",
-                "--image_aspect_ratio", "anyres_max_9",
-                "--image_grid_pinpoints", "(1x1),...,(6x6)",
-                "--mm_patch_merge_type", "spatial_unpad",
-                "--bf16", "True",
-                "--run_name", "dpo_test",
-                "--output_dir", "experiments/dpo_test",
-                "--num_train_epochs", "1",
-                "--per_device_train_batch_size", "4",
-                "--per_device_eval_batch_size", "4",
-                "--gradient_accumulation_steps", "2",
-                "--evaluation_strategy", "steps",
-                "--save_strategy", "steps",
-                "--save_steps", "1000",
-                "--save_total_limit", "1",
-                "--learning_rate", "1e-5",
-                "--weight_decay", "0.",
-                "--warmup_ratio", "0.03",
-                "--lr_scheduler_type", "cosine",
-                "--logging_steps", "1",
-                "--tf32", "True",
-                "--model_max_length", "32768",
-                "--gradient_checkpointing", "True",
-                "--dataloader_num_workers", "4",
-                "--lazy_preprocess", "True",
-                "--report_to", "wandb",
-                "--torch_compile", "True",
-                "--torch_compile_backend", "inductor",
-                "--dataloader_drop_last", "True",
-                "--frames_upbound", "4",
-                "--root", "/data/shaokai/EK100_512/EK100",
-                "--action_predictions", "/data/shaokai/AVION_PREDS/avion_pred_ids_val.json",
-                "--val_metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv",
-                "--llava_num_frames", "4",
-                "--clip_length", "4",
-                "--action_representation", "official_key",
-                "--topk_predictions", "5",
-                "--eval_steps", "1",
-                "--vision_supervision", "three_tokens",
-                "--vision_token_training", "all_layers",
-                "--action_types",  "97,300,3806",
-                "--learn_neighbor_actions", "prior",
-                "--test_type", "temporal_cot"
-            ],
-            "console": "integratedTerminal",
-            "justMyCode": false,
-            "cwd": "${workspaceFolder}"
-        }
-    ]
-}
-
-
 // {
-//         "version": "0.2.0",
-//         "configurations": [
-//             {
-//                 "name": "Run LLAVA Training with torchrun",
-//                 "type": "debugpy",
-//                 "request": "launch",
-//                 "module": "torch.distributed.run",
-//                 "env": {
-//                     "CUDA_VISIBLE_DEVICES": "0",
-//                     "OMP_NUM_THREADS": "8",
-//                     "NCCL_IB_DISABLE": "0",
-//                     "NCCL_IB_GID_INDEX": "3",
-//                     "NCCL_SOCKET_IFNAME": "eth0",
-//                     "HF_HOME": "/data/shaokai",
-//                     "NCCL_DEBUG": "INFO",
-//                     "ACCELERATE_CPU_AFFINITY": "1",
-//                     "WANDB_API_KEY": "4474ec79de023b0c3ffb43588ab6163264f875db",
-//                     "PYTHONPATH": "/data/shaokai/LLaVA-NeXT:/usr/local/lib/python3.10/site-packages/decord-0.6.0-py3.10-linux-x86_64.egg/"
-//                 },
-//                 "args": [
-//                     "--nproc_per_node=1",
-//                     "--nnodes=1",
-//                     "--node_rank=0",
-//                     "--master_addr=127.0.0.1",
-//                     "--master_port=29500",
-//                     "llava/action/ek_eval.py",
-//                     "--pretrained_name", "experiments/dev_0.5b_4f_avion_top5_and_direct_neighbor",
-//                     "--root", "/data/shaokai/EK100",
-//                     "--train-metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv",
-//                     "--val-metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv",
-//                     "--llava_num_frames", "4",
-//                     "--clip-length", "4",
-//                     "--action_predictions","/data/shaokai/TIM_PREDS/tim_pred_ids_val.json",
-//                     "--action_representation", "official_key",
-//                     "--topk_predictions", "5",
-//                     "--test_type", "temporal_cot",
-//                     "--output_dir", "test_0.5b_direct",  
-//                     "--learn_neighbor_actions"                  
-//                 ],
-//                 "console": "integratedTerminal",
-//                 "justMyCode": false,
-//                 "cwd": "${workspaceFolder}"
-//             }
-//         ]
+//     "version": "0.2.0",
+//     "configurations": [
+//         {
+//             "name": "Run LLAVA Training with torchrun",
+//             "type": "debugpy",
+//             "request": "launch",
+//             "module": "torch.distributed.run",
+//             "env": {
+//                 "CUDA_VISIBLE_DEVICES": "0",
+//                 "OMP_NUM_THREADS": "8",
+//                 "NCCL_IB_DISABLE": "0",
+//                 "NCCL_IB_GID_INDEX": "3",
+//                 "NCCL_SOCKET_IFNAME": "eth0",
+//                 "HF_HOME": "/data/shaokai",
+//                 "NCCL_DEBUG": "INFO",
+//                 "ACCELERATE_CPU_AFFINITY": "1",
+//                 "WANDB_API_KEY": "4474ec79de023b0c3ffb43588ab6163264f875db",
+//                 "PYTHONPATH": "/data/shaokai/LLaVA-NeXT:/usr/local/lib/python3.10/site-packages/decord-0.6.0-py3.10-linux-x86_64.egg/"
+//             },
+//             "args": [
+//                 "--nproc_per_node=1",
+//                 "--nnodes=1",
+//                 "--node_rank=0",
+//                 "--master_addr=127.0.0.1",
+//                 "--master_port=29500",
+//                 "llava/train/train_mem.py",                
+//                 "--deepspeed", "scripts/zero3.json",
+//                 "--model_name_or_path", "lmms-lab/llava-onevision-qwen2-0.5b-ov",
+//                 "--version", "qwen_1_5",
+//                 "--data_path", "scripts/train/simple_avion_top5_gt_and_direct.yaml",
+//                 "--video_folder", "/data/shaokai/EK100_512/",
+//                 "--mm_tunable_parts", "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+//                 "--mm_vision_tower_lr", "2e-6",
+//                 "--vision_tower", "google/siglip-so400m-patch14-384",
+//                 "--mm_projector_type", "mlp2x_gelu",
+//                 "--mm_vision_select_layer", "-2",
+//                 "--mm_use_im_start_end", "False",
+//                 "--mm_use_im_patch_token", "False",
+//                 "--group_by_modality_length", "True",
+//                 "--image_aspect_ratio", "anyres_max_9",
+//                 "--image_grid_pinpoints", "(1x1),...,(6x6)",
+//                 "--mm_patch_merge_type", "spatial_unpad",
+//                 "--bf16", "True",
+//                 "--run_name", "dpo_test",
+//                 "--output_dir", "experiments/dpo_test",
+//                 "--num_train_epochs", "1",
+//                 "--per_device_train_batch_size", "4",
+//                 "--per_device_eval_batch_size", "4",
+//                 "--gradient_accumulation_steps", "2",
+//                 "--evaluation_strategy", "steps",
+//                 "--save_strategy", "steps",
+//                 "--save_steps", "1000",
+//                 "--save_total_limit", "1",
+//                 "--learning_rate", "1e-5",
+//                 "--weight_decay", "0.",
+//                 "--warmup_ratio", "0.03",
+//                 "--lr_scheduler_type", "cosine",
+//                 "--logging_steps", "1",
+//                 "--tf32", "True",
+//                 "--model_max_length", "32768",
+//                 "--gradient_checkpointing", "True",
+//                 "--dataloader_num_workers", "4",
+//                 "--lazy_preprocess", "True",
+//                 "--report_to", "wandb",
+//                 "--torch_compile", "True",
+//                 "--torch_compile_backend", "inductor",
+//                 "--dataloader_drop_last", "True",
+//                 "--frames_upbound", "4",
+//                 "--root", "/data/shaokai/EK100_512/EK100",
+//                 "--action_predictions", "/data/shaokai/AVION_PREDS/avion_pred_ids_val.json",
+//                 "--val_metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv",
+//                 "--llava_num_frames", "4",
+//                 "--clip_length", "4",
+//                 "--action_representation", "official_key",
+//                 "--topk_predictions", "5",
+//                 "--eval_steps", "1",
+//                 "--vision_supervision", "three_tokens",
+//                 "--vision_token_training", "all_layers",
+//                 "--action_types",  "97,300,3806",
+//                 "--learn_neighbor_actions", "prior",
+//                 "--test_type", "base"
+//             ],
+//             "console": "integratedTerminal",
+//             "justMyCode": false,
+//             "cwd": "${workspaceFolder}"
+//         }
+//     ]
 // }
 
 
+{
+        "version": "0.2.0",
+        "configurations": [
+            {
+                "name": "Run LLAVA Training with torchrun",
+                "type": "debugpy",
+                "request": "launch",
+                "module": "torch.distributed.run",
+                "env": {
+                    "CUDA_VISIBLE_DEVICES": "0",
+                    "OMP_NUM_THREADS": "8",
+                    "NCCL_IB_DISABLE": "0",
+                    "NCCL_IB_GID_INDEX": "3",
+                    "NCCL_SOCKET_IFNAME": "eth0",
+                    "HF_HOME": "/data/shaokai",
+                    "NCCL_DEBUG": "INFO",
+                    "ACCELERATE_CPU_AFFINITY": "1",
+                    "WANDB_API_KEY": "4474ec79de023b0c3ffb43588ab6163264f875db",
+                    "PYTHONPATH": "/data/shaokai/LLaVA-NeXT:/usr/local/lib/python3.10/site-packages/decord-0.6.0-py3.10-linux-x86_64.egg/"
+                },
+                "args": [
+                    "--nproc_per_node=1",
+                    "--nnodes=1",
+                    "--node_rank=0",
+                    "--master_addr=127.0.0.1",
+                    "--master_port=29500",
+                    "llava/action/ek_eval.py",
+                    "--pretrained_name", "experiments/dev_0.5b_4f_avion_top5_and_direct_neighbor",
+                    "--root", "/data/shaokai/EK100",
+                    "--train-metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv",
+                    "--val-metadata", "/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv",
+                    "--llava_num_frames", "4",
+                    "--clip-length", "4",
+                    "--action_predictions","/data/shaokai/TIM_PREDS/tim_pred_ids_val.json",
+                    "--action_representation", "GT_random_narration",
+                    "--topk_predictions", "5",
+                    "--test_type", "base",
+                    "--output_dir", "test_0.5b_direct",  
+                ],
+                "console": "integratedTerminal",
+                "justMyCode": false,
+                "cwd": "${workspaceFolder}"
+            }
+        ]
+}
+
+
 // {
 //     "version": "0.2.0",
 //     "configurations": [
diff --git a/llava/action/utils.py b/llava/action/utils.py
@@ -550,17 +550,18 @@ def test_generate(self,
                 answer_ids.pop()
                 answer_ids.append(gt_vn)
        
-        # let's shuffle answer_ids so that the gt_vn is not always at the end
-        random.shuffle(answer_ids)         
-        
+                      
         answers = []
         for answer_id in answer_ids:
             answer = parse_vn_ids(answer_id, gt_vn, narration, action_representation, n_narrations, labels, mapping_vn2narration, verb_maps, noun_maps)
             answers.append(answer)
+        avion_pred = answers[0]
+        
+        random.shuffle(answers)
         
         letters = [chr(65+i) for i in range(26)][:k]
         options = list(range(26))[:k]
-
+                
         options = []
         for answer, letter in zip(answers, letters):
             options.append(f'{letter}. {answer}')
@@ -572,7 +573,7 @@ def test_generate(self,
                 'options': {0: options},               
                 'gt_answer_name': {0: gt_answer},
                 'valid_letters': letters,
-                'avion_pred': answers[0],
+                'avion_pred': avion_pred,
                 'all_avion_preds': answers
             }