AdaptiveMotorControlLab
diff --git a/‎.vscode/launch.json‎
Lines changed: 95 additions & 55 deletions b/‎.vscode/launch.json‎
Lines changed: 95 additions & 55 deletions
diff --git a/‎lmms_eval.sh‎
Lines changed: 36 additions & 10 deletions b/‎lmms_eval.sh‎
Lines changed: 36 additions & 10 deletions
@@ -1,11 +1,96 @@
+// {
+//     "version": "0.2.0",
+//     "configurations": [
+//         {
+//             "name": "Run LLAVA Training with torchrun",
+//             "type": "debugpy",
+//             "request": "launch",
+//             "module": "torch.distributed.run",
+//             "env": {
+//                 "CUDA_VISIBLE_DEVICES": "0,1,2,3",
+//                 "OMP_NUM_THREADS": "8",
+//                 "NCCL_IB_DISABLE": "0",
+//                 "NCCL_IB_GID_INDEX": "3",
+//                 "NCCL_SOCKET_IFNAME": "eth0",
+//                 "NCCL_DEBUG": "INFO",
+//                 "ACCELERATE_CPU_AFFINITY": "1",
+//                 "LD_PRELOAD": "/usr/lib/x86_64-linux-gnu/libffi.so.7",
+//                 "WANDB_API_KEY": "65aeda82a75f1eed29c8e9250b175fcc73dca0d7",
+//                 "CUDA_LAUNCH_BLOCKING": "1",
+//                 "HF_HOME": "/media/data/haozhe/VFM/huggingface",
+//             },
+//             "args": [
+//                 "--nproc_per_node=4",
+//                 "--nnodes=1",
+//                 "llava/train/train_mem.py",
+//                 "--deepspeed", "scripts/zero3.json",
+//                 "--model_name_or_path", "lmms-lab/llava-onevision-qwen2-0.5b-ov",
+//                 "--version", "qwen_1_5",
+//                 "--data_path", "scripts/train/llava_video.yaml",
+//                 "--video_folder", "/media/data/haozhe/VFM/onevision/llava_video",
+//                 "--mm_tunable_parts", "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+//                 "--mm_vision_tower_lr", "2e-6",
+//                 "--vision_tower", "google/siglip-so400m-patch14-384",
+//                 "--mm_projector_type", "mlp2x_gelu",
+//                 "--mm_vision_select_layer", "-2",
+//                 "--mm_use_im_start_end", "False",
+//                 "--mm_use_im_patch_token", "False",
+//                 "--group_by_modality_length", "True",
+//                 "--image_aspect_ratio", "anyres_max_9",
+//                 "--image_grid_pinpoints", "(1x1),...,(6x6)",
+//                 "--mm_patch_merge_type", "spatial_unpad",
+//                 "--bf16", "True",
+//                 "--run_name", "dev_0.5b_4f_llavavideo_haozhe",
+//                 "--output_dir", "experiments/dev_0.5b_4f_llavavideo_haozhe",
+//                 "--num_train_epochs", "1",
+//                 "--per_device_train_batch_size", "8",
+//                 "--per_device_eval_batch_size", "4",
+//                 "--gradient_accumulation_steps", "2",
+//                 "--evaluation_strategy", "epoch",
+//                 "--eval_steps", "1",
+//                 "--save_strategy", "steps",
+//                 "--save_steps", "2000",
+//                 "--learning_rate", "1e-5",
+//                 "--weight_decay", "0.",
+//                 "--warmup_ratio", "0.03",
+//                 "--lr_scheduler_type", "cosine",
+//                 "--logging_steps", "1",
+//                 "--tf32", "True",
+//                 "--model_max_length", "32768",
+//                 "--gradient_checkpointing", "True",
+//                 "--dataloader_num_workers", "4",
+//                 "--lazy_preprocess", "True",
+//                 "--report_to", "wandb",
+//                 "--torch_compile", "True",
+//                 "--torch_compile_backend", "inductor",
+//                 "--dataloader_drop_last", "True",
+//                 "--frames_upbound", "4",
+//                 "--root", "/media/data/haozhe/VFM/onevision/llava_video/EK100",
+//                 "--action_predictions", "/media/data/haozhe/VFM/EK100/EK100_in_LLAVA/TIM/tim_pred_ids_val.json",
+//                 "--val_metadata", "/media/data/haozhe/VFM/EK100/epic-kitchens-100-annotations/EPIC_100_validation.csv",
+//                 "--add_time_instruction", "False",
+//                 "--llava_num_frames", "4",
+//                 "--clip_length", "4",
+//                 "--action_representation", "official_key",
+//                 "--topk_predictions", "5"
+//             ],
+//             "console": "integratedTerminal",
+//             "justMyCode": false,
+//             "cwd": "${workspaceFolder}"
+//         }
+//     ]
+// }
+
+
 {
     "version": "0.2.0",
     "configurations": [
         {
             "name": "Run LLAVA Training with torchrun",
             "type": "debugpy",
             "request": "launch",
-            "module": "torch.distributed.run",
+            "python": "/media/data/haozhe/VFM/llmseval-venv/bin/python",
+            "module": "accelerate.commands.launch",
             "env": {
                 "CUDA_VISIBLE_DEVICES": "0,1,2,3",
                 "OMP_NUM_THREADS": "8",
@@ -20,59 +105,15 @@
                 "HF_HOME": "/media/data/haozhe/VFM/huggingface",
             },
             "args": [
-                "--nproc_per_node=4",
-                "--nnodes=1",
-                "llava/train/train_mem.py",
-                "--deepspeed", "scripts/zero3.json",
-                "--model_name_or_path", "lmms-lab/llava-onevision-qwen2-0.5b-ov",
-                "--version", "qwen_1_5",
-                "--data_path", "scripts/train/llava_video.yaml",
-                "--video_folder", "/media/data/haozhe/VFM/onevision/llava_video",
-                "--mm_tunable_parts", "mm_vision_tower,mm_mlp_adapter,mm_language_model",
-                "--mm_vision_tower_lr", "2e-6",
-                "--vision_tower", "google/siglip-so400m-patch14-384",
-                "--mm_projector_type", "mlp2x_gelu",
-                "--mm_vision_select_layer", "-2",
-                "--mm_use_im_start_end", "False",
-                "--mm_use_im_patch_token", "False",
-                "--group_by_modality_length", "True",
-                "--image_aspect_ratio", "anyres_max_9",
-                "--image_grid_pinpoints", "(1x1),...,(6x6)",
-                "--mm_patch_merge_type", "spatial_unpad",
-                "--bf16", "True",
-                "--run_name", "dev_0.5b_4f_llavavideo_haozhe",
-                "--output_dir", "experiments/dev_0.5b_4f_llavavideo_haozhe",
-                "--num_train_epochs", "1",
-                "--per_device_train_batch_size", "8",
-                "--per_device_eval_batch_size", "4",
-                "--gradient_accumulation_steps", "2",
-                "--evaluation_strategy", "epoch",
-                "--eval_steps", "1",
-                "--save_strategy", "steps",
-                "--save_steps", "2000",
-                "--learning_rate", "1e-5",
-                "--weight_decay", "0.",
-                "--warmup_ratio", "0.03",
-                "--lr_scheduler_type", "cosine",
-                "--logging_steps", "1",
-                "--tf32", "True",
-                "--model_max_length", "32768",
-                "--gradient_checkpointing", "True",
-                "--dataloader_num_workers", "4",
-                "--lazy_preprocess", "True",
-                "--report_to", "wandb",
-                "--torch_compile", "True",
-                "--torch_compile_backend", "inductor",
-                "--dataloader_drop_last", "True",
-                "--frames_upbound", "4",
-                "--root", "/media/data/haozhe/VFM/onevision/llava_video/EK100",
-                "--action_predictions", "/media/data/haozhe/VFM/EK100/EK100_in_LLAVA/TIM/tim_pred_ids_val.json",
-                "--val_metadata", "/media/data/haozhe/VFM/EK100/epic-kitchens-100-annotations/EPIC_100_validation.csv",
-                "--add_time_instruction", "False",
-                "--llava_num_frames", "4",
-                "--clip_length", "4",
-                "--action_representation", "official_key",
-                "--topk_predictions", "5"
+                "--num_processes", "4",
+                "-m", "lmms_eval",
+                "--model", "llava_vid",
+                "--model_args", "pretrained=experiments/dev_LLaVA-Video-7B-Qwen2_4f_test_haozhe,conv_template=qwen_1_5,max_frames_num=64,mm_spatial_pool_mode=average",
+                "--tasks", "videomme",
+                "--batch_size", "1",
+                "--log_samples",
+                "--log_samples_suffix", "llava_vid_retrained",
+                "--output_path", "./logs/"
             ],
             "console": "integratedTerminal",
             "justMyCode": false,
@@ -81,7 +122,6 @@
     ]
 }
 
-
 // {
 //     // Use IntelliSense to learn about possible attributes.
 //     // Hover to view descriptions of existing attributes.
 
@@ -6,19 +6,45 @@ export NCCL_SOCKET_IFNAME="eth0"
 export NCCL_DEBUG="INFO"
 export ACCELERATE_CPU_AFFINITY="1"
 export WANDB_API_KEY="4474ec79de023b0c3ffb43588ab6163264f875db"
-# export HF_HOME=/media/data/haozhe/VFM/huggingface
-export HF_HOME=/mnt/SV_storage/VFM/huggingface
-# export PYTHONPATH=/media/data/haozhe/VFM/LLaVA-NeXT:$PYTHONPATH
-export PYTHONPATH=/mnt/SV_storage/VFM/LLaVA-NeXT:$PYTHONPATH
+export HF_HOME=/media/data/haozhe/VFM/huggingface
+# export HF_HOME=/mnt/SV_storage/VFM/huggingface
+export PYTHONPATH=/media/data/haozhe/VFM/LLaVA-NeXT:$PYTHONPATH
+# export PYTHONPATH=/mnt/SV_storage/VFM/LLaVA-NeXT:$PYTHONPATH
 export OPENAI_API_KEY=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
 
+# source /media/data/haozhe/VFM/llmseval-venv/bin/activate && \
+# accelerate launch --num_processes=4 \
+#      -m lmms_eval \
+#     --model llava_onevision \
+#     --model_args pretrained=lmms-lab/llava-onevision-qwen2-0.5b-ov,conv_template=qwen_1_5,model_name=llava_qwen \
+#     --tasks videomme \
+#     --batch_size 1 \
+#     --log_samples \
+#     --log_samples_suffix llava_onevision \
+#     --output_path ./logs/ \
+#     --verbosity=DEBUG > ./logs/llava_onevision_clustertest.log 2>&1
+
+
+# source /media/data/haozhe/VFM/llmseval-venv/bin/activate && \
+# accelerate launch --num_processes=4 \
+# -m lmms_eval \
+# --model llava_vid  \
+# --model_args pretrained=experiments/dev_7b_16f_top5_strong_first_layer_three_tokens_detection_and_direct_llava_video_10percent/checkpoint-15000,conv_template=qwen_1_5,max_frames_num=64,mm_spatial_pool_mode=average,model_name=llava_qwen \
+# --tasks videomme \
+# --batch_size 1 \
+# --log_samples \
+# --log_samples_suffix dev_7b_16f_top5_strong_first_layer_three_tokens_detection_and_direct_llava_video_10percent_checkpoint_15000 \
+# --output_path ./logs/ \
+# --verbosity=DEBUG > ./logs/dev_7b_16f_top5_strong_first_layer_three_tokens_detection_and_direct_llava_video_10percent_checkpoint_15000.log 2>&1
+
+
+source /media/data/haozhe/VFM/llmseval-venv/bin/activate && \
 accelerate launch --num_processes=4 \
 -m lmms_eval \
---model llava_onevision \
---model_args pretrained=lmms-lab/llava-onevision-qwen2-0.5b-ov,conv_template=qwen_1_5,model_name=llava_qwen \
---tasks activitynetqa \
+--model llava_vid \
+--model_args pretrained=experiments/dev_7b_4f_llavavideo_test_haozhe,conv_template=qwen_1_5,max_frames_num=64,mm_spatial_pool_mode=average \
+--tasks videomme \
 --batch_size 1 \
 --log_samples \
---log_samples_suffix llava_onevision \
---output_path ./logs/ \
---verbosity=DEBUG > ./logs/llava_onevision_activitynetqa_1.log 2>&1
+--log_samples_suffix llava_vid_retrained \
+--output_path ./logs/ > ./logs/llava_video7B_retrained_eval.log 2>&1