AdaptiveMotorControlLab
diff --git a/‎.vscode/launch.json‎
Lines changed: 103 additions & 65 deletions b/‎.vscode/launch.json‎
Lines changed: 103 additions & 65 deletions
diff --git a/‎docs/LLaVA_OneVision_Tutorials.ipynb‎
Lines changed: 9 additions & 2 deletions b/‎docs/LLaVA_OneVision_Tutorials.ipynb‎
Lines changed: 9 additions & 2 deletions
diff --git a/‎docs/LLaVA_Video_1003.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/LLaVA_Video_1003.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/download_data.py‎
Lines changed: 32 additions & 0 deletions b/‎docs/download_data.py‎
Lines changed: 32 additions & 0 deletions
@@ -1,13 +1,101 @@
+{
+    "version": "0.2.0",
+    "configurations": [
+        {
+            "name": "Run LLAVA Training with torchrun",
+            "type": "debugpy",
+            "request": "launch",
+            "module": "torch.distributed.run",
+            "env": {
+                "CUDA_VISIBLE_DEVICES": "0,1,2,3",
+                "OMP_NUM_THREADS": "8",
+                "NCCL_IB_DISABLE": "0",
+                "NCCL_IB_GID_INDEX": "3",
+                "NCCL_SOCKET_IFNAME": "eth0",
+                "NCCL_DEBUG": "INFO",
+                "ACCELERATE_CPU_AFFINITY": "1",
+                "LD_PRELOAD": "/usr/lib/x86_64-linux-gnu/libffi.so.7",
+                "WANDB_API_KEY": "65aeda82a75f1eed29c8e9250b175fcc73dca0d7",
+                "CUDA_LAUNCH_BLOCKING": "1",
+                "HF_HOME": "/media/data/haozhe/VFM/huggingface",
+            },
+            "args": [
+                "--nproc_per_node=4",
+                "--nnodes=1",
+                "llava/train/train_mem.py",
+                "--deepspeed", "scripts/zero3.json",
+                "--model_name_or_path", "lmms-lab/llava-onevision-qwen2-0.5b-ov",
+                "--version", "qwen_1_5",
+                "--data_path", "scripts/train/llava_video_RCP.yaml",
+                "--video_folder", "/media/data/haozhe/VFM/onevision/llava_video",
+                "--mm_tunable_parts", "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+                "--mm_vision_tower_lr", "2e-6",
+                "--vision_tower", "google/siglip-so400m-patch14-384",
+                "--mm_projector_type", "mlp2x_gelu",
+                "--mm_vision_select_layer", "-2",
+                "--mm_use_im_start_end", "False",
+                "--mm_use_im_patch_token", "False",
+                "--group_by_modality_length", "True",
+                "--image_aspect_ratio", "anyres_max_9",
+                "--image_grid_pinpoints", "(1x1),...,(6x6)",
+                "--mm_patch_merge_type", "spatial_unpad",
+                "--bf16", "True",
+                "--run_name", "dev_0.5b_llavavideo_haozhe",
+                "--output_dir", "experiments/dev_0.5b_llavavideo_haozhe",
+                "--num_train_epochs", "1",
+                "--per_device_train_batch_size", "1",
+                "--per_device_eval_batch_size", "4",
+                "--gradient_accumulation_steps", "2",
+                "--evaluation_strategy", "epoch",
+                "--eval_steps", "1",
+                "--save_strategy", "steps",
+                "--save_steps", "2000",
+                "--learning_rate", "1e-5",
+                "--weight_decay", "0.",
+                "--warmup_ratio", "0.03",
+                "--lr_scheduler_type", "cosine",
+                "--logging_steps", "1",
+                "--tf32", "True",
+                "--model_max_length", "32768",
+                "--gradient_checkpointing", "True",
+                "--dataloader_num_workers", "4",
+                "--lazy_preprocess", "True",
+                "--report_to", "wandb",
+                "--torch_compile", "True",
+                "--torch_compile_backend", "inductor",
+                "--dataloader_drop_last", "True",
+                "--frames_upbound", "64",
+                "--mm_newline_position", "grid",
+                "--add_time_instruction", "True",
+                "--force_sample", "True",
+                "--mm_spatial_pool_stride", "2",
+                "--root", "/media/data/haozhe/VFM/onevision/llava_video/EK100",
+                "--action_predictions", "/media/data/haozhe/VFM/EK100/EK100_in_LLAVA/TIM/tim_pred_ids_val.json",
+                "--val_metadata", "/media/data/haozhe/VFM/EK100/epic-kitchens-100-annotations/EPIC_100_validation.csv",
+                "--llava_num_frames", "64",
+                "--clip_length", "64",
+                "--action_representation", "official_key",
+                "--topk_predictions", "5"
+            ],
+            "console": "integratedTerminal",
+            "justMyCode": false,
+            "cwd": "${workspaceFolder}"
+        }
+    ]
+}
+
+
 // {
 //     "version": "0.2.0",
 //     "configurations": [
 //         {
 //             "name": "Run LLAVA Training with torchrun",
 //             "type": "debugpy",
 //             "request": "launch",
-//             "module": "torch.distributed.run",
+//             "python": "/media/data/haozhe/VFM/llmseval-venv/bin/python",
+//             "module": "accelerate.commands.launch",
 //             "env": {
-//                 "CUDA_VISIBLE_DEVICES": "0,2,3",
+//                 "CUDA_VISIBLE_DEVICES": "0,1,2,3",
 //                 "OMP_NUM_THREADS": "8",
 //                 "NCCL_IB_DISABLE": "0",
 //                 "NCCL_IB_GID_INDEX": "3",
@@ -17,70 +105,21 @@
 //                 "LD_PRELOAD": "/usr/lib/x86_64-linux-gnu/libffi.so.7",
 //                 "WANDB_API_KEY": "65aeda82a75f1eed29c8e9250b175fcc73dca0d7",
 //                 "CUDA_LAUNCH_BLOCKING": "1",
+//                 "HF_HOME": "/media/data/haozhe/VFM/huggingface",
+//                 "OPENAI_API_KEY": "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"
 //             },
 //             "args": [
-//                 "--nproc_per_node=3",
-//                 "--nnodes=1",
-//                 "--node_rank=0",
-//                 "--master_addr=127.0.0.1",
-//                 "--master_port=29500",
-//                 "llava/train/train_mem.py",
-//                 "--deepspeed", "scripts/zero3.json",
-//                 "--model_name_or_path", "lmms-lab/llava-onevision-qwen2-0.5b-ov",
-//                 "--version", "qwen_1_5",
-//                 "--data_path", "scripts/train/onevision.yaml",
-//                 // "--image_folder", "/mediaPFM/data/haozhe/onevision/llava_data",
-//                 "--image_folder", "/mediaPFM/data/haozhe/onevision/llava_data/geo3k/",
-//                 "--video_folder", "/mediaPFM/data/haozhe/onevision/llava_video",
-//                 // "--video_folder", "/home/haozhe/kitchen/AVION/datasets",
-//                 "--mm_tunable_parts", "mm_vision_tower,mm_mlp_adapter,mm_language_model",
-//                 "--mm_vision_tower_lr", "2e-6",
-//                 "--vision_tower", "google/siglip-so400m-patch14-384",
-//                 "--mm_projector_type", "mlp2x_gelu",
-//                 "--mm_vision_select_layer", "-2",
-//                 "--mm_use_im_start_end", "False",
-//                 "--mm_use_im_patch_token", "False",
-//                 "--group_by_modality_length", "True",
-//                 "--image_aspect_ratio", "anyres_max_9",
-//                 "--image_grid_pinpoints", "(1x1),...,(6x6)",
-//                 "--mm_patch_merge_type", "spatial_unpad",
-//                 "--bf16", "True",
-//                 "--run_name", "test1",
-//                 "--output_dir", "experiments/test1",
-//                 "--num_train_epochs", "1",
-//                 "--per_device_train_batch_size", "1",
-//                 "--per_device_eval_batch_size", "4",
-//                 "--gradient_accumulation_steps", "2",
-//                 "--evaluation_strategy", "steps",
-//                 "--eval_steps", "100",
-//                 "--save_strategy", "steps",
-//                 "--save_steps", "2000",
-//                 // "--save_total_limit", "1",
-//                 "--learning_rate", "1e-5",
-//                 "--weight_decay", "0.",
-//                 "--warmup_ratio", "0.03",
-//                 "--lr_scheduler_type", "cosine",
-//                 "--logging_steps", "1",
-//                 "--tf32", "True",
-//                 "--model_max_length", "32768",
-//                 "--gradient_checkpointing", "True",
-//                 "--dataloader_num_workers", "4",
-//                 "--lazy_preprocess", "True",
-//                 "--report_to", "wandb",
-//                 "--torch_compile", "True",
-//                 "--torch_compile_backend", "inductor",
-//                 "--dataloader_drop_last", "True",
-//                 "--frames_upbound", "16",
-//                 "--root", "/mediaPFM/data/haozhe/onevision/llava_video/EK100",
-//                 "--action_predictions", "/mediaPFM/data/haozhe/EK100/EK100_in_LLAVA/avion_pred_ids_val.json",
-//                 "--val_metadata", "/mediaPFM/data/haozhe/EK100/epic-kitchens-100-annotations/EPIC_100_validation.csv",
-//                 "--llava_num_frames", "16",
-//                 "--clip_length", "16",
-//                 "--action_representation", "GT_random_narration",
-//                 "--topk_predictions", "5",
-//                 "--dataset", "ek100_cls",
-//                 "--vision_supervision", "three_tokens",
-//                 "--action_types", "97,300,3806"
+//                 "--num_processes", "4",
+//                 "-m", "lmms_eval",
+//                 // "--model", "llava_vid",
+//                 "--model", "llava_onevision",
+//                 // "--model_args", "pretrained=experiments/dev_LLaVA-Video-7B-Qwen2_4f_test_haozhe,conv_template=qwen_1_5,max_frames_num=64,mm_spatial_pool_mode=average",
+//                 "--model_args", "pretrained=lmms-lab/llava-onevision-qwen2-0.5b-ov,conv_template=qwen_1_5,model_name=llava_qwen",
+//                 "--tasks", "video_dc499",
+//                 "--batch_size", "1",
+//                 "--log_samples",
+//                 "--log_samples_suffix", "llava_onevision",
+//                 "--output_path", "./logs/"
 //             ],
 //             "console": "integratedTerminal",
 //             "justMyCode": false,
@@ -89,7 +128,6 @@
 //     ]
 // }
 
-
 // {
 //     // Use IntelliSense to learn about possible attributes.
 //     // Hover to view descriptions of existing attributes.
 
@@ -60,7 +60,11 @@
     "model_name = \"llava_qwen\"\n",
     "device = \"cuda\"\n",
     "device_map = \"auto\"\n",
-    "tokenizer, model, image_processor, max_length = load_pretrained_model(pretrained, None, model_name, device_map=device_map)  # Add any other thing you want to pass in llava_model_args\n",
+    "llava_model_args = {\n",
+    "    \"multimodal\": True,\n",
+    "    \"attn_implementation\": \"sdpa\",\n",
+    "}\n",
+    "tokenizer, model, image_processor, max_length = load_pretrained_model(pretrained, None, model_name, device_map=device_map, **llava_model_args)  # Add any other thing you want to pass in llava_model_args\n",
     "\n",
     "model.eval()\n",
     "\n",
@@ -322,7 +326,10 @@
     "model_name = \"llava_qwen\"\n",
     "device = \"cuda\"\n",
     "device_map = \"auto\"\n",
-    "tokenizer, model, image_processor, max_length = load_pretrained_model(pretrained, None, model_name, device_map=device_map, attn_implementation=\"sdpa\")\n",
+    "llava_model_args = {\n",
+    "    \"multimodal\": True,\n",
+    "}\n",
+    "tokenizer, model, image_processor, max_length = load_pretrained_model(pretrained, None, model_name, device_map=device_map, attn_implementation=\"sdpa\", **llava_model_args)\n",
     "\n",
     "model.eval()\n",
     "\n",
 
@@ -84,7 +84,7 @@ print(text_outputs)
 
 ## Training
 
-[[Scripts]](/Users/zhangyuanhan/Desktop/LLaVA-NeXT/scripts/video/train): Start training models on your single-image/multi-image/video data.
+[[Scripts]](https://github.com/LLaVA-VL/LLaVA-NeXT/blob/yhzhang/video_dev/scripts/video/train/SO400M_Qwen2_72B_ov_to_video_am9_aug6.sh): Start training models on your single-image/multi-image/video data.
 
 
 ## Evaluation Guidance
 
@@ -1,9 +1,41 @@
 import os
+os.environ["HF_HOME"] = "/mnt/SV_storage/VFM/huggingface"
 from datasets import load_dataset
+from datasets import get_dataset_config_names, get_dataset_split_names
 from tqdm import tqdm
 import json
 import yaml
 
+dataset_name = "lmms-lab/LLaVA-Video-178K"
+
+save_root = "/mnt/SV_storage/VFM/onevision/llava_video_178k"
+
+subsets = get_dataset_config_names(dataset_name)
+for subset in subsets:
+    # download the dataset
+    data = load_dataset(dataset_name, subset)
+    for da in tqdm(data):
+        json_data = {}
+        json_data["id"] = da["id"]
+        json_data["video"] = da["video"]
+        json_data["conversations"] = da["conversations"]
+        with open(os.path.join(save_root, '{}.json'.format(da["id"])), "w") as f:
+            json.dump(json_data, f, indent=4, ensure_ascii=False)
+    aa= 1
+
+    # splits = get_dataset_split_names(dataset_name, subset)
+    
+        
+#     aa = 1
+
+
+# data = load_dataset("lmms-lab/LLaVA-Video-178K", '0_30_s_academic_v0_1', split="caption")
+
+# for da in tqdm(data):
+#     json_data = {}
+#     json_data["id"] = da["id"]
+#     aa= 2
+
 avaliable_datasets = ['CLEVR-Math(MathV360K)', 'FigureQA(MathV360K)', 'GEOS(MathV360K)', 'GeoQA+(MathV360K)', 
                       'Geometry3K(MathV360K)', 'IconQA(MathV360K)', 'MapQA(MathV360K)', 'PMC-VQA(MathV360K)', 
                       'Super-CLEVR(MathV360K)', 'TabMWP(MathV360K)', 'UniGeo(MathV360K)', 'VisualWebInstruct(filtered)',