AdaptiveMotorControlLab
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 1 deletion b/‎.gitignore‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎docs/LLaVA_OneVision_Tutorials.py‎
Lines changed: 9 additions & 5 deletions b/‎docs/LLaVA_OneVision_Tutorials.py‎
Lines changed: 9 additions & 5 deletions
diff --git a/‎run.sh‎
Lines changed: 52 additions & 47 deletions b/‎run.sh‎
Lines changed: 52 additions & 47 deletions
diff --git a/‎run_EK100.sh‎
Lines changed: 0 additions & 9 deletions b/‎run_EK100.sh‎
Lines changed: 0 additions & 9 deletions
diff --git a/‎run_EK100_2.sh‎
Lines changed: 0 additions & 10 deletions b/‎run_EK100_2.sh‎
Lines changed: 0 additions & 10 deletions
diff --git a/‎run_demo.sh‎
Lines changed: 0 additions & 8 deletions b/‎run_demo.sh‎
Lines changed: 0 additions & 8 deletions
diff --git a/‎run_todi.sbatch‎
Lines changed: 137 additions & 0 deletions b/‎run_todi.sbatch‎
Lines changed: 137 additions & 0 deletions
@@ -73,4 +73,5 @@ data_processing/
 
 
 experiments/
-*.out
+*.out
+pretrained_models/
@@ -71,14 +71,18 @@
 import warnings
 from decord import VideoReader, cpu
 
+os.environ["HF_HOME"] = "/capstor/scratch/cscs/hqi/huggingface"
+
 warnings.filterwarnings("ignore")
 # Load the OneVision model
-# pretrained = "/mnt/SV_storage/VFM/huggingface/hub/models--lmms-lab--llava-onevision-qwen2-0.5b-ov/snapshots/381d9947148efb1e58a577f451c05705ceec666e"
+pretrained = "lmms-lab/LLaVA-Video-72B-Qwen2"
 # pretrained = "/mnt/SV_storage/VFM/LLaVA-NeXT/experiments/EK100_quick_config"
-# model_base = None
-pretrained = "/mnt/SV_storage/VFM/LLaVA-NeXT/experiments/EK100_lora_quick_check"
-model_base = "/mnt/SV_storage/VFM/huggingface/hub/models--lmms-lab--llava-onevision-qwen2-0.5b-ov/snapshots/381d9947148efb1e58a577f451c05705ceec666e"
-model_name = "lora_llava_qwen"
+model_base = None
+model_name = "llava_qwen"
+
+# pretrained = "/mnt/SV_storage/VFM/LLaVA-NeXT/experiments/EK100_lora_quick_check"
+# model_base = "/mnt/SV_storage/VFM/huggingface/hub/models--lmms-lab--llava-onevision-qwen2-0.5b-ov/snapshots/381d9947148efb1e58a577f451c05705ceec666e"
+# model_name = "lora_llava_qwen"
 device = "cuda"
 device_map = "auto"
 tokenizer, model, image_processor, max_length = load_pretrained_model(pretrained, model_base, model_name, device_map=device_map, attn_implementation="sdpa")
 
@@ -3,10 +3,10 @@
 # Export environment variables
 export CUDA_VISIBLE_DEVICES="0,1,2,3"
 export OMP_NUM_THREADS="8"
-export NCCL_IB_DISABLE="0"
-export NCCL_IB_GID_INDEX="3"
-export NCCL_SOCKET_IFNAME="eth0"
-export NCCL_DEBUG="INFO"
+# export NCCL_IB_DISABLE="0"
+# export NCCL_IB_GID_INDEX="3"
+# export NCCL_SOCKET_IFNAME="eth0"
+# export NCCL_DEBUG="INFO"
 export ACCELERATE_CPU_AFFINITY="1"
 # export LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libffi.so.7"
 export WANDB_API_KEY="65aeda82a75f1eed29c8e9250b175fcc73dca0d7"
@@ -18,46 +18,51 @@ torchrun --nproc_per_node=4 \
          --master_addr=127.0.0.1 \
          --master_port=29500 \
          llava/train/train_mem.py \
-         --deepspeed scripts/zero3.json \
-         --model_name_or_path lmms-lab/llava-onevision-qwen2-0.5b-ov \
-         --version qwen_1_5 \
-         --data_path scripts/train/onevision.yaml \
-         --image_folder /media/data/haozhe/VFM/onevision/llava_data/geo3k/ \
-         --video_folder /media/data/haozhe/VFM/onevision/llava_video \
-         --mm_tunable_parts mm_vision_tower,mm_mlp_adapter,mm_language_model \
-         --mm_vision_tower_lr 2e-6 \
-         --vision_tower google/siglip-so400m-patch14-384 \
-         --mm_projector_type mlp2x_gelu \
-         --mm_vision_select_layer -2 \
-         --mm_use_im_start_end False \
-         --mm_use_im_patch_token False \
-         --group_by_modality_length True \
-         --image_aspect_ratio anyres_max_9 \
-         --image_grid_pinpoints "(1x1),...,(6x6)" \
-         --mm_patch_merge_type spatial_unpad \
-         --bf16 True \
-         --run_name EK100_test_new \
-         --output_dir experiments/EK100_test_new \
-         --num_train_epochs 1 \
-         --per_device_train_batch_size 1 \
-         --per_device_eval_batch_size 4 \
-         --gradient_accumulation_steps 2 \
-         --evaluation_strategy no \
-         --save_strategy steps \
-         --save_steps 1000 \
-         --save_total_limit 1 \
-         --learning_rate 1e-5 \
-         --weight_decay 0. \
-         --warmup_ratio 0.03 \
-         --lr_scheduler_type cosine \
-         --logging_steps 1 \
-         --tf32 True \
-         --model_max_length 32768 \
-         --gradient_checkpointing True \
-         --dataloader_num_workers 4 \
-         --lazy_preprocess True \
-         --report_to wandb \
-         --torch_compile True \
-         --torch_compile_backend inductor \
-         --dataloader_drop_last True \
-         --frames_upbound 32  > train_kitchen_0.5b_new.out 2>&1
+            --deepspeed scripts/zero3.json \
+            --model_name_or_path pretrained_models/LLaVA-Video-7B-Qwen2 \
+            --version qwen_1_5 \
+            --data_path scripts/train/EK100_avion_mc_top10.yaml \
+            --video_folder /capstor/scratch/cscs/hqi/llava/onevision/llava_video \
+            --mm_tunable_parts mm_vision_tower,mm_mlp_adapter,mm_language_model \
+            --mm_vision_tower_lr 2e-6 \
+            --vision_tower pretrained_models/siglip-so400m-patch14-384 \
+            --mm_projector_type mlp2x_gelu \
+            --mm_vision_select_layer -2 \
+            --mm_use_im_start_end False \
+            --mm_use_im_patch_token False \
+            --group_by_modality_length True \
+            --image_aspect_ratio anyres_max_9 \
+            --image_grid_pinpoints "(1x1),...,(6x6)" \
+            --mm_patch_merge_type spatial_unpad \
+            --bf16 True \
+            --run_name todi_llava_video_7b_avion_mc_top10_5epochs_test \
+            --output_dir experiments/todi_llava_video_7b_avion_mc_top10_5epochs_test \
+            --num_train_epochs 5 \
+            --per_device_train_batch_size 2 \
+            --per_device_eval_batch_size 4 \
+            --gradient_accumulation_steps 2 \
+            --evaluation_strategy steps \
+            --eval_steps 2000\
+            --save_strategy steps \
+            --save_steps 1000 \
+            --learning_rate 1e-5 \
+            --weight_decay 0. \
+            --warmup_ratio 0.03 \
+            --lr_scheduler_type cosine \
+            --logging_steps 1 \
+            --tf32 True \
+            --model_max_length 32768 \
+            --gradient_checkpointing True \
+            --dataloader_num_workers 4 \
+            --lazy_preprocess True \
+            --report_to wandb \
+            --torch_compile True \
+            --torch_compile_backend inductor \
+            --dataloader_drop_last True \
+            --frames_upbound 32 \
+            --root /capstor/scratch/cscs/hqi/llava/onevision/llava_video/EK100 \
+            --action_predictions /capstor/scratch/cscs/hqi/llava/EK100/avion_predictions_test.json \
+            --val_metadata /capstor/scratch/cscs/hqi/llava/EK100/epic-kitchens-100-annotations/EPIC_100_validation.csv \
+            --llava_num_frames 32 \
+            --clip_length 32 \
+            --topk_predictions 10
@@ -0,0 +1,137 @@
+#!/bin/bash
+#SBATCH --job-name multinode
+#SBATCH --account a03
+#SBATCH --reservation=sai-a03
+#SBATCH --hint nomultithread    
+#SBATCH --cpus-per-task 288
+#SBATCH --no-requeue
+#SBATCH --nodes 8                   # number of Nodes
+#SBATCH --ntasks-per-node 1         # number of MP tasks. IMPORTANT: torchrun represents just 1 Slurm task
+#SBATCH --gres gpu:4                # Number of GPUs
+#SBATCH --time 05:00:00             # maximum execution time (DD-HH:MM:SS). Mandatory field in MN5
+#SBATCH --output logs/R-%x.%j_train_llavavideo_kitchen_7b_avion_mc_32f_top10_5epochs.out
+#SBATCH --error logs/R-%x.%j_train_llavavideo_kitchen_7b_avion_mc_32f_top10_5epochs.err
+
+mkdir -p logs
+
+echo "START TIME: $(date)"
+
+# auto-fail on any errors in this script
+# set -eo pipefail
+
+# logging script's variables/commands for future debug needs
+set -x
+
+######################
+### Set enviroment ###
+######################
+# module purge
+# module load singularity
+
+GPUS_PER_NODE=4
+echo "NODES: $SLURM_NNODES"
+######################
+
+######################
+#### Set network #####
+######################
+MASTER_ADDR=$(scontrol show hostnames $SLURM_JOB_NODELIST | head -n 1)
+MASTER_PORT=6000
+######################
+
+# note that we don't want to interpolate `\$SLURM_PROCID` till `srun` since otherwise all nodes will get
+# 0 and the launcher will hang
+#
+# same goes for `\$(hostname -s|tr -dc '0-9')` - we want it to interpolate at `srun` time
+LAUNCHER="torchrun \
+    --nproc_per_node $GPUS_PER_NODE \
+    --nnodes $SLURM_NNODES \
+    --node_rank \$SLURM_PROCID \
+    --rdzv_endpoint $MASTER_ADDR:$MASTER_PORT \
+    --rdzv_backend c10d \
+    --max_restarts 0 \
+    --tee 3 \
+    "
+
+PYTHON_FILE=llava/train/train_mem.py
+PYTHON_ARGS=" \
+    --deepspeed scripts/zero3.json \
+    --model_name_or_path pretrained_models/LLaVA-Video-7B-Qwen2 \
+    --version qwen_1_5 \
+    --data_path scripts/train/EK100_avion_mc_top10.yaml \
+    --video_folder /capstor/scratch/cscs/hqi/llava/onevision/llava_video \
+    --mm_tunable_parts mm_vision_tower,mm_mlp_adapter,mm_language_model \
+    --mm_vision_tower_lr 2e-6 \
+    --vision_tower google/siglip-so400m-patch14-384 \
+    --mm_projector_type mlp2x_gelu \
+    --mm_vision_select_layer -2 \
+    --mm_use_im_start_end False \
+    --mm_use_im_patch_token False \
+    --group_by_modality_length True \
+    --image_aspect_ratio anyres_max_9 \
+    --image_grid_pinpoints \"(1x1),...,(6x6)\" \
+    --mm_patch_merge_type spatial_unpad \
+    --bf16 True \
+    --run_name todi_llava_video_7b_avion_mc_top10_5epochs \
+    --output_dir experiments/todi_llava_video_7b_avion_mc_top10_5epochs \
+    --num_train_epochs 5 \
+    --per_device_train_batch_size 2 \
+    --per_device_eval_batch_size 4 \
+    --gradient_accumulation_steps 2 \
+    --evaluation_strategy steps \
+    --eval_steps 2000\
+    --save_strategy steps \
+    --save_steps 1000 \
+    --learning_rate 1e-5 \
+    --weight_decay 0. \
+    --warmup_ratio 0.03 \
+    --lr_scheduler_type cosine \
+    --logging_steps 1 \
+    --tf32 True \
+    --model_max_length 32768 \
+    --gradient_checkpointing True \
+    --dataloader_num_workers 4 \
+    --lazy_preprocess True \
+    --report_to wandb \
+    --torch_compile True \
+    --torch_compile_backend inductor \
+    --dataloader_drop_last True \
+    --frames_upbound 32 \
+    --root /capstor/scratch/cscs/hqi/llava/onevision/llava_video/EK100 \
+    --action_predictions /capstor/scratch/cscs/hqi/llava/EK100/avion_predictions_test.json \
+    --val_metadata /capstor/scratch/cscs/hqi/llava/EK100/epic-kitchens-100-annotations/EPIC_100_validation.csv \
+    --llava_num_frames 32 \
+    --clip_length 32 \
+    --topk_predictions 10 \
+    "
+
+export CMD="$LAUNCHER $PYTHON_FILE $PYTHON_ARGS"
+export HF_HOME=$SCRATCH/huggingface
+export OMP_NUM_THREADS="8"
+export ACCELERATE_CPU_AFFINITY="1"
+export WANDB_API_KEY="65aeda82a75f1eed29c8e9250b175fcc73dca0d7"
+
+echo $CMD
+
+# srun error handling:
+# --wait=60: wait 60 sec after the first task terminates before terminating all remaining tasks
+SRUN_ARGS=" \
+    -ul \
+    --cpus-per-task $SLURM_CPUS_PER_TASK \
+    --jobid $SLURM_JOB_ID \
+    --wait 60 \
+    --environment=llava-env \
+    --container-workdir=$PWD \
+    "
+# SINGULARITY_CONTAINER=/path/to/singularity/.sif/file
+# SINGULARITY_ARGS=" \
+#     --bind /path/to/bind/folder \
+#     $SINGULARITY_CONTAINER \
+#     "  
+
+# bash -c is needed for the delayed interpolation of env vars to work
+srun $SRUN_ARGS bash -c "
+    source /capstor/scratch/cscs/hqi/llava/llava_dependency/llava-venv/bin/activate
+    $CMD"
+
+echo "END TIME: $(date)"