AdaptiveMotorControlLab
diff --git a/‎lmms_eval_CSCS.sh‎
Lines changed: 51 additions & 0 deletions b/‎lmms_eval_CSCS.sh‎
Lines changed: 51 additions & 0 deletions
diff --git a/‎run_todi.sbatch‎ ‎run_clariden.sbatch‎run_todi.sbatch renamed to run_clariden.sbatch
Lines changed: 26 additions & 25 deletions b/‎run_todi.sbatch‎ ‎run_clariden.sbatch‎run_todi.sbatch renamed to run_clariden.sbatch
Lines changed: 26 additions & 25 deletions
diff --git a/‎run_llmseval_clariden.sbatch‎
Lines changed: 104 additions & 0 deletions b/‎run_llmseval_clariden.sbatch‎
Lines changed: 104 additions & 0 deletions
@@ -0,0 +1,51 @@
+export CUDA_VISIBLE_DEVICES="0,1,2,3"
+export OMP_NUM_THREADS="8"
+# export NCCL_IB_DISABLE="0"
+# export NCCL_IB_GID_INDEX="3"
+# export NCCL_SOCKET_IFNAME="eth0"
+# export NCCL_DEBUG="INFO"
+export ACCELERATE_CPU_AFFINITY="1"
+export WANDB_API_KEY="4474ec79de023b0c3ffb43588ab6163264f875db"
+export HF_HOME=/iopsstor/scratch/cscs/hqi/huggingface
+# export HF_HOME=/mnt/SV_storage/VFM/huggingface
+export PYTHONPATH=/iopsstor/scratch/cscs/hqi/VFM/haozhe/LLaVA-NeXT:$PYTHONPATH
+# export PYTHONPATH=/mnt/SV_storage/VFM/LLaVA-NeXT:$PYTHONPATH
+export OPENAI_API_KEY=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
+
+# source /media/data/haozhe/VFM/llmseval-venv/bin/activate && \
+accelerate launch --num_processes=4 \
+     -m lmms_eval \
+    --model llava_onevision \
+    --model_args pretrained=lmms-lab/llava-onevision-qwen2-0.5b-ov,conv_template=qwen_1_5,model_name=llava_qwen \
+    --tasks video_dc499 \
+    --batch_size 1 \
+    --log_samples \
+    --log_samples_suffix llava_onevision \
+    --output_path ./logs/ \
+    --verbosity=DEBUG
+
+
+# source /media/data/haozhe/VFM/llmseval-venv/bin/activate && \
+# accelerate launch --num_processes=4 \
+# -m lmms_eval \
+# --model llava_vid  \
+# --model_args pretrained=experiments/dev_7b_16f_top5_strong_first_layer_three_tokens_detection_and_direct_llava_video_10percent/checkpoint-15000,conv_template=qwen_1_5,max_frames_num=64,mm_spatial_pool_mode=average,model_name=llava_qwen \
+# --tasks videomme \
+# --batch_size 1 \
+# --log_samples \
+# --log_samples_suffix dev_7b_16f_top5_strong_first_layer_three_tokens_detection_and_direct_llava_video_10percent_checkpoint_15000 \
+# --output_path ./logs/ \
+# --verbosity=DEBUG > ./logs/dev_7b_16f_top5_strong_first_layer_three_tokens_detection_and_direct_llava_video_10percent_checkpoint_15000.log 2>&1
+
+
+# # source /media/data/haozhe/VFM/llmseval-venv/bin/activate && \
+# accelerate launch --num_processes=4 \
+# -m lmms_eval \
+# --model llava_vid \
+# --model_args pretrained=lmms-lab/LLaVA-Video-7B-Qwen2,conv_template=qwen_1_5,max_frames_num=64,mm_spatial_pool_mode=average \
+# --tasks videochatgpt \
+# --batch_size 1 \
+# --log_samples \
+# --log_samples_suffix llava_vid_7b \
+# --output_path ./logs/ 
+# --verbosity=DEBUG
@@ -1,16 +1,15 @@
 #!/bin/bash
 #SBATCH --job-name multinode
-#SBATCH --account a03
-#SBATCH --reservation=sai-a03
+#SBATCH -A a-a03
 #SBATCH --hint nomultithread    
 #SBATCH --cpus-per-task 288
 #SBATCH --no-requeue
 #SBATCH --nodes 8                   # number of Nodes
 #SBATCH --ntasks-per-node 1         # number of MP tasks. IMPORTANT: torchrun represents just 1 Slurm task
 #SBATCH --gres gpu:4                # Number of GPUs
-#SBATCH --time 05:00:00             # maximum execution time (DD-HH:MM:SS). Mandatory field in MN5
-#SBATCH --output logs/R-%x.%j_train_llavavideo_kitchen_7b_avion_mc_32f_top10_5epochs.out
-#SBATCH --error logs/R-%x.%j_train_llavavideo_kitchen_7b_avion_mc_32f_top10_5epochs.err
+#SBATCH --time 23:00:00             # maximum execution time (DD-HH:MM:SS). Mandatory field in MN5
+#SBATCH --output logs/R-%x.%j-dev_7b_4f_llavavideo_test_haozhe.out
+#SBATCH --error logs/R-%x.%j-dev_7b_4f_llavavideo_test_haozhe.err
 
 mkdir -p logs
 
@@ -56,10 +55,10 @@ LAUNCHER="torchrun \
 PYTHON_FILE=llava/train/train_mem.py
 PYTHON_ARGS=" \
     --deepspeed scripts/zero3.json \
-    --model_name_or_path pretrained_models/LLaVA-Video-7B-Qwen2 \
+    --model_name_or_path lmms-lab/LLaVA-Video-7B-Qwen2 \
     --version qwen_1_5 \
-    --data_path scripts/train/EK100_avion_mc_top10.yaml \
-    --video_folder /capstor/scratch/cscs/hqi/llava/onevision/llava_video \
+    --data_path scripts/train/llava_video.yaml \
+    --video_folder /iopsstor/scratch/cscs/hqi/VFM/onevision/llava_video \
     --mm_tunable_parts mm_vision_tower,mm_mlp_adapter,mm_language_model \
     --mm_vision_tower_lr 2e-6 \
     --vision_tower google/siglip-so400m-patch14-384 \
@@ -72,16 +71,16 @@ PYTHON_ARGS=" \
     --image_grid_pinpoints \"(1x1),...,(6x6)\" \
     --mm_patch_merge_type spatial_unpad \
     --bf16 True \
-    --run_name todi_llava_video_7b_avion_mc_top10_5epochs \
-    --output_dir experiments/todi_llava_video_7b_avion_mc_top10_5epochs \
-    --num_train_epochs 5 \
-    --per_device_train_batch_size 2 \
-    --per_device_eval_batch_size 4 \
+    --run_name dev_7b_4f_llavavideo_test_haozhe \
+    --output_dir experiments/dev_7b_4f_llavavideo_test_haozhe \
+    --num_train_epochs 1 \
+    --per_device_train_batch_size 1 \
+    --per_device_eval_batch_size 1 \
     --gradient_accumulation_steps 2 \
-    --evaluation_strategy steps \
-    --eval_steps 2000\
+    --evaluation_strategy no \
+    --eval_steps 2000 \
     --save_strategy steps \
-    --save_steps 1000 \
+    --save_steps 2000 \
     --learning_rate 1e-5 \
     --weight_decay 0. \
     --warmup_ratio 0.03 \
@@ -96,13 +95,15 @@ PYTHON_ARGS=" \
     --torch_compile True \
     --torch_compile_backend inductor \
     --dataloader_drop_last True \
-    --frames_upbound 32 \
-    --root /capstor/scratch/cscs/hqi/llava/onevision/llava_video/EK100 \
-    --action_predictions /capstor/scratch/cscs/hqi/llava/EK100/avion_predictions_test.json \
-    --val_metadata /capstor/scratch/cscs/hqi/llava/EK100/epic-kitchens-100-annotations/EPIC_100_validation.csv \
-    --llava_num_frames 32 \
-    --clip_length 32 \
-    --topk_predictions 10 \
+    --frames_upbound 4 \
+    --root /iopsstor/scratch/cscs/hqi/VFM/onevision/llava_video/EK100 \
+    --action_predictions /iopsstor/scratch/cscs/hqi/VFM/llava_data/TIM_PREDS/tim_pred_ids_val.json \
+    --val_metadata /iopsstor/scratch/cscs/hqi/VFM/EK100/epic-kitchens-100-annotations/EPIC_100_validation.csv \
+    --add_time_instruction False \
+    --llava_num_frames 4 \
+    --clip_length 4 \
+    --action_representation official_key \
+    --topk_predictions 5 \
     "
 
 export CMD="$LAUNCHER $PYTHON_FILE $PYTHON_ARGS"
@@ -130,8 +131,8 @@ SRUN_ARGS=" \
 #     "  
 
 # bash -c is needed for the delayed interpolation of env vars to work
-srun $SRUN_ARGS bash -c "
-    source /capstor/scratch/cscs/hqi/llava/llava_dependency/llava-venv/bin/activate
+srun $SRUN_ARGS numactl --membind=0-3 bash -c "
+    source /iopsstor/scratch/cscs/hqi/VFM/llava_dependency/llava-venv/bin/activate
     $CMD"
 
 echo "END TIME: $(date)"
@@ -0,0 +1,104 @@
+#!/bin/bash
+#SBATCH --job-name multinode
+#SBATCH -A a-a03
+#SBATCH --hint nomultithread    
+#SBATCH --cpus-per-task 288
+#SBATCH --no-requeue
+#SBATCH --nodes 1                   # number of Nodes
+#SBATCH --ntasks-per-node 1         # number of MP tasks. IMPORTANT: torchrun represents just 1 Slurm task
+#SBATCH --gres gpu:4                # Number of GPUs
+#SBATCH --time 23:00:00             # maximum execution time (DD-HH:MM:SS). Mandatory field in MN5
+#SBATCH --output logs/R-%x.%j-lmmseval-dev_7b_4f_llavavideo_test_haozhe.out
+#SBATCH --error logs/R-%x.%j-lmmseval-dev_7b_4f_llavavideo_test_haozhe.err
+
+mkdir -p logs
+
+echo "START TIME: $(date)"
+
+# auto-fail on any errors in this script
+# set -eo pipefail
+
+# logging script's variables/commands for future debug needs
+set -x
+
+######################
+### Set enviroment ###
+######################
+# module purge
+# module load singularity
+
+GPUS_PER_NODE=4
+echo "NODES: $SLURM_NNODES"
+######################
+
+######################
+#### Set network #####
+######################
+MASTER_ADDR=$(scontrol show hostnames $SLURM_JOB_NODELIST | head -n 1)
+MASTER_PORT=6000
+######################
+
+# note that we don't want to interpolate `\$SLURM_PROCID` till `srun` since otherwise all nodes will get
+# 0 and the launcher will hang
+#
+# same goes for `\$(hostname -s|tr -dc '0-9')` - we want it to interpolate at `srun` time
+LAUNCHER="accelerate launch \
+    --num_processes=$GPUS_PER_NODE \
+    --rdzv_backend c10d \
+    --max_restarts 0 \
+    --tee 3 \
+    "
+
+PYTHON_FILE="-m lmms_eval"
+# PYTHON_ARGS=" \
+#     --model llava_onevision \
+#     --model_args pretrained=lmms-lab/llava-onevision-qwen2-0.5b-ov,conv_template=qwen_1_5,model_name=llava_qwen \
+#     --tasks video_dc499 \
+#     --batch_size 1 \
+#     --log_samples_suffix llava_onevision \
+#     --output_path ./logs/ \
+#     --verbosity=DEBUG \
+#     "
+
+PYTHON_ARGS=" \
+    --model llava_vid \
+    --model_args pretrained=lmms-lab/LLaVA-Video-7B-Qwen2,conv_template=qwen_1_5,max_frames_num=64,mm_spatial_pool_mode=average \
+    --tasks activitynetqa,videochatgpt,nextqa_mc_test,egoschema,video_dc499,videomme,videomme_w_subtitle,perceptiontest_val_mc \
+    --batch_size 1 \
+    --log_samples \
+    --log_samples_suffix llava_vid \
+    --output_path ./logs/
+    --verbosity=DEBUG \
+    "
+
+export CMD="$LAUNCHER $PYTHON_FILE $PYTHON_ARGS"
+export HF_HOME=$SCRATCH/huggingface
+export OMP_NUM_THREADS="8"
+export ACCELERATE_CPU_AFFINITY="1"
+export WANDB_API_KEY="65aeda82a75f1eed29c8e9250b175fcc73dca0d7"
+export OPENAI_API_KEY=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
+
+echo $CMD
+
+# srun error handling:
+# --wait=60: wait 60 sec after the first task terminates before terminating all remaining tasks
+SRUN_ARGS=" \
+    -ul \
+    --cpus-per-task $SLURM_CPUS_PER_TASK \
+    --jobid $SLURM_JOB_ID \
+    --wait 60 \
+    --environment=llava-env \
+    --container-workdir=$PWD \
+    "
+# SINGULARITY_CONTAINER=/path/to/singularity/.sif/file
+# SINGULARITY_ARGS=" \
+#     --bind /path/to/bind/folder \
+#     $SINGULARITY_CONTAINER \
+#     "  
+
+# bash -c is needed for the delayed interpolation of env vars to work
+srun $SRUN_ARGS numactl --membind=0-3 bash -c "
+    source /iopsstor/scratch/cscs/hqi/VFM/llava_dependency/llava-venv/bin/activate
+    $CMD"
+
+echo "END TIME: $(date)"