updates

Ye Shaokai · Ye Shaokai · commit 88803166cf9a · 2025-03-04T14:18:36.000+01:00
diff --git a/llava/action/make_visualizations.py b/llava/action/make_visualizations.py
@@ -163,7 +163,7 @@ def save_visualization(vis_folder, frames, uid):
         video_out.write(bgr_frame)
     video_out.release()
 
-def visualize_with_uid(uid, out_folder):
+def visualize_with_uid(data_root, uid, out_folder):
     from llava.action.utils import avion_video_loader
                    
     vid_path = '_'.join(uid.split('_')[:2]).replace('-', '/')
@@ -252,7 +252,8 @@ def visualize_with_llava(pretrained_path, uid, question_type, gen_type):
     # llava_pretrained_path = 'experiments/LLaVA-Video-7B-Qwen2'
     # uid = 'P01-P01_11_182.65_192.07'
     # visualize_with_llava(llava_pretrained_path, uid, 'caption', 'tim')
-    # visualize_with_uid("P28-P28_16_73.84_74.66")
-    # visualize_with_uid("P28-P28_15_50.66_51.69")
-    # visualize_with_uid("P26-P26_41_113.0_114.1")
-    visualize_with_uid("P28-P28_26_45.97_46.97", "key_confusing_examples")    
+    # visualize_with_uid(root, "P28-P28_16_73.84_74.66")
+    # visualize_with_uid(root, "P28-P28_15_50.66_51.69")
+    # visualize_with_uid(root, "P26-P26_41_113.0_114.1")
+    visualize_with_uid(root, 'P23-P23_05_217.41_218.39', 'figure1_vis')
+    # visualize_with_uid(root, "P28-P28_26_45.97_46.97", "key_confusing_examples")    
diff --git a/llava/action/prepare_demo.py b/llava/action/prepare_demo.py
@@ -0,0 +1,77 @@
+import json
+from llava.action.make_visualizations import visualize_with_uid
+from llava.action.selective_inference import SelectiveInferencer
+import random
+import os
+# 1) iterate through llava_win json, retrieve a list of uids
+# 2) save the corresponding video clips
+# 3) add caption and free-end question answering 
+# after 1) and 3), there should be one single json file that uses uid as the key
+# and it contains: caption (chatgpt, llavaction), mqa (chatgpt, llavaction, gt)
+
+
+def load_llava_wins(path):
+    with open(path, 'r') as f:
+        data = json.load(f)
+    return data
+
+def save_video_clips_with_uids(data_root, llava_win_path, vis_folder, checkpoint_folder):
+    llava_wins = load_llava_wins(llava_win_path)
+    uids = list(llava_wins.keys())
+    random.shuffle(uids)
+    sample_uids = uids[:20]  
+    ret = {}  
+    inferencer = SelectiveInferencer(data_root, 
+                                     checkpoint_folder,
+                                     include_time_instruction = False,
+                                     n_frames = 32)
+    count = 0
+    for uid in sample_uids:
+        if count > 10:
+            break        
+        data = llava_wins[uid]
+        if data['tim_chatgpt_pred'] not in data['llavaction_options']:
+            continue
+        data.pop('llava_pred')
+        data.pop('llava_options')
+        #data.pop('tim_chatgpt_pred')
+        data.pop('random_chatgpt_pred')
+        data.pop('tim_chatgpt_options')
+        data.pop('random_chatgpt_options')
+        visualize_with_uid(data_root, uid, vis_folder)
+        open_ended = get_open_ended_question(inferencer, uid, checkpoint_folder)
+        caption = get_caption(inferencer, uid, checkpoint_folder)
+        data['open_ended'] = open_ended
+        data['caption'] = caption
+        ret[uid] = data
+        count+=1
+    with open('demo_videos/demo.json', 'w') as f:
+        json.dump(ret, f, indent=4)
+
+def get_open_ended_question(inferencer,
+                            uid, 
+                            checkpoint_folder):
+    mqa =  inferencer.inference('what objects are visible in the video?', 
+                                 uid, 
+                                 'open-ended')
+    return mqa
+        
+def get_caption(inferencer,
+                uid, 
+                checkpoint_folder):
+    caption =  inferencer.inference('', 
+                                     uid, 
+                                     'caption')
+    return caption    
+
+
+if __name__ == '__main__':
+    llava_win_path = 'llavaction_win.json'
+    vis_folder = 'demo_videos'
+    os.makedirs(vis_folder, exist_ok = True)
+    checkpoint_folder = 'experiments/dev_7b_16f_top5_strong_first_layer_three_tokens_detection_and_direct_llava_video_10percent/checkpoint-15000/'
+    data_root = '/data/shaokai/EK100_512/EK100'
+    save_video_clips_with_uids(data_root, 
+                               llava_win_path, 
+                               vis_folder, 
+                               checkpoint_folder)
diff --git a/llava/action/selective_inference.py b/llava/action/selective_inference.py
@@ -4,6 +4,7 @@
 from llava.action.ek_eval import prepare_llava
 from llava.action.generate_interval_pred import  get_lookup_dict
 from llava.action.llava_inference import llava_inference
+from llava.action.utils import avion_video_loader
 
 from llava.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
 # val_metadata = '/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv'  
@@ -20,8 +21,8 @@
 
 
 def get_frames_by_uid(uid, root):
-    from llava.action.utils import avion_video_loader
     vid_path = '_'.join(uid.split('_')[:2]).replace('-', '/')
+    print ('debug', uid)
     start_timestamp, end_timestamp = uid.split('_')[2:]
     start_timestamp = float(start_timestamp)
     end_timestamp = float(end_timestamp)
@@ -51,11 +52,11 @@ def get_meta_data():
     pass
 
 
-def inference_task_by_uid(question, checkpoint_folder, uid, task):
+def inference_task_by_uid(data_root, question, checkpoint_folder, uid, task):
     
     tokenizer, model, image_processor, max_length = prepare_llava(checkpoint_folder)
     
-    frames, time_meta = get_frames_by_uid(uid, root)
+    frames, time_meta = get_frames_by_uid(uid, data_root)
     
     meta_data = None
     learn_neighbor_actions = ""
@@ -86,15 +87,56 @@ def inference_task_by_uid(question, checkpoint_folder, uid, task):
                         perspective = perspective,
                         include_time_instruction = include_time_instruction
                         )
-    print (pred)
+    return pred
+    
+class SelectiveInferencer:
+    def __init__(self, data_root, checkpoint_folder, include_time_instruction = False, n_frames = 32):
+        self.data_root = data_root
+        self.checkpoint_folder = checkpoint_folder
+        self.tokenizer, self.model, self.image_processor, self.max_length = prepare_llava(checkpoint_folder)
+        self.include_time_instruction = include_time_instruction
+        self.n_frames = n_frames
+    def inference(self, question, uid, task):
+        frames, time_meta = get_frames_by_uid(uid, self.data_root)
+        
+        meta_data = None
+        learn_neighbor_actions = ""
+        if 'temporal_cot' in task:
+            lookup_table = get_lookup_dict(val_metadata, 
+                            action_representation,
+                            test_type = task, 
+                            pseudo_folder = '')
+            meta_data = lookup_table.get(uid, None)
+            learn_neighbor_actions = "prior"
+        
+                        
+        pred = llava_inference(
+                            [frames], 
+                            self.tokenizer, 
+                            self.model, 
+                            self.image_processor,  
+                            question,  
+                            test_type = task,
+                            clip_length = self.n_frames, 
+                            num_frames= self.n_frames, 
+                            temperature = 0,
+                            time_meta = time_meta,
+                            learn_neighbor_actions = learn_neighbor_actions,
+                            meta_data = meta_data,
+                            perspective = perspective,
+                            include_time_instruction = self.include_time_instruction
+                            )
+        return pred        
+        
     
 if __name__ == '__main__':
     pretrained_model_folder = 'experiments/dev_LLaVA-Video-7B-Qwen2_64f_top5_gpt4o_avion_tim_last_layer_one_token_detection_direct_neighbor_178K_100percent_time'
     uid = 'P28-P28_15_50.66_51.69'
     task = 'open-ended'
     question = "What is the object that is to the left of the knife?"
     
-    inference_task_by_uid(question,
+    inference_task_by_uid(data_root, 
+                          question,
                           pretrained_model_folder,
                           uid,
                           task)
diff --git a/llava/action/utils.py b/llava/action/utils.py
@@ -660,7 +660,7 @@ def avion_video_loader(root, vid, ext, second, end_second,
     chunk_start = int(second) // chunk_len * chunk_len
     chunk_end = int(end_second) // chunk_len * chunk_len
     while True:
-        video_filename = osp.join(root, '{}.{}'.format(vid, ext), '{}.{}'.format(chunk_end, ext))      
+        video_filename = osp.join(root, '{}.{}'.format(vid, ext), '{}.{}'.format(chunk_end, ext))
         if not osp.exists(video_filename):
             # print("{} does not exists!".format(video_filename))
             chunk_end -= chunk_len
diff --git a/llava/action/vis_utils.py b/llava/action/vis_utils.py
@@ -237,19 +237,21 @@ def search_llavaction_win(tim_chatgpt_file,
         llavaction_options = llavaction_pred[uid]['options']
         if llavaction_pred[uid]['pred'] == llavaction_pred[uid]['gt'] and \
             tim_chatgpt_pred[uid]['pred'] != tim_chatgpt_pred[uid]['gt'] and \
-            llava_pred[uid]['pred'] != llava_pred[uid]['gt']:            
+            llava_pred[uid]['pred'] != llava_pred[uid]['gt'] and \
+                random_chatgpt_pred[uid]['pred'] == random_chatgpt_pred[uid]['gt']:        
         
             results[uid] = {'gt': tim_chatgpt_pred[uid]['gt'],
                             'tim_chatgpt_pred': tim_chatgpt_pred[uid]['pred'],
+                            'random_chatgpt_pred': random_chatgpt_pred[uid]['pred'],
                             'llava_pred': llava_pred[uid]['pred'],
                             'llavaction_pred': llavaction_pred[uid]['pred'],
                             'tim_chatgpt_options': tim_chatgpt_options,
                             'llava_options': llava_options,
                             'llavaction_options': llavaction_options,
                             'random_chatgpt_options': random_chatgpt_options}
-        # write results to a file
-        with open('llavaction_win.json', 'w') as f:
-            json.dump(results, f, indent = 4)
+    # write results to a file
+    with open('llavaction_win.json', 'w') as f:
+        json.dump(results, f, indent = 4)
 
 def get_wrong_prediction_uids(prediction_folder, ann_file):
     """
@@ -331,14 +333,14 @@ def walk_through(ann_file):
     ann_file = '/data/shaokai/epic-kitchens-100-annotations/EPIC_100_validation.csv'
     prediction_folder = '/data/shaokai/predictions_for_vis/dev_7b_16f_top5_full_includes_tim/'
     #walk_through(ann_file)
-    get_wrong_prediction_uids(prediction_folder, ann_file)
+    #get_wrong_prediction_uids(prediction_folder, ann_file)
     root = '/data/shaokai/predictions_for_vis/'
     chatgpt_tim_file = os.path.join(root, 'gpt-4o-2024-08-06_tim_GT_random_narration_top5_8f_9668samples.json')
     chatgpt_random_file = os.path.join(root, 'gpt-4o-2024-08-06_random_GT_random_narration_top5_8f_9668samples.json')
     llava_zeroshot_folder = os.path.join(root, 'LLaVA_Video_7B')
     llavaction_folder = os.path.join(root, 'LLaVAction_7B')
-    # search_llavaction_win(chatgpt_tim_file, 
-    #                 chatgpt_random_file, 
-    #                 llava_zeroshot_folder, 
-    #                 llavaction_folder)
+    search_llavaction_win(chatgpt_tim_file, 
+                    chatgpt_random_file, 
+                    llava_zeroshot_folder, 
+                    llavaction_folder)
                                 
diff --git a/shaokai_generate_train.sh b/shaokai_generate_train.sh
@@ -1,4 +1,4 @@
-# pip install moviepy spacy==3.7.5 numpy==1.26.1 && python -m spacy download en_core_web_sm &&
+pip install moviepy spacy==3.7.5 numpy==1.26.1 && python -m spacy download en_core_web_sm &&
 export PYTHONPATH=/mnt/SV_storage/VFM/LLaVA-NeXT:$PYTHONPATH
 # export PYTHONPATH=/usr/local/lib/python3.10/site-packages/decord-0.6.0-py3.10-linux-x86_64.egg/:$PYTHONPATH
 
@@ -109,7 +109,6 @@ export PYTHONPATH=/mnt/SV_storage/VFM/LLaVA-NeXT:$PYTHONPATH
 
 
 
-<<<<<<< HEAD
 # python3 llava/action/generate_description.py \
 #     --train_metadata /data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv \
 #     --out_folder /data/shaokai/EK100_inst_train/cross_validation \
@@ -118,13 +117,21 @@ export PYTHONPATH=/mnt/SV_storage/VFM/LLaVA-NeXT:$PYTHONPATH
 #     --action_representation GT_random_narration \
 #     --n_options 20   
 
-# python3 llava/action/generate_description.py \
-#     --train_metadata /data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv \
-#     --out_folder /data/shaokai/EK100_inst_train/cross_validation \
-#     --train_predictions /data/shaokai/TIM_PREDS/tim_pred_ids_train_cross.json \
-#     --gen_type tim_mc \
-#     --action_representation official_key \
-#     --n_options 20 
+python3 llava/action/generate_description.py \
+    --train_metadata /data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv \
+    --out_folder /data/shaokai/EK100_inst_train/cross_validation \
+    --train_predictions /data/shaokai/TIM_PREDS/tim_pred_ids_train_cross.json \
+    --gen_type tim_mc \
+    --action_representation official_key \
+    --n_options 40 
+
+python3 llava/action/generate_description.py \
+    --train_metadata /data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv \
+    --out_folder /data/shaokai/EK100_inst_train/cross_validation \
+    --train_predictions /data/shaokai/TIM_PREDS/tim_pred_ids_train_cross.json \
+    --gen_type tim_mc \
+    --action_representation official_key \
+    --n_options 80     
 
 
 # python3 llava/action/generate_description.py \
@@ -148,22 +155,22 @@ export PYTHONPATH=/mnt/SV_storage/VFM/LLaVA-NeXT:$PYTHONPATH
 #     --gen_type direct_narration \
 #     --action_representation GT_random_narration \
 
-python3 llava/action/generate_description.py \
-    --train_metadata /data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv \
-    --out_folder /data/shaokai/EK100_inst_train/\
-    --gen_type direct_narration \
-    --action_representation official_key \
-=======
+# python3 llava/action/generate_description.py \
+#     --train_metadata /data/shaokai/epic-kitchens-100-annotations/EPIC_100_train.csv \
+#     --out_folder /data/shaokai/EK100_inst_train/\
+#     --gen_type direct_narration \
+#     --action_representation official_key \
 
 
 
-python3 llava/action/generate_description.py \
-    --train_metadata /mnt/SV_storage/VFM/EK100/epic-kitchens-100-annotations/EPIC_100_train.csv \
-    --out_folder /mnt/SV_storage/VFM/EK100/EK100_in_LLAVA/Cross_3 \
-    --train_predictions /mnt/SV_storage/VFM/EK100/EK100_in_LLAVA/Cross_3/tim_pred_ids_train_3cross.json \
-    --gen_type tim_mc \
-    --action_representation official_key \
-    --n_narrations 5 
+
+# python3 llava/action/generate_description.py \
+#     --train_metadata /mnt/SV_storage/VFM/EK100/epic-kitchens-100-annotations/EPIC_100_train.csv \
+#     --out_folder /mnt/SV_storage/VFM/EK100/EK100_in_LLAVA/Cross_3 \
+#     --train_predictions /mnt/SV_storage/VFM/EK100/EK100_in_LLAVA/Cross_3/tim_pred_ids_train_3cross.json \
+#     --gen_type tim_mc \
+#     --action_representation official_key \
+#     --n_narrations 5 
 
 # python3 llava/action/generate_description.py \
 #     --train_metadata /mnt/SV_storage/VFM/EK100/epic-kitchens-100-annotations/EPIC_100_train.csv \
@@ -172,4 +179,4 @@ python3 llava/action/generate_description.py \
 #     --gen_type tim_mc \
 #     --action_representation official_key \
 #     --n_narrations 5 
->>>>>>> origin/haozhedev
+