fixed an important bug

Haozhe Qi · Haozhe Qi · commit ec1e6e0f95d3 · 2025-02-15T23:56:37.000+01:00
diff --git a/llava/action/dataset.py b/llava/action/dataset.py
@@ -216,105 +216,8 @@ def __getitem__(self, i):
                                                         self.mapping_vn2narration,                                                        
                                                         self.verb_maps, 
                                                         self.noun_maps,
+                                                        benchmark_testing = self.eval_args.benchmark_testing,
                                                         is_train = False) # note we only use this dataset for evaluation for now.
 
        
         return frames, data, time_meta, i
-
-
-
-
-class VideoTemporalMultiChoiceDataset(VideoCaptionDatasetBase):
-    def __init__(
-        self, dataset, root, metadata, transform=None,
-        is_training=True, label_mapping=None,
-        num_clips=1,
-        chunk_len=300,
-        clip_length=32, clip_stride=2,
-        threads=1,
-        fast_rrc=False,
-        rrc_params=(224, (0.5, 1.0)),
-        fast_rcc=False,
-        rcc_params=(224,),
-        sparse_sample=False,
-        labels = None,
-        is_trimmed=True,
-        eval_args = None,
-        topk_predictions = 5,
-        verb_maps = None,
-        noun_maps = None,
-        eval_result_folder = None,
-        action_representation = 'GT_random_narration',
-        mapping_vn2narration = None,
-        avion_predictions = None,
-        n_narrations = -1,
-    ):
-        super().__init__(dataset, root, metadata, is_trimmed=is_trimmed)
-
-        self.transform = transform
-        self.is_training = is_training
-        self.label_mapping = label_mapping
-        self.num_clips = num_clips
-        self.chunk_len = chunk_len
-        self.clip_length = clip_length
-        self.clip_stride = clip_stride
-        self.threads = threads
-        self.fast_rrc = fast_rrc
-        self.rrc_params = rrc_params
-        self.fast_rcc = fast_rcc
-        self.rcc_params = rcc_params
-        self.sparse_sample = sparse_sample
-        self.eval_args = eval_args
-        self.verb_maps = verb_maps
-        self.noun_maps = noun_maps
-        self.vn_list = list(self.label_mapping.keys())        
-
-        self.labels = labels
-        self.topk_predictions = topk_predictions
-        self.ann_root = Path(metadata).parent
-        self.mc_generator = AvionMultiChoiceGenerator(self.ann_root)
-        self.rank = dist.get_rank()
-        self.prediction_analysis = PredictionAnalysis(rank = self.rank, save_folder = eval_result_folder)
-        self.action_representation = action_representation
-        self.n_narrations = n_narrations
-        self.mapping_vn2narration = mapping_vn2narration
-        self.avion_predictions = avion_predictions
-        
-    def __getitem__(self, i):
-        frames, label, time_meta = self.get_raw_item(
-            i, is_training=self.is_training,
-            chunk_len=self.chunk_len,
-            num_clips=self.num_clips,
-            clip_length=self.clip_length,
-            clip_stride=self.clip_stride,
-            threads=self.threads,
-            fast_rrc=self.fast_rrc,
-            rrc_params=self.rrc_params,
-            fast_rcc=self.fast_rcc,
-            rcc_params=self.rcc_params,
-            sparse_sample=self.sparse_sample,
-        )
-
-        # for llava-video to work, we also need time meta data.
-
-        # apply transformation
-        if self.transform is not None:
-            frames = self.transform(frames)
-        narration = self.samples[i][4]
-        avion_preds = self.avion_predictions[str(i)]['predictions']
-
-        data = self.mc_generator.generate_multi_choice(label, 
-                                                        avion_preds,                                                       
-                                                        narration,
-                                                        self.topk_predictions, 
-                                                        self.action_representation,
-                                                        self.n_narrations,
-                                                        self.labels,
-                                                        self.mapping_vn2narration,                                                        
-                                                        self.verb_maps, 
-                                                        self.noun_maps,
-                                                        is_train = False,
-                                                        benchmark_testing = eval_args.benchmark_testing) # note we only use this dataset for evaluation for now.
-
-       
-        return frames, data, time_meta, i
diff --git a/llava/action/utils.py b/llava/action/utils.py
@@ -542,12 +542,14 @@ def test_generate(self,
         answer_ids = action_model_predictions[:k]
         
         if benchmark_testing:
+            print ("am i here")
             # if we are testing on benchmark, we need to ensure that the gt_vn is in the top k predictions
             # if not, we remove the last prediction and add the gt_vn
             if gt_vn not in answer_ids:
                 answer_ids.pop()
                 answer_ids.append(gt_vn)
-       
+        else:
+           print ("am i not here")
                       
         answers = []
         for answer_id in answer_ids: