PRIS-CV
diff --git a/‎0.sh‎
Lines changed: 14 additions & 0 deletions b/‎0.sh‎
Lines changed: 14 additions & 0 deletions
diff --git a/‎1.sh‎
Lines changed: 8 additions & 0 deletions b/‎1.sh‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎run.py‎
Lines changed: 6 additions & 3 deletions b/‎run.py‎
Lines changed: 6 additions & 3 deletions
diff --git a/‎vlmeval/api/qwen_vl_api.py‎
Lines changed: 1 addition & 1 deletion b/‎vlmeval/api/qwen_vl_api.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎vlmeval/config.py‎
Lines changed: 99 additions & 2 deletions b/‎vlmeval/config.py‎
Lines changed: 99 additions & 2 deletions
diff --git a/‎vlmeval/dataset/__init__.py‎
Lines changed: 3 additions & 2 deletions b/‎vlmeval/dataset/__init__.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎vlmeval/dataset/image_base.py‎
Lines changed: 2 additions & 2 deletions b/‎vlmeval/dataset/image_base.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎vlmeval/dataset/image_vqa.py‎
Lines changed: 2 additions & 2 deletions b/‎vlmeval/dataset/image_vqa.py‎
Lines changed: 2 additions & 2 deletions
@@ -0,0 +1,14 @@
+# CUDA_VISIBLE_DEVICES=0 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29503 run.py --data MME --model bagel_gpt --verbose --batch-size 16
+# CUDA_VISIBLE_DEVICES=0 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29503 run.py --data HallusionBench --model bagel_gpt --verbose --batch-size 12
+# CUDA_VISIBLE_DEVICES=1 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29502 run.py --data MMVet --model bagel_gpt --verbose --batch-size 12
+# CUDA_VISIBLE_DEVICES=1 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29502 run.py --data MMStar --model bagel_gpt --verbose --batch-size 12
+# CUDA_VISIBLE_DEVICES=0 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29503 run.py --data MMBench_DEV_EN --model bagel_gpt --verbose --batch-size 16
+
+
+
+CUDA_VISIBLE_DEVICES=0 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29500 run.py --data AI2D_TEST --model bagel_zoomin --verbose --batch-size 6
+
+# CUDA_VISIBLE_DEVICES=0 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29500 run.py --data MathVista_MINI --model bagel_zoomin --verbose --batch-size 12
+
+CUDA_VISIBLE_DEVICES=2 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29502 run.py --data MMBench --model bagel_zoomin --verbose --batch-size 8
+
@@ -0,0 +1,8 @@
+
+# CUDA_VISIBLE_DEVICES=1 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29508 run.py --data MME --model bagel_zoomin --verbose --batch-size 12
+
+CUDA_VISIBLE_DEVICES=1 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29508 run.py --data MMVet --model bagel_zoomin --verbose --batch-size 8 --reuse
+
+# CUDA_VISIBLE_DEVICES=1 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29508 run.py --data MMStar --model bagel_zoomin --verbose --batch-size 12
+
+CUDA_VISIBLE_DEVICES=1 torchrun --nproc-per-node=1 --rdzv_endpoint=localhost:29508 run.py --data HallusionBench --model bagel_zoomin --verbose --batch-size 8 --reuse
@@ -178,7 +178,7 @@ def parse_args():
     # Infer + Eval or Infer Only
     parser.add_argument('--mode', type=str, default='all', choices=['all', 'infer', 'eval'])
     # API Kwargs, Apply to API VLMs and Judge API LLMs
-    parser.add_argument('--api-nproc', type=int, default=4, help='Parallel API calling')
+    parser.add_argument('--api-nproc', type=int, default=15, help='Parallel API calling')
     parser.add_argument('--retry', type=int, default=None, help='retry numbers for API VLMs')
     parser.add_argument('--judge-args', type=str, default=None, help='Judge arguments in JSON format')
     # Explicitly Set the Judge Model
@@ -195,7 +195,9 @@ def parse_args():
     parser.add_argument(
         '--use-vllm', action='store_true', help='use vllm to generate, the flag is only supported in Llama4 for now')
     parser.add_argument('--use-verifier', action='store_true', help='use verifier to evaluate')
-
+    
+    #batch size for inference
+    parser.add_argument('--batch-size', type=int, default=16, help='batch size for inference')
     args = parser.parse_args()
     return args
 
@@ -345,7 +347,8 @@ def main():
                             verbose=args.verbose,
                             api_nproc=args.api_nproc,
                             ignore_failed=args.ignore,
-                            use_vllm=args.use_vllm)
+                            use_vllm=args.use_vllm,
+                            batch_size=args.batch_size)
 
                 # Set the judge kwargs first before evaluation or dumping
 
 
@@ -132,7 +132,7 @@ def __init__(self,
                  proxy: str = None,
                  **kwargs):
 
-        assert model in ['qwen-vl-plus', 'qwen-vl-max']
+        # assert model in ['qwen-vl-plus', 'qwen-vl-max']
         self.model = model
         import dashscope
         self.fail_msg = 'Failed to obtain answer via API. '
 
@@ -79,6 +79,57 @@
     ),
     "Pixtral-12B": partial(Pixtral, model_path="mistralai/Pixtral-12B-2409"),
     "Falcon2-VLM-11B": partial(Falcon2VLM, model_path="tiiuae/falcon-11B-vlm"),
+    # "ming": partial(MingUniVisionInfer, model_name_or_path="/root/autodl-tmp/home/tongyujun/models/Ming-UniVision-16B-A3B"),
+    # "ming_replace_refine_psnr": partial(MingUniVisionInfer_REPLACE, model_name_or_path="/root/autodl-tmp/home/tongyujun/models/Ming-UniVision-16B-A3B"),
+    # "ming_concat": partial(MingUniVisionInfer_CONCAT, model_name_or_path="/root/autodl-tmp/home/tongyujun/models/Ming-UniVision-16B-A3B"),
+    "bagel": partial(BagelInfer, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_ab": partial(BagelInfer, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel1": partial(BagelInfer, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel2": partial(BagelInfer, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+
+    "bagel_prompt": partial(BagelInfer_concat, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_prompt1": partial(BagelInfer_concat, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+
+    "bagel_concat": partial(BagelInfer_concat, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_think": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_thinkv1": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_thinkv2": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_thinkv3": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_thinkv4": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_thinkv5": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_thinkv6": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_thinkv7": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_thinkv8": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_zoomin_thinkv9": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_think": partial(BagelInfer_think, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+
+
+
+    "bagel_zoomin_thinkbaseline": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+
+
+    "bagel_zoomin_think_onlyimage": partial(BagelInfer_zoomin, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+
+    "bagel_gpt": partial(BagelInfer_GPT, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_gptv1": partial(BagelInfer_GPT, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_gptv2": partial(BagelInfer_GPT, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_gptv3": partial(BagelInfer_GPT, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_gptv4": partial(BagelInfer_GPT, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_gptv5": partial(BagelInfer_GPT, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_gptv6": partial(BagelInfer_GPT, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_gptv7": partial(BagelInfer_GPT, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_gptv8": partial(BagelInfer_GPT, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+
+    "bagel_seperate_ab_30": partial(BagelInfer_seperate, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_prompt_gen": partial(BagelInfer_prompt_gen, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "gpt_prompt_gen": partial(BagelInfer_prompt_gen, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "bagel_prompt_gen1": partial(BagelInfer_prompt_gen, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+    "gemini_prompt_gen": partial(BagelInfer_prompt_gen, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+
+
+    # "bagel_replace_psnr": partial(BagelInfer_replace, model_name_or_path="/data/tongyujun/uni-tts/models/BAGEL-7B-MoT"),
+
 }
 
 o1_key = os.environ.get('O1_API_KEY', None)
@@ -127,7 +178,7 @@
     # GPT
     "GPT4V": partial(
         GPT4V,
-        model="gpt-4-1106-vision-preview",
+        model="gpt-4-1106-preview",
         temperature=0,
         img_size=512,
         img_detail="low",
@@ -279,6 +330,35 @@
         max_tokens=2**14,
         timeout=300,
     ),
+    "gpt-5.1": partial(
+        GPT4V,
+        model="gpt-5.1",
+        img_detail="high",
+        retry=3,
+        verbose=False,
+        max_tokens=2**14,
+        timeout=300,
+    ),
+    "gpt-4o": partial(
+        GPT4V,
+        model="gpt-4o",
+        img_detail="high",
+        retry=3,
+        verbose=False,
+        max_tokens=2**14,
+        timeout=300,
+    ),
+    # "Gemini-3-pro": partial(
+    #     GPT4V,
+    #     model="gemini-3-pro-preview",
+    #     img_detail="high",
+    #     retry=3,
+    #     verbose=False,
+    #     max_tokens=2**14,
+    #     timeout=300,
+    #     key='sk-ZmMmKKNPeShHLRKwHjXA68GXN2AmjHvnYEgnYDYqtb9gcQbo'
+    # ),
+    
     # Gemini
     "GeminiPro1-0": partial(
         Gemini, model="gemini-1.0-pro", temperature=0, retry=10
@@ -295,6 +375,12 @@
     "GeminiFlash1-5-002": partial(
         GPT4V, model="gemini-1.5-flash-002", temperature=0, retry=10
     ),  # Internal Use Only
+    "Gemini-3-pro": partial(
+        GPT4V, model="gemini-3-pro-all", temperature=0, retry=10
+    ),
+    "Gemini-2.5-pro": partial(
+        GPT4V, model="gemini-2.5-pro-nothinking", temperature=0, retry=10
+    ),
     "GeminiFlash2-0": partial(
         Gemini, model="gemini-2.0-flash", temperature=0, retry=10
     ),
@@ -307,11 +393,22 @@
     "GeminiPro2-5": partial(
         Gemini, model="gemini-2.5-pro", temperature=0, retry=10
     ),
+
+    #DS
+    "DS-vl": partial(
+        GPT4V, model="deepseek-vl2", temperature=0, retry=10
+    ),
 
     # Qwen-VL
     "QwenVLPlus": partial(QwenVLAPI, model="qwen-vl-plus", temperature=0, retry=10),
     "QwenVLMax": partial(QwenVLAPI, model="qwen-vl-max", temperature=0, retry=10),
     "QwenVLMax-250408": partial(QwenVLAPI, model="qwen-vl-max-2025-04-08", temperature=0, retry=10),
+    "Qwen3VLPlus": partial(QwenVLAPI, model="qwen3-vl-plus", temperature=0, retry=10, key='sk-3a658ecf56284de185b5960e9b059745'),
+    "Qwen3VL-A3B-30B": partial(QwenVLAPI, model="qwen3-vl-30b-a3b-instruct", temperature=0, retry=10, key='sk-3a658ecf56284de185b5960e9b059745'),
+    "Qwen3vl-235b-a22b": partial(QwenVLAPI, model="qwen3-vl-235b-a22b-instruct", temperature=0, retry=10, key='sk-3a658ecf56284de185b5960e9b059745'),
+    "Qwen3vl-8b": partial(QwenVLAPI, model="qwen3-vl-8b-instruct", temperature=0, retry=10, key='sk-3a658ecf56284de185b5960e9b059745'),
+    "Qwen2.5vl-7b": partial(QwenVLAPI, model="qwen2.5-vl-7b-instruct", temperature=0, retry=10, key='sk-3a658ecf56284de185b5960e9b059745'),
+    "Qwen2.5vl-72b": partial(QwenVLAPI, model="qwen2.5-vl-72b-instruct", temperature=0, retry=10, key='sk-3a658ecf56284de185b5960e9b059745'),
 
     # Reka
     "RekaEdge": partial(Reka, model="reka-edge-20240208"),
@@ -1341,7 +1438,7 @@
     ),
     "Qwen2.5-VL-7B-Instruct": partial(
         Qwen2VLChat,
-        model_path="Qwen/Qwen2.5-VL-7B-Instruct",
+        model_path="/root/autodl-tmp/home/tongyujun/models/Qwen2.5-VL-7B-Instruct",
         min_pixels=1280 * 28 * 28,
         max_pixels=16384 * 28 * 28,
         use_custom_prompt=False,
 
@@ -83,7 +83,8 @@
 from .medqbench_mcq import MedqbenchMCQDataset
 from .medqbench_caption import MedqbenchCaptionDataset
 from .medqbench_paired_description import MedqbenchPairedDescriptionDataset
-
+from .myvqabench import MyVQABench
+from .visthink import VisThinkBench
 
 class ConcatDataset(ImageBaseDataset):
     # This dataset takes multiple dataset names as input and aggregate them into a single dataset.
@@ -231,7 +232,7 @@ def evaluate(self, eval_file, **judge_kwargs):
 ]
 
 CUSTOM_DATASET = [
-    CustomMCQDataset, CustomVQADataset, CustomTextMCQDataset
+    CustomMCQDataset, CustomVQADataset, CustomTextMCQDataset, MyVQABench, VisThinkBench
 ]
 
 DATASET_COLLECTION = [ConcatDataset, ConcatVideoDataset]
 
@@ -97,8 +97,8 @@ def prepare_tsv(self, url, file_md5=None):
                 pass
             else:
                 warnings.warn(f'The tsv file is in {data_root}, but the md5 does not match, will re-download')
-                download_file(url, data_path)
-                update_flag = True
+                # download_file(url, data_path)
+                # update_flag = True
         else:
             if osp.exists(data_path_legacy) and (file_md5 is None or md5(data_path_legacy) == file_md5):
                 warnings.warn(
 
@@ -2095,7 +2095,7 @@ class QSpatial(ImageBaseDataset):
     # NOTE: To evaluate Q-Spatial-ScanNet, you need to get the permission from ScanNet website
     # Once you get the permission, you can use the helper code here to download and extract necessary images:
     # https://github.com/andrewliao11/Q-Spatial-Bench-code?tab=readme-ov-file#for-qspatial_scannet
-    qspatial_root = "TO_BE_REPLACED_WITH_THE_PATH_TO_QSPATIAL_DATASET"
+    qspatial_root = "/root/autodl-tmp/home/tongyujun/LMUData/images/QSpatial"
     url = "https://raw.githubusercontent.com/andrewliao11/Q-Spatial-Bench-code/refs/heads/main/prompt_templates/"
 
     def post_build(self, dataset):
@@ -2152,7 +2152,7 @@ def load_data(self, dataset):
         from datasets import load_dataset
 
         hf_dataset = load_dataset("andrewliao11/Q-Spatial-Bench",
-                                  split=dataset)
+                                  split=dataset,cache_dir=self.qspatial_root)
         df = hf_dataset.to_pandas()
 
         df.reset_index(drop=True, inplace=True)