qwen3.5-4b 评测结果对不齐，有人能复现吗 #73

coder-james · 2026-03-09T12:17:16Z

coder-james
Mar 9, 2026

评测结果:
基于 VLMEvalKit
MMStar 72.13 (report 78.3)
MMBench_en 85.6(report 89.4)
SimpleVQA 43.4 (report 44.29)
RealWorldQA 74.9 (report 79.5)
HallusionBench 60.13 (report 65)
评测参数：
Instruct (or non-thinking) mode for general tasks: temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

qwen3.5-4b 评测结果对不齐，有人能复现吗 #73

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

qwen3.5-4b 评测结果对不齐，有人能复现吗 #73

Uh oh!

coder-james Mar 9, 2026

Replies: 0 comments

coder-james
Mar 9, 2026