在中文版的 MT-Bench 上运行过 Llama 3-70B,在未以 system prompt 敦促模型使用中文回答的前提下,绝大多数的回答都是英文。不知排行榜上的 Llama 3-70B 是否用 system prompt 来达成目前的分数,还是纵使回答是英文的,然只要够正确且品质够好,就可以获得高分呢?