关于 Llama 3-70B 的结果

在中文版的 MT-Bench 上运行过 Llama 3-70B，在未以 system prompt 敦促模型使用中文回答的前提下，绝大多数的回答都是英文。不知排行榜上的 Llama 3-70B 是否用 system prompt 来达成目前的分数，还是纵使回答是英文的，然只要够正确且品质够好，就可以获得高分呢？