您好~非常感谢您的开源工作;以下有几个小问题想咨询一下: 1. 为什么采用了选择题的形式来构建测试集,是有什么特殊的考量吗? 2. Speaker Age 这个任务中,为什么只选择了 10~20/30~40/50~60/70~80 这个年龄段,而不是直接让模型输出特定的年龄值? 3. 在 GPT-eval 中,我看代码里在调用评测的时候给定的 prompt中,并没有根据“ground_truth”进行评分,最终的分数输出也是对 LLM-score 进行了平均值,这块有些不太明白,可以详细解释下吗? 非常感谢并期待您的回复~