几个关于数据集构造的问题咨询

您好～非常感谢您的开源工作；以下有几个小问题想咨询一下：
1. 为什么采用了选择题的形式来构建测试集，是有什么特殊的考量吗？
2. Speaker Age 这个任务中，为什么只选择了 10～20/30～40/50～60/70～80 这个年龄段，而不是直接让模型输出特定的年龄值？
3. 在 GPT-eval 中，我看代码里在调用评测的时候给定的 prompt中，并没有根据“ground_truth”进行评分，最终的分数输出也是对 LLM-score 进行了平均值，这块有些不太明白，可以详细解释下吗？

非常感谢并期待您的回复～