关于评测相关问题

作者您好，我想要用您的工作评测我对模型的改进。
我在尝试复现的过程中，遇到了一些问题。比如self_awareness.json这个数据集，论文中是区分SA Style和SA Know.的，dataset.py里似乎没有区分，那我该怎么计算这两个子类的分数呢？另外代码里是一个问题一个答案的，我需要自己进行统计吗？想问问作者当时进行实验时有相应的计算总分的代码吗？我怕我有操作错误的地方，导致在这个Benchmark上评估结果不准确。