作者您好,我想要用您的工作评测我对模型的改进。 我在尝试复现的过程中,遇到了一些问题。比如self_awareness.json这个数据集,论文中是区分SA Style和SA Know.的,dataset.py里似乎没有区分,那我该怎么计算这两个子类的分数呢?另外代码里是一个问题一个答案的,我需要自己进行统计吗?想问问作者当时进行实验时有相应的计算总分的代码吗?我怕我有操作错误的地方,导致在这个Benchmark上评估结果不准确。