关于大海捞针测试的问题 #921
Closed
abc123456cxx
announced in
Announcements
关于大海捞针测试的问题
#921
Replies: 3 comments
-
Beta Was this translation helpful? Give feedback.
0 replies
-
|
您好,关于 在此, 如果您想要测试自己的模型,理论上不必更换tokenizer。这是因为数据集的创建是为了确保在测试不同模型的时候,所用的prompt都在GPT-4的tokenizer衡量下,防止测试不同模型时候的prompt长度会产生差异。 |
Beta Was this translation helpful? Give feedback.
0 replies
-
|
好的我明白了,非常感谢您的回答!
…________________________________
发件人: Mo Li ***@***.***>
发送时间: 2024年2月26日 14:55
收件人: open-compass/opencompass ***@***.***>
抄送: 才晓溪 ***@***.***>; Author ***@***.***>
主题: Re: [open-compass/opencompass] 关于大海捞针测试的问题 (Discussion #921)
您好,关于tokenizer_model参数的作用,该参数指定了生成数据集时所使用的分词器(tokenizer)。在创建数据集时,不同的模型可能对相同文本的分词结果有不同的理解,特别是在处理长度较长的文本时。例如,当我们提到生成长度为2000个token的大海捞针测试数据集时,不同模型的tokenizer对于“2000个token”的理解可能会有所不同。
在此,tokenizer_model: 'gpt-4'的设置意味着我们统一使用GPT-4的tokenizer来确保文本长度和分词的一致性,这样可以使数据集的创建更加标准化,同时也便于跨模型的比较和测试。
如果您想要测试自己的模型,理论上不必更换tokenizer。这是因为数据集的创建是为了确保在测试不同模型的时候,所用的prompt都在GPT-4的tokenizer衡量下,防止测试不同模型时候的prompt长度会产生差异。
―
Reply to this email directly, view it on GitHub<#921 (comment)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/BD2JDZPPS7GXACR2JCNYWO3YVQWWJAVCNFSM6AAAAABDZTXAPOVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DKOBYGU2DG>.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
描述该功能
看config中cdme数据集配置时有一个'tokenizer_model': 'gpt-4'参数,想请问一下这里的这个参数是什么作用呢,如果要测试自己的模型也要用gpt-4嘛 还是需要修改成自己模型tokenizer的路径呢?感谢回答

是否希望自己实现该功能?
Beta Was this translation helpful? Give feedback.
All reactions