Skip to content

[Bad Case]: finetune后模型输出很奇怪 #82

@Dr-Corgi

Description

@Dr-Corgi

Description / 描述

使用在其他模型上训练成功的数据集,用sft_finetune.sh做全量微调后,模型结果很奇怪。出来一大串空格+一个句号。

使用hf上的代码,载入原始模型(MiniCPM-2B-sft-bf16)运行一致,载入微调模型后输出:

[{'role': 'user', 'content': '山东省最高的山是哪座山, 它比黄山高还是矮?差距多少?'}, {'role': 'assistant', 'content': '                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             。'}]

注1:deepspeed用的是stage_2非offload,这点跟给的原始脚本不太一样,不知道有没有影响
注2:已经将每条训练数据长度限制在512个tokens内。

Case Explaination / 案例解释

No response

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions