Skip to content

MiniCPM-o 2.6是否能够使用GRPO进行音视频训练? #1044

@bbbdbbb

Description

@bbbdbbb

感谢作者开源。
我们最近在研究多模态音视频强化学习,已经使用GRPO训练测试Qwen2.5-Omni系列的模型。我们想继续使用GRPO训练MiniCPM-o 2.6,但ms-swift框架上的MiniCPM-o 2.6使用的是MiniCPM-V的template,不支持GRPO强化学习训练(同时输入音频和视频)。

我们是多模态大模型研究方向的新人,请问这个问题应该怎么解决?我们尝试了swift,llama-factory,verl等框架,都不支持MiniCPM-o 2.6进行强化学习微调,我们应该怎么做?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions