感谢作者开源。
我们最近在研究多模态音视频强化学习,已经使用GRPO训练测试Qwen2.5-Omni系列的模型。我们想继续使用GRPO训练MiniCPM-o 2.6,但ms-swift框架上的MiniCPM-o 2.6使用的是MiniCPM-V的template,不支持GRPO强化学习训练(同时输入音频和视频)。
我们是多模态大模型研究方向的新人,请问这个问题应该怎么解决?我们尝试了swift,llama-factory,verl等框架,都不支持MiniCPM-o 2.6进行强化学习微调,我们应该怎么做?