MiniCPM-o 2.6是否能够使用GRPO进行音视频训练？

感谢作者开源。
我们最近在研究多模态音视频强化学习，已经使用GRPO训练测试Qwen2.5-Omni系列的模型。我们想继续使用GRPO训练MiniCPM-o 2.6，但ms-swift框架上的MiniCPM-o 2.6使用的是MiniCPM-V的template，不支持GRPO强化学习训练（同时输入音频和视频）。

我们是多模态大模型研究方向的新人，请问这个问题应该怎么解决？我们尝试了swift，llama-factory，verl等框架，都不支持MiniCPM-o 2.6进行强化学习微调，我们应该怎么做？