功能请求[功能请求] 增加对智谱GLM-4.6V视频理解功能的API兼容支持功能 #12680
Unanswered
Bedievere
asked this question in
Model & Provider | 模型和服务商
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
概述
请求 Cherry Studio 增加对智谱AI GLM-4.6V 模型视频理解功能的 API 兼容支持。
背景说明
GLM-4.6V 模型特性
GLM-4.6V 是智谱AI于2025年12月开源的多模态大模型,具有以下核心特性:
现状分析
Cherry Studio 目前已支持 GLM-4.6 系列模型的思考模式功能(参考 Discussion #11829),但尚未实现对 GLM-4.6V 视频理解能力的兼容。
同时,Cherry Studio 已经有针对其他模型(如 Qwen 系列)视频理解功能的实现讨论(参考 Discussion #6814),该讨论详细说明了视频理解的 API 调用方式。
技术需求
1. API 接口支持
GLM-4.6V 视频理解需要支持以下调用方式:
方式一:视频URL输入
{ "type": "video_url", "video_url": { "url": "https://example.com/video.mp4" } }方式二:本地视频文件(Base64编码)
{ "type": "video_url", "video_url": { "url": "data:video/mp4;base64,{base64_video}" } }方式三:视频帧列表(图片序列)
{ "type": "video", "video": [ "data:image/jpeg;base64,{frame1}", "data:image/jpeg;base64,{frame2}", "..." ] }2. 支持的视频格式
3. 抽帧配置
实现建议
参考现有实现
Cherry Studio 已在 Discussion #6814 中详细讨论了 Qwen 模型的视频理解实现方案,GLM-4.6V 的支持可以参考类似架构:
video_url和video两种输入方式模型配置
在模型列表中应明确标识支持视频理解的 GLM-4.6V 变体:
glm-4.6v- 基础视频理解模型glm-4.6v-flash- 快速响应版本(如果可用)用户价值
参考资料
优先级建议
中等优先级 - 该功能对视频处理场景的用户具有重要价值,但不会影响核心文本对话功能的使用。
感谢开发团队考虑此功能请求!期待 Cherry Studio 能够支持更多强大的多模态能力。
Beta Was this translation helpful? Give feedback.
All reactions