功能请求[功能请求] 增加对智谱GLM-4.6V视频理解功能的API兼容支持功能 #12680

Bedievere · 2026-02-02T09:13:24Z

Bedievere
Feb 2, 2026

概述

请求 Cherry Studio 增加对智谱AI GLM-4.6V 模型视频理解功能的 API 兼容支持。

背景说明

GLM-4.6V 模型特性

GLM-4.6V 是智谱AI于2025年12月开源的多模态大模型，具有以下核心特性：

视频理解能力
- 支持处理长达1小时的视频
- 128K超长上下文窗口
- 能进行视频内容分析、理解和总结
原生多模态能力
- 原生多模态工具调用
- 视觉-行动闭环
- 支持图像、视频、文档等多种格式
强大的文档理解
- 可处理约150页复杂文档
- 或200页PPT
- 支持图表、表格混合内容

现状分析

Cherry Studio 目前已支持 GLM-4.6 系列模型的思考模式功能（参考 Discussion #11829），但尚未实现对 GLM-4.6V 视频理解能力的兼容。

同时，Cherry Studio 已经有针对其他模型（如 Qwen 系列）视频理解功能的实现讨论（参考 Discussion #6814），该讨论详细说明了视频理解的 API 调用方式。

技术需求

1. API 接口支持

GLM-4.6V 视频理解需要支持以下调用方式：

方式一：视频URL输入

{
  "type": "video_url",
  "video_url": {
    "url": "https://example.com/video.mp4"
  }
}

方式二：本地视频文件（Base64编码）

{
  "type": "video_url",
  "video_url": {
    "url": "data:video/mp4;base64,{base64_video}"
  }
}

方式三：视频帧列表（图片序列）

{
  "type": "video",
  "video": [
    "data:image/jpeg;base64,{frame1}",
    "data:image/jpeg;base64,{frame2}",
    "..."
  ]
}

2. 支持的视频格式

MP4、AVI、MKV、MOV、FLV、WMV

3. 抽帧配置

默认抽帧频率：每0.5秒抽取一帧
- 建议支持自定义抽帧频率（如果API允许）

实现建议

参考现有实现

Cherry Studio 已在 Discussion #6814 中详细讨论了 Qwen 模型的视频理解实现方案，GLM-4.6V 的支持可以参考类似架构：

消息类型扩展
- 在消息格式中增加视频类型支持
- 区分 video_url 和 video 两种输入方式
文件处理
- 支持视频文件上传
- 实现 Base64 编码转换
- 可选：实现视频帧提取功能
UI交互优化
- 添加视频文件选择按钮
- 显示视频处理进度
- 支持视频预览功能
API适配
- 调用智谱AI的 GLM-4.6V API端点
- 正确处理视频相关参数
- 处理长视频的超时问题

模型配置

在模型列表中应明确标识支持视频理解的 GLM-4.6V 变体：

glm-4.6v - 基础视频理解模型
- glm-4.6v-flash - 快速响应版本（如果可用）

用户价值

教育场景：课程视频分析、教学视频总结
1. 内容创作：视频内容提取、脚本生成
1. 企业应用：会议录像分析、培训视频处理
1. 媒体分析：视频内容检索、智能标注

参考资料

智谱AI开放平台：https://open.bigmodel.cn/
- GLM-4.6V 发布说明（知乎）：https://zhuanlan.zhihu.com/p/1981654405196567870
- 现有视频理解实现讨论：(API) 增加对可进行视频理解的大模型API兼容 #6814
- GLM-4.6 思考模式讨论：智谱GLM-4.6系列的思考模式不受软件控制 #11829

优先级建议

中等优先级 - 该功能对视频处理场景的用户具有重要价值，但不会影响核心文本对话功能的使用。

感谢开发团队考虑此功能请求！期待 Cherry Studio 能够支持更多强大的多模态能力。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

功能请求[功能请求] 增加对智谱GLM-4.6V视频理解功能的API兼容支持功能 #12680

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

功能请求[功能请求] 增加对智谱GLM-4.6V视频理解功能的API兼容支持功能 #12680

Uh oh!

Bedievere Feb 2, 2026

背景说明

GLM-4.6V 模型特性

现状分析

技术需求

1. API 接口支持

方式一：视频URL输入

方式二：本地视频文件（Base64编码）

方式三：视频帧列表（图片序列）

2. 支持的视频格式

3. 抽帧配置

实现建议

参考现有实现

模型配置

用户价值

参考资料

优先级建议

Replies: 0 comments

Bedievere
Feb 2, 2026