3535
3636近后台计算,模型优化和翻译消耗费用不足 ¥0.01(以OpenAI官方价格为计算)
3737
38- 具体字幕和视频合成的效果的测试结果图片,请参考 [ TED视频测试] ( ./docs/test.md )
38+ 具体字幕和视频合成的效果的测试结果图片,请参考 [ TED视频测试] ( ./legacy- docs/test.md )
3939
4040## 快速开始
4141
5151
52523 . LLM API 配置,(用于字幕断句、校正),可使用[ 本项目的中转站] ( https://api.videocaptioner.cn )
5353
54- 4 . 翻译配置,选择是否启用翻译,翻译服务(默认使用微软翻译,质量一般,推荐使用大模型翻译 )
54+ 4 . 翻译配置,选择是否启用翻译,翻译服务(默认使用微软翻译,质量一般,推荐配置自己的 API KEY 使用大模型翻译 )
5555
56565 . 语音识别配置(默认使用B接口网络调用语音识别服务,中英以外的语言请使用本地转录)
5757
58- 6 . 拖拽视频文件到软件窗口,即可全自动处理
59-
60- 提示:每一个步骤均支持单独处理,均支持文件拖拽。软件具体模型选择和参数配置说明,请查看下文。
61-
62- ### macOS / Linux 用户
58+ ### macOS 用户
6359
6460#### 一键安装运行(推荐)
6561
6662``` bash
67- # 方式一:直接运行(自动安装 uv、克隆项目、安装依赖 )
68- curl -fsSL https://raw.githubusercontent.com/WEIFENG2333/VideoCaptioner/main/run.sh | bash
63+ # 方式一:直接运行(自动安装 uv、克隆项目、安装相关依赖 )
64+ curl -fsSL https://raw.githubusercontent.com/WEIFENG2333/VideoCaptioner/main/scripts/ run.sh | bash
6965
7066# 方式二:先克隆再运行
7167git clone https://github.com/WEIFENG2333/VideoCaptioner.git
7268cd VideoCaptioner
73- ./run.sh
69+ ./scripts/ run.sh
7470```
7571
7672脚本会自动:
@@ -92,7 +88,7 @@ curl -LsSf https://astral.sh/uv/install.sh | sh
9288#### 2. 安装系统依赖(macOS)
9389
9490``` bash
95- brew install ffmpeg aria2
91+ brew install ffmpeg
9692```
9793
9894#### 3. 克隆并运行
@@ -130,7 +126,7 @@ LLM 大模型是用来字幕段句、字幕优化、以及字幕翻译(如果
130126
131127| 配置项 | 说明 |
132128| -------------- | ------------------------------------------------------------------------------------------------------------------------------------------------- |
133- | SiliconCloud | [ SiliconCloud 官网] ( https://cloud.siliconflow.cn/i/onCHcaDx ) 配置方法请参考[ 配置文档] ( ./docs/llm_config.md ) <br >该并发较低,建议把线程设置为5以下。 |
129+ | SiliconCloud | [ SiliconCloud 官网] ( https://cloud.siliconflow.cn/i/onCHcaDx ) 配置方法请参考[ 配置文档] ( https://weifeng2333.github.io/VideoCaptioner/config/llm ) <br >该并发较低,建议把线程设置为5以下。 |
134130| DeepSeek | [ DeepSeek 官网] ( https://platform.deepseek.com ) ,建议使用 ` deepseek-v3 ` 模型,<br >官方网站最近服务好像并不太稳定。 |
135131| OpenAI兼容接口 | 如果有其他服务商的API,可直接在软件中填写。base_url 和api_key [ VideoCaptioner API] ( https://api.videocaptioner.cn ) |
136132
@@ -152,15 +148,15 @@ API-key: `个人中心-API 令牌页面自行获取。`
152148
153149💡 模型选择建议 (本人在各质量层级中精选出的高性价比模型):
154150
155- - 高质量之选: ` gemini-2.5 -pro ` 、` claude-sonnet-4-5-20250929 ` (耗费比例:3)
151+ - 高质量之选: ` gemini-3 -pro ` 、` claude-sonnet-4-5-20250929 ` (耗费比例:3)
156152
157153- 较高质量之选: ` gpt-5-2025-08-07 ` 、 ` claude-haiku-4-5-20251001 ` (耗费比例:1.2)
158154
159- - 中质量之选: ` gpt-5-mini ` 、` gemini-2.5 -flash ` (耗费比例:0.3)
155+ - 中质量之选: ` gpt-5-mini ` 、` gemini-3 -flash ` (耗费比例:0.3)
160156
161157本站支持超高并发,软件中线程数直接拉满即可~ 处理速度非常快~
162158
163- 更详细的API配置教程:[ 中转站配置配置 ] ( ./docs/llm_config.md#中转站配置 )
159+ 更详细的API配置教程:[ 中转站配置 ] ( https://weifeng2333.github.io/VideoCaptioner/config/llm )
164160
165161---
166162
@@ -181,7 +177,7 @@ API-key: `个人中心-API 令牌页面自行获取。`
181177| B接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
182178| J接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
183179| WhisperCpp | 中文、日语、韩语、英文等 99 种语言,外语效果较好 | 本地 | (实际使用不稳定)需要下载转录模型<br >中文建议medium以上模型<br >英文等使用较小模型即可达到不错效果。 |
184- | fasterWhisper 👍 | 中文、英文等多99种语言,外语效果优秀,时间轴更准确 | 本地 | (🌟极力推荐 🌟)需要下载程序和转录模型<br >支持CUDA,速度更快,转录准确。<br >超级准确的时间戳字幕。<br >建议优先使用 |
180+ | fasterWhisper 👍 | 中文、英文等多99种语言,外语效果优秀,时间轴更准确 | 本地 | (🌟推荐 🌟)需要下载程序和转录模型<br >支持CUDA,速度更快,转录准确。<br >超级准确的时间戳字幕。<br >仅支持 window |
185181
186182### 4. 本地 Whisper 语音识别模型
187183
@@ -197,7 +193,6 @@ Whisper 版本有 WhisperCpp 和 fasterWhisper(推荐) 两种,后者效果
197193
198194推荐模型: ` Large-v2 ` 稳定且质量较好。
199195
200- 注:以上模型国内网络可直接在软件内下载。
201196
202197### 5. 文稿匹配
203198
@@ -222,7 +217,7 @@ Whisper 版本有 WhisperCpp 和 fasterWhisper(推荐) 两种,后者效果
2222172 . 只能下载较低分辨率的视频;
2232183 . 网络条件较差时需要验证;
224219
225- - 请参考 [ Cookie 配置说明] ( ./docs/get_cookies.md ) 获取Cookie信息,并将cookies.txt文件放置到软件安装目录的 ` AppData ` 目录下,即可正常下载高质量视频。
220+ - 请参考 [ Cookie 配置说明] ( https://weifeng2333.github.io/VideoCaptioner/guide/cookies-config ) 获取Cookie信息,并将cookies.txt文件放置到软件安装目录的 ` AppData ` 目录下,即可正常下载高质量视频。
226221
227222## 软件流程介绍
228223
@@ -291,16 +286,27 @@ Whisper 版本有 WhisperCpp 和 fasterWhisper(推荐) 两种,后者效果
291286
292287```
293288VideoCaptioner/
294- ├── runtime/ # 运行环境目录
295- ├── resources/ # 软件资源文件目录(二进制程序、图标等,以及下载的faster-whisper程序)
296- ├── work-dir/ # 工作目录,处理完成的视频和字幕文件保存在这里
289+ ├── app/ # 应用源代码目录
290+ │ ├── common/ # 公共模块(配置、信号总线)
291+ │ ├── components/ # UI 组件
292+ │ ├── core/ # 核心业务逻辑(ASR、翻译、优化等)
293+ │ ├── thread/ # 异步线程
294+ │ └── view/ # 界面视图
295+ ├── resource/ # 资源文件目录
296+ │ ├── assets/ # 图标、Logo 等
297+ │ ├── bin/ # 二进制程序(FFmpeg、Whisper 等)
298+ │ ├── fonts/ # 字体文件
299+ │ ├── subtitle_style/ # 字幕样式模板
300+ │ └── translations/ # 多语言翻译文件
301+ ├── work-dir/ # 工作目录(处理完成的视频和字幕)
297302├── AppData/ # 应用数据目录
298- ├── cache/ # 缓存目录,缓存转录、大模型请求的数据。
299- ├── models/ # 存放 Whisper 模型文件
300- ├── logs/ # 日志目录,记录软件运行状态
301- ├── settings.json # 存储用户设置
302- └── cookies.txt # 视频平台的 cookie 信息(下载高清视频时需要)
303- └── VideoCaptioner.exe # 主程序执行文件
303+ │ ├── cache/ # 缓存目录(转录、LLM 请求)
304+ │ ├── models/ # Whisper 模型文件
305+ │ ├── logs/ # 日志文件
306+ │ └── settings.json # 用户设置
307+ ├── scripts/ # 安装和运行脚本
308+ ├── main.py # 程序入口
309+ └── pyproject.toml # 项目配置和依赖
304310```
305311
306312## 📝 说明
@@ -328,8 +334,8 @@ VideoCaptioner/
328334<details >
329335<summary >捐助支持</summary >
330336<div align =" center " >
331- <img src =" ./docs/images/alipay.jpg " alt =" 支付宝二维码 " width =" 30% " >
332- <img src =" ./docs/images/wechat.jpg " alt =" 微信二维码 " width =" 30% " >
337+ <img src =" ./legacy- docs/images/alipay.jpg " alt =" 支付宝二维码 " width =" 30% " >
338+ <img src =" ./legacy- docs/images/wechat.jpg " alt =" 微信二维码 " width =" 30% " >
333339</div >
334340</details >
335341
0 commit comments