AI实时字幕工具现在提供了图形化配置界面,无需手动编辑.env文件,即可轻松配置所有参数!
- 启动应用
- 点击主窗口上的 ⚙ (设置)按钮
- 配置界面自动打开
如果没有配置文件,应用会自动提示打开配置界面。
配置界面分为三个标签页:
选择你要使用的AI服务:
- 阿里云百炼 - 推荐,国内访问快,中文识别准确
- OpenAI Whisper - 国际领先,多语言支持
- Azure Speech - 微软服务,企业级可靠
- 本地Whisper - 完全免费,需要GPU
必填项:
- API Key: 在 阿里云百炼 获取
- 格式:
sk-xxxxxxxxxxxxxxxx - 点击"显示密钥"可查看输入内容
- 格式:
可选项:
- App ID: 如果创建了应用,填入App ID
- 模型: 选择识别模型
paraformer-realtime-v2- 实时识别(推荐)paraformer-v2- 高精度识别paraformer-8k-v2- 8kHz采样率paraformer-mtl-v2- 多语言
- 端点: 通常不需要修改
获取API Key:
- 点击"点击获取API Key"链接
- 注册/登录阿里云账号
- 开通百炼服务
- 创建API Key
- 复制并粘贴到配置界面
必填项:
- API Key: 在 OpenAI平台 获取
可选项:
- 模型: 默认
whisper-1
必填项:
- Speech Key: 在 Azure门户 获取
- 区域: 例如
eastus,westus等
- 推荐值: 16000 Hz
- 说明: 适合语音识别,平衡质量和性能
- 可选值: 8000, 16000, 22050, 44100, 48000
- 推荐值: 3秒
- 说明: 平衡延迟和准确率
- 调整建议:
- 降低延迟: 2秒
- 提高准确率: 4秒
- 默认值: -1 (自动选择)
- 说明: 自动选择立体声混音设备
- 手动选择: 点击"查看可用设备"查看设备列表
查看设备列表:
- 点击"查看可用设备"按钮
- 弹出窗口显示所有可用设备
- 记下设备编号
- 在"音频设备索引"中输入编号
重要提示:
- 需要启用Windows的"立体声混音"功能
- 参考主文档了解如何启用
- 宽度: 400-2000 px(默认800)
- 高度: 80-500 px(默认120)
- 说明: 根据屏幕大小调整
- 范围: 0.1-1.0(默认0.85)
- 说明:
- 1.0 = 完全不透明
- 0.5 = 半透明
- 0.1 = 几乎透明
- 范围: 12-72 pt(默认24)
- 说明: 根据观看距离调整
- 调整参数时,预览区域会实时显示效果
- 可以直观看到字体大小和透明度的变化
- 填写完所有必要配置
- 点击"保存"按钮
- 系统自动验证配置
- 配置保存到
.env文件 - 提示"配置已保存"
保存前系统会自动验证:
- ✅ 必填项是否已填写
- ✅ API Key格式是否正确
- ✅ 参数值是否在有效范围内
如果验证失败,会提示具体错误并定位到对应字段。
重要: 保存配置后需要重启应用才能生效!
- 点击"保存"
- 关闭应用
- 重新启动应用
- 新配置生效
点击"测试连接"按钮可以测试AI服务连接。
注意: 当前版本的测试功能需要保存配置后,使用主程序进行实际测试。
- 保存配置
- 重启应用
- 点击"开始"按钮
- 播放音频测试
- 查看字幕是否正常显示
配置界面会自动生成 .env 文件,格式如下:
# AI实时字幕工具配置文件
# 由配置界面自动生成
# ===== AI服务配置 =====
AI_SERVICE=aliyun
# ===== 阿里云百炼配置 =====
ALIYUN_API_KEY=sk-your-key
ALIYUN_APP_ID=
ALIYUN_ENDPOINT=https://dashscope.aliyuncs.com/api/v1/services/audio/asr
ALIYUN_MODEL=paraformer-realtime-v2
# ===== 音频设置 =====
SAMPLE_RATE=16000
CHUNK_DURATION=3
AUDIO_DEVICE_INDEX=-1
# ===== UI设置 =====
WINDOW_WIDTH=800
WINDOW_HEIGHT=120
WINDOW_OPACITY=0.85
FONT_SIZE=24如果需要,你仍然可以手动编辑 .env 文件:
- 用文本编辑器打开
.env - 修改对应的值
- 保存文件
- 重启应用
想要测试不同的AI服务?
- 打开配置界面
- 切换"服务类型"
- 填写对应的API Key
- 保存并重启
觉得字幕延迟太高?
- 打开配置界面
- 音频设置 → 音频块时长
- 改为 2秒
- 保存并重启
识别不够准确?
- 打开配置界面
- 音频设置 → 音频块时长
- 改为 4秒
- AI服务 → 模型
- 选择高精度模型
- 保存并重启
字幕太小或太大?
- 打开配置界面
- 界面设置 → 字体大小
- 调整到合适大小
- 查看预览效果
- 保存并重启
需要在不同场景使用不同配置?
- 配置好第一套参数
- 保存后,复制
.env为.env.场景1 - 配置第二套参数
- 保存后,复制
.env为.env.场景2 - 使用时,将对应文件复制为
.env
可能原因:
- 缺少依赖库
解决方法:
pip install PyQt5原因: 没有重启应用
解决方法:
- 完全关闭应用
- 重新启动
- 配置生效
解决方法:
- 重新打开配置界面
- 修改API Key
- 保存
- 重启应用
解决方法:
- 打开配置界面
- 当前配置会自动加载显示
- 可以查看或修改
解决方法:
- 打开配置界面
- 重新填写配置
- 保存
- 系统会创建新的
.env文件
解决方法:
- 勾选"显示密钥"复选框
- 密钥会以明文显示
- 确认无误后取消勾选
- ✅ 选择阿里云百炼(国内用户)
- ✅ 获取并填写API Key
- ✅ 使用默认音频参数
- ✅ 使用默认UI参数
- ✅ 保存并测试
根据实际使用情况调整:
- 延迟高 → 减小音频块时长
- 准确率低 → 增加音频块时长
- 字幕太小 → 增加字体大小
- 窗口太大 → 减小窗口尺寸
- 检查API余额
- 更新API Key
- 优化参数设置
- README.md - 主文档
- QUICKSTART_ALIYUN.md - 快速开始
- setup_guide.md - 详细配置
- USER_GUIDE.md - 用户指南
图形化配置界面让配置变得简单:
- ✅ 无需手动编辑文件
- ✅ 直观的界面设计
- ✅ 实时预览效果
- ✅ 自动验证配置
- ✅ 一键保存
立即体验: 点击主窗口的 ⚙ 按钮!
提示: 配置保存后记得重启应用哦!