Skip to content

Latest commit

 

History

History
352 lines (248 loc) · 7.43 KB

File metadata and controls

352 lines (248 loc) · 7.43 KB

图形化配置界面使用指南

🎨 功能介绍

AI实时字幕工具现在提供了图形化配置界面,无需手动编辑.env文件,即可轻松配置所有参数!

🚀 打开配置界面

方法1: 通过主窗口

  1. 启动应用
  2. 点击主窗口上的 (设置)按钮
  3. 配置界面自动打开

方法2: 首次启动

如果没有配置文件,应用会自动提示打开配置界面。

📋 配置界面说明

配置界面分为三个标签页:

1️⃣ AI服务配置

服务类型选择

选择你要使用的AI服务:

  • 阿里云百炼 - 推荐,国内访问快,中文识别准确
  • OpenAI Whisper - 国际领先,多语言支持
  • Azure Speech - 微软服务,企业级可靠
  • 本地Whisper - 完全免费,需要GPU

阿里云百炼配置

必填项:

  • API Key: 在 阿里云百炼 获取
    • 格式: sk-xxxxxxxxxxxxxxxx
    • 点击"显示密钥"可查看输入内容

可选项:

  • App ID: 如果创建了应用,填入App ID
  • 模型: 选择识别模型
    • paraformer-realtime-v2 - 实时识别(推荐)
    • paraformer-v2 - 高精度识别
    • paraformer-8k-v2 - 8kHz采样率
    • paraformer-mtl-v2 - 多语言
  • 端点: 通常不需要修改

获取API Key:

  1. 点击"点击获取API Key"链接
  2. 注册/登录阿里云账号
  3. 开通百炼服务
  4. 创建API Key
  5. 复制并粘贴到配置界面

OpenAI配置

必填项:

可选项:

  • 模型: 默认 whisper-1

Azure Speech配置

必填项:

  • Speech Key: 在 Azure门户 获取
  • 区域: 例如 eastus, westus

2️⃣ 音频设置

采样率

  • 推荐值: 16000 Hz
  • 说明: 适合语音识别,平衡质量和性能
  • 可选值: 8000, 16000, 22050, 44100, 48000

音频块时长

  • 推荐值: 3秒
  • 说明: 平衡延迟和准确率
  • 调整建议:
    • 降低延迟: 2秒
    • 提高准确率: 4秒

音频设备索引

  • 默认值: -1 (自动选择)
  • 说明: 自动选择立体声混音设备
  • 手动选择: 点击"查看可用设备"查看设备列表

查看设备列表:

  1. 点击"查看可用设备"按钮
  2. 弹出窗口显示所有可用设备
  3. 记下设备编号
  4. 在"音频设备索引"中输入编号

重要提示:

  • 需要启用Windows的"立体声混音"功能
  • 参考主文档了解如何启用

3️⃣ 界面设置

窗口尺寸

  • 宽度: 400-2000 px(默认800)
  • 高度: 80-500 px(默认120)
  • 说明: 根据屏幕大小调整

窗口透明度

  • 范围: 0.1-1.0(默认0.85)
  • 说明:
    • 1.0 = 完全不透明
    • 0.5 = 半透明
    • 0.1 = 几乎透明

字体大小

  • 范围: 12-72 pt(默认24)
  • 说明: 根据观看距离调整

实时预览

  • 调整参数时,预览区域会实时显示效果
  • 可以直观看到字体大小和透明度的变化

💾 保存配置

保存步骤

  1. 填写完所有必要配置
  2. 点击"保存"按钮
  3. 系统自动验证配置
  4. 配置保存到 .env 文件
  5. 提示"配置已保存"

配置验证

保存前系统会自动验证:

  • ✅ 必填项是否已填写
  • ✅ API Key格式是否正确
  • ✅ 参数值是否在有效范围内

如果验证失败,会提示具体错误并定位到对应字段。

使配置生效

重要: 保存配置后需要重启应用才能生效!

  1. 点击"保存"
  2. 关闭应用
  3. 重新启动应用
  4. 新配置生效

🧪 测试连接

测试功能

点击"测试连接"按钮可以测试AI服务连接。

注意: 当前版本的测试功能需要保存配置后,使用主程序进行实际测试。

测试步骤

  1. 保存配置
  2. 重启应用
  3. 点击"开始"按钮
  4. 播放音频测试
  5. 查看字幕是否正常显示

📝 配置文件

自动生成

配置界面会自动生成 .env 文件,格式如下:

# AI实时字幕工具配置文件
# 由配置界面自动生成

# ===== AI服务配置 =====
AI_SERVICE=aliyun

# ===== 阿里云百炼配置 =====
ALIYUN_API_KEY=sk-your-key
ALIYUN_APP_ID=
ALIYUN_ENDPOINT=https://dashscope.aliyuncs.com/api/v1/services/audio/asr
ALIYUN_MODEL=paraformer-realtime-v2

# ===== 音频设置 =====
SAMPLE_RATE=16000
CHUNK_DURATION=3
AUDIO_DEVICE_INDEX=-1

# ===== UI设置 =====
WINDOW_WIDTH=800
WINDOW_HEIGHT=120
WINDOW_OPACITY=0.85
FONT_SIZE=24

手动编辑

如果需要,你仍然可以手动编辑 .env 文件:

  1. 用文本编辑器打开 .env
  2. 修改对应的值
  3. 保存文件
  4. 重启应用

💡 使用技巧

技巧1: 快速切换服务

想要测试不同的AI服务?

  1. 打开配置界面
  2. 切换"服务类型"
  3. 填写对应的API Key
  4. 保存并重启

技巧2: 优化延迟

觉得字幕延迟太高?

  1. 打开配置界面
  2. 音频设置 → 音频块时长
  3. 改为 2秒
  4. 保存并重启

技巧3: 提高准确率

识别不够准确?

  1. 打开配置界面
  2. 音频设置 → 音频块时长
  3. 改为 4秒
  4. AI服务 → 模型
  5. 选择高精度模型
  6. 保存并重启

技巧4: 调整显示效果

字幕太小或太大?

  1. 打开配置界面
  2. 界面设置 → 字体大小
  3. 调整到合适大小
  4. 查看预览效果
  5. 保存并重启

技巧5: 保存多套配置

需要在不同场景使用不同配置?

  1. 配置好第一套参数
  2. 保存后,复制 .env.env.场景1
  3. 配置第二套参数
  4. 保存后,复制 .env.env.场景2
  5. 使用时,将对应文件复制为 .env

❓ 常见问题

Q1: 配置界面打不开?

可能原因:

  • 缺少依赖库

解决方法:

pip install PyQt5

Q2: 保存后配置不生效?

原因: 没有重启应用

解决方法:

  1. 完全关闭应用
  2. 重新启动
  3. 配置生效

Q3: API Key填错了怎么办?

解决方法:

  1. 重新打开配置界面
  2. 修改API Key
  3. 保存
  4. 重启应用

Q4: 忘记之前的配置?

解决方法:

  1. 打开配置界面
  2. 当前配置会自动加载显示
  3. 可以查看或修改

Q5: 配置文件丢失?

解决方法:

  1. 打开配置界面
  2. 重新填写配置
  3. 保存
  4. 系统会创建新的 .env 文件

Q6: 密码显示为星号看不到?

解决方法:

  1. 勾选"显示密钥"复选框
  2. 密钥会以明文显示
  3. 确认无误后取消勾选

🎯 最佳实践

1. 首次配置

  1. ✅ 选择阿里云百炼(国内用户)
  2. ✅ 获取并填写API Key
  3. ✅ 使用默认音频参数
  4. ✅ 使用默认UI参数
  5. ✅ 保存并测试

2. 优化配置

根据实际使用情况调整:

  • 延迟高 → 减小音频块时长
  • 准确率低 → 增加音频块时长
  • 字幕太小 → 增加字体大小
  • 窗口太大 → 减小窗口尺寸

3. 定期检查

  • 检查API余额
  • 更新API Key
  • 优化参数设置

📚 相关文档

🎉 总结

图形化配置界面让配置变得简单:

  • ✅ 无需手动编辑文件
  • ✅ 直观的界面设计
  • ✅ 实时预览效果
  • ✅ 自动验证配置
  • ✅ 一键保存

立即体验: 点击主窗口的 ⚙ 按钮!


提示: 配置保存后记得重启应用哦!