语言: 中文 | English
一个支持在Windows上运行的桌面AI浮窗工具,可以实时捕获系统音频并通过AI大模型转换为文字字幕显示在桌面上。
- 📦 下载打包版本 - 无需Python环境
- 💿 安装指南 - 依赖安装详解
- 🎤 音频设置 - 解决"检测不到语音"问题
- 🎧 外接设备配置 - 外接音箱/耳机用户必读
- ⚙️ 图形化配置 - 可视化配置界面
- 🚀 5分钟快速开始 - 阿里云配置
- 🔧 如何打包 - 3步完成打包
- 📦 打包选项 - 标准版 vs 本地模型版
- 🔌 运行时安装 - 按需安装本地模型(推荐)
- � 调试指南 - 解决Shell窗口无法终止问题
- �📚 完整指南 - 所有文档导航
- 🎙️ 实时音频捕获: 支持捕获Windows系统播放的音频(WASAPI Loopback)
- 🤖 AI语音识别: 支持多种AI服务(OpenAI Whisper、Azure Speech、阿里云百炼、本地Whisper)
- 💬 实时字幕显示: 美观的浮动字幕窗口,支持拖拽和透明度调节
- ⚙️ 图形化配置: 可视化配置界面,无需手动编辑文件
- 🎨 现代UI: 基于PyQt5的现代化界面设计
- 📦 一键打包: 支持打包为独立exe,开箱即用
- Windows 10/11
- Python 3.8+ (开发运行)
- 麦克风或系统音频输出设备
直接下载已打包的Windows可执行文件,无需安装Python环境。
使用步骤:
- 下载并解压
AI实时字幕_便携版.zip - 运行
配置向导.bat进行快速配置 - 双击
AI实时字幕.exe启动应用
适合开发者或需要自定义的用户。
cd ai_subtitle_tool
pip install -r requirements.txt如果遇到安装问题,请查看详细的 安装指南
快速安装核心依赖:
# 仅安装必需的核心依赖
pip install -r requirements-minimal.txt复制.env.example为.env并配置:
cp .env.example .env编辑.env文件,选择一个AI服务并配置相应的API密钥:
AI_SERVICE=openai
OPENAI_API_KEY=your_openai_api_key_here
OPENAI_MODEL=whisper-1AI_SERVICE=azure
AZURE_SPEECH_KEY=your_azure_speech_key_here
AZURE_SPEECH_REGION=eastusAI_SERVICE=aliyun
ALIYUN_API_KEY=your_aliyun_api_key_here
# 支持的模型: paraformer-realtime-v2, fun-asr-realtime-2025-11-07
ALIYUN_MODEL=paraformer-realtime-v2注意: 需要安装DashScope SDK:
pip install dashscope详细配置请参考:
- 阿里云百炼配置指南
- DashScope SDK更新说明 - 最新SDK使用方法
AI_SERVICE=local_whisper需要额外安装:
pip install openai-whisper为了捕获系统播放的音频,需要启用"立体声混音":
- 右键点击任务栏的音量图标
- 选择"声音设置" → "声音控制面板"
- 切换到"录制"选项卡
- 右键空白处,勾选"显示已禁用的设备"
- 找到"立体声混音"或"Stereo Mix",右键启用
- 设置为默认录音设备(可选)
python main.py- 启动应用: 运行
python main.py后会显示浮动字幕窗口 - 打开设置: 点击窗口上的"⚙"按钮打开配置界面
- 配置服务: 在配置界面中选择AI服务并填写API密钥
- 保存配置: 点击"保存"按钮,配置会自动保存到.env文件
- 开始捕获: 点击"▶ 开始"按钮开始捕获音频
- 查看字幕: 实时转录的文字会显示在窗口中
- 停止捕获: 点击"■ 停止"按钮停止捕获
- 拖动窗口: 鼠标左键拖动窗口可以移动位置
- 关闭应用: 点击右上角"✕"按钮关闭
点击主窗口的"⚙"按钮打开配置界面,可以:
- 选择AI服务类型
- 填写API密钥
- 调整音频参数
- 自定义界面设置
- 实时预览效果
详细说明请查看:图形化配置指南
SAMPLE_RATE=16000 # 采样率 (Hz)
CHUNK_DURATION=3 # 音频块时长 (秒)
AUDIO_DEVICE_INDEX=-1 # 音频设备索引 (-1为自动选择)WINDOW_WIDTH=800 # 窗口宽度
WINDOW_HEIGHT=120 # 窗口高度
WINDOW_OPACITY=0.85 # 窗口透明度 (0.0-1.0)
FONT_SIZE=24 # 字体大小解决方案:
- 确保已启用"立体声混音"设备
- 运行程序后查看控制台输出的设备列表
- 在
.env中手动指定AUDIO_DEVICE_INDEX
解决方案:
# Windows用户可以使用pipwin
pip install pipwin
pipwin install pyaudio
# 或者下载预编译的wheel文件
# https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyaudio解决方案:
- 检查API密钥是否正确
- 确认账户有足够的额度
- 检查网络连接
- 可以设置
OPENAI_BASE_URL使用代理或其他兼容端点
解决方案:
- 减小
CHUNK_DURATION(但会增加API调用频率) - 使用本地Whisper模型(需要较好的GPU)
- 使用Azure Speech Service的实时流式识别
ai_subtitle_tool/
├── main.py # 主程序入口
├── config.py # 配置管理
├── audio_capture.py # 音频捕获模块
├── transcription_service.py # AI转录服务
├── subtitle_window.py # 字幕窗口UI
├── settings_window.py # 配置窗口UI (新增)
├── requirements.txt # 运行依赖
├── build_requirements.txt # 打包依赖
├── .env.example # 环境变量示例
├── build.bat # 打包脚本
├── ai_subtitle.spec # PyInstaller配置
└── README.md # 说明文档
- PyQt5: 现代化GUI框架
- sounddevice: 跨平台音频I/O库
- OpenAI Whisper API: 语音识别服务
- Azure Speech Service: 微软语音服务
- NumPy: 音频数据处理
- 支持阿里云百炼API
- Windows应用打包和分发
- 支持多语言识别切换
- 添加字幕历史记录
- 支持字幕导出功能
- 添加更多UI主题
- 支持自定义快捷键
- 优化音频处理性能
- 添加语音活动检测(VAD)
# 安装打包依赖
pip install -r build_requirements.txt
# 运行打包脚本
build.bat
# 创建便携版
build_portable.bat详细文档:
- 运行
build_portable.bat创建便携版 - 生成
AI实时字幕_便携版.zip - 分发ZIP文件
- 用户解压后运行
配置向导.bat
优势:
- ✅ 无需安装Python环境
- ✅ 所有依赖已打包
- ✅ 开箱即用
- ✅ 支持离线使用
欢迎提交Issue和Pull Request!
MIT License
- OpenAI Whisper
- Azure Speech Service
- 阿里云百炼
- PyQt5 Community
- PyInstaller
- 运行时安装 - 按需安装本地模型
- 本地Whisper指南 - 本地模型详解
- 阿里云API修复 - API故障排除
注意: 使用AI服务可能会产生费用,请注意控制使用量。建议先使用小额度测试。
语言: 中文 | English
