AI实时字幕工具 (AI Real-time Subtitle Tool)

语言: 中文 | English

一个支持在Windows上运行的桌面AI浮窗工具，可以实时捕获系统音频并通过AI大模型转换为文字字幕显示在桌面上。

🔗 快速导航

📦 下载打包版本 - 无需Python环境
💿 安装指南 - 依赖安装详解
🎤 音频设置 - 解决"检测不到语音"问题
🎧 外接设备配置 - 外接音箱/耳机用户必读
⚙️ 图形化配置 - 可视化配置界面
🚀 5分钟快速开始 - 阿里云配置
🔧 如何打包 - 3步完成打包
📦 打包选项 - 标准版 vs 本地模型版
🔌 运行时安装 - 按需安装本地模型（推荐）
� 调试指南 - 解决Shell窗口无法终止问题
�📚 完整指南 - 所有文档导航

📸 项目演示

✨ 功能特性

🎙️ 实时音频捕获: 支持捕获Windows系统播放的音频（WASAPI Loopback）
🤖 AI语音识别: 支持多种AI服务（OpenAI Whisper、Azure Speech、阿里云百炼、本地Whisper）
💬 实时字幕显示: 美观的浮动字幕窗口，支持拖拽和透明度调节
⚙️ 图形化配置: 可视化配置界面，无需手动编辑文件
🎨 现代UI: 基于PyQt5的现代化界面设计
📦 一键打包: 支持打包为独立exe，开箱即用

📋 系统要求

Windows 10/11
Python 3.8+ (开发运行)
麦克风或系统音频输出设备

📦 获取应用

方式1: 下载打包版本（推荐）

直接下载已打包的Windows可执行文件，无需安装Python环境。

使用步骤:

下载并解压 AI实时字幕_便携版.zip
运行 配置向导.bat 进行快速配置
双击 AI实时字幕.exe 启动应用

方式2: 从源码运行

适合开发者或需要自定义的用户。

🚀 快速开始

1. 安装依赖

cd ai_subtitle_tool
pip install -r requirements.txt

如果遇到安装问题，请查看详细的 安装指南

快速安装核心依赖:

# 仅安装必需的核心依赖
pip install -r requirements-minimal.txt

2. 配置环境变量

复制.env.example为.env并配置：

cp .env.example .env

编辑.env文件，选择一个AI服务并配置相应的API密钥：

使用OpenAI Whisper API (推荐)

AI_SERVICE=openai
OPENAI_API_KEY=your_openai_api_key_here
OPENAI_MODEL=whisper-1

使用Azure Speech Service

AI_SERVICE=azure
AZURE_SPEECH_KEY=your_azure_speech_key_here
AZURE_SPEECH_REGION=eastus

使用阿里云百炼 (国内推荐)

AI_SERVICE=aliyun
ALIYUN_API_KEY=your_aliyun_api_key_here
# 支持的模型: paraformer-realtime-v2, fun-asr-realtime-2025-11-07
ALIYUN_MODEL=paraformer-realtime-v2

注意: 需要安装DashScope SDK:

pip install dashscope

详细配置请参考：

阿里云百炼配置指南
DashScope SDK更新说明 - 最新SDK使用方法

使用本地Whisper模型

AI_SERVICE=local_whisper

需要额外安装：

pip install openai-whisper

3. 启用Windows音频回环

为了捕获系统播放的音频，需要启用"立体声混音"：

右键点击任务栏的音量图标
选择"声音设置" → "声音控制面板"
切换到"录制"选项卡
右键空白处，勾选"显示已禁用的设备"
找到"立体声混音"或"Stereo Mix"，右键启用
设置为默认录音设备（可选）

4. 运行应用

python main.py

🎮 使用说明

启动应用: 运行python main.py后会显示浮动字幕窗口
打开设置: 点击窗口上的"⚙"按钮打开配置界面
配置服务: 在配置界面中选择AI服务并填写API密钥
保存配置: 点击"保存"按钮，配置会自动保存到.env文件
开始捕获: 点击"▶ 开始"按钮开始捕获音频
查看字幕: 实时转录的文字会显示在窗口中
停止捕获: 点击"■ 停止"按钮停止捕获
拖动窗口: 鼠标左键拖动窗口可以移动位置
关闭应用: 点击右上角"✕"按钮关闭

⚙️ 配置说明

图形化配置（推荐）

点击主窗口的"⚙"按钮打开配置界面，可以：

选择AI服务类型
填写API密钥
调整音频参数
自定义界面设置
实时预览效果

详细说明请查看：图形化配置指南

手动配置

音频设置

SAMPLE_RATE=16000          # 采样率 (Hz)
CHUNK_DURATION=3           # 音频块时长 (秒)
AUDIO_DEVICE_INDEX=-1      # 音频设备索引 (-1为自动选择)

UI设置

WINDOW_WIDTH=800           # 窗口宽度
WINDOW_HEIGHT=120          # 窗口高度
WINDOW_OPACITY=0.85        # 窗口透明度 (0.0-1.0)
FONT_SIZE=24               # 字体大小

🔧 故障排除

问题1: 无法捕获音频

解决方案:

确保已启用"立体声混音"设备
运行程序后查看控制台输出的设备列表
在.env中手动指定AUDIO_DEVICE_INDEX

问题2: PyAudio安装失败

解决方案:

# Windows用户可以使用pipwin
pip install pipwin
pipwin install pyaudio

# 或者下载预编译的wheel文件
# https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyaudio

问题3: OpenAI API调用失败

解决方案:

检查API密钥是否正确
确认账户有足够的额度
检查网络连接
可以设置OPENAI_BASE_URL使用代理或其他兼容端点

问题4: 转录延迟较高

解决方案:

减小CHUNK_DURATION（但会增加API调用频率）
使用本地Whisper模型（需要较好的GPU）
使用Azure Speech Service的实时流式识别

📁 项目结构

ai_subtitle_tool/
├── main.py                    # 主程序入口
├── config.py                  # 配置管理
├── audio_capture.py           # 音频捕获模块
├── transcription_service.py   # AI转录服务
├── subtitle_window.py         # 字幕窗口UI
├── settings_window.py         # 配置窗口UI (新增)
├── requirements.txt           # 运行依赖
├── build_requirements.txt     # 打包依赖
├── .env.example              # 环境变量示例
├── build.bat                 # 打包脚本
├── ai_subtitle.spec          # PyInstaller配置
└── README.md                 # 说明文档

🛠️ 技术栈

PyQt5: 现代化GUI框架
sounddevice: 跨平台音频I/O库
OpenAI Whisper API: 语音识别服务
Azure Speech Service: 微软语音服务
NumPy: 音频数据处理

📝 开发计划

📦 打包和分发

开发者打包

# 安装打包依赖
pip install -r build_requirements.txt

# 运行打包脚本
build.bat

# 创建便携版
build_portable.bat

详细文档:

分发给用户

运行 build_portable.bat 创建便携版
生成 AI实时字幕_便携版.zip
分发ZIP文件
用户解压后运行 配置向导.bat

优势:

✅ 无需安装Python环境
✅ 所有依赖已打包
✅ 开箱即用
✅ 支持离线使用

🤝 贡献

欢迎提交Issue和Pull Request！

📄 许可证

MIT License

🙏 致谢

OpenAI Whisper
Azure Speech Service
阿里云百炼
PyQt5 Community
PyInstaller

📚 文档导航

用户指南

安装指南 - 依赖安装详解
音频设置 - 音频配置说明
外接设备配置 - 外接音频设备
图形化配置 - 可视化配置
快速开始 - 5分钟上手

开发者指南

打包指南 - 完整打包说明
打包选项 - 标准版 vs 本地模型版
打包故障排除 - 常见问题
项目结构 - 代码组织

高级主题

运行时安装 - 按需安装本地模型
本地Whisper指南 - 本地模型详解
阿里云API修复 - API故障排除

注意: 使用AI服务可能会产生费用，请注意控制使用量。建议先使用小额度测试。

语言: 中文 | English

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
docs		docs
example/dashscope		example/dashscope
image		image
.env.aliyun.example		.env.aliyun.example
.env.example		.env.example
.gitignore		.gitignore
LICENSE		LICENSE
MIGRATE_TO_DASHSCOPE.md		MIGRATE_TO_DASHSCOPE.md
README.md		README.md
README_EN.md		README_EN.md
ai_subtitle.spec		ai_subtitle.spec
ai_subtitle_with_whisper.spec		ai_subtitle_with_whisper.spec
audio_capture.py		audio_capture.py
build.bat		build.bat
build_portable.bat		build_portable.bat
build_requirements.txt		build_requirements.txt
build_with_whisper.bat		build_with_whisper.bat
check_devices.py		check_devices.py
config.py		config.py
create_icon.py		create_icon.py
fix_whisper_build.bat		fix_whisper_build.bat
install.bat		install.bat
main.py		main.py
requirements-minimal.txt		requirements-minimal.txt
requirements.txt		requirements.txt
run.bat		run.bat
run_debug.bat		run_debug.bat
settings_window.py		settings_window.py
subtitle_window.py		subtitle_window.py
test_aliyun.py		test_aliyun.py
test_aliyun_dashscope.py		test_aliyun_dashscope.py
test_aliyun_fix.py		test_aliyun_fix.py
test_settings_window.py		test_settings_window.py
transcription_service.py		transcription_service.py
whisper_installer.py		whisper_installer.py

License

fz00x0fz/AI-Real-Time-Subtitle-Tool

Folders and files

Latest commit

History

Repository files navigation

AI实时字幕工具 (AI Real-time Subtitle Tool)

🔗 快速导航

📸 项目演示

✨ 功能特性

📋 系统要求

📦 获取应用

方式1: 下载打包版本（推荐）

方式2: 从源码运行

🚀 快速开始

1. 安装依赖

2. 配置环境变量

使用OpenAI Whisper API (推荐)

使用Azure Speech Service

使用阿里云百炼 (国内推荐)

使用本地Whisper模型

3. 启用Windows音频回环

4. 运行应用

🎮 使用说明

⚙️ 配置说明

图形化配置（推荐）

手动配置

音频设置

UI设置

🔧 故障排除

问题1: 无法捕获音频

问题2: PyAudio安装失败

问题3: OpenAI API调用失败

问题4: 转录延迟较高

📁 项目结构

🛠️ 技术栈

📝 开发计划

📦 打包和分发

开发者打包

分发给用户

🤝 贡献

📄 许可证

🙏 致谢

📚 文档导航

用户指南

开发者指南

高级主题

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages