Push-to-Talk 음성 인식 앱. Ctrl+Shift+Space를 누르고 말하면 텍스트로 변환해준다.
faster-whisper의 CTranslate2 int8 양자화를 사용하여 GPU 없이 CPU만으로 빠르게 동작한다.
- Python 3.10+
- Windows 10/11
run.bat
첫 실행 시 venv 생성, 패키지 설치, 모델 다운로드(~1.5GB)가 자동으로 진행된다.
| 동작 | 키/버튼 |
|---|---|
| 녹음 시작 | Ctrl+Shift+Space 누르고 있기 |
| 녹음 종료 + 전사 | 키 떼기 |
| 오버레이 닫기 | Esc 또는 다시 Ctrl+Shift+Space |
| 텍스트 복사 | Copy 버튼 |
| 언어 전환 / 종료 | 트레이 아이콘 우클릭 |
녹음 중 2초마다 부분 전사가 표시되고, 키를 떼면 전체 오디오로 최종 전사를 수행한다. 전사 완료 후 텍스트를 직접 편집할 수 있다.
- 한국어 (기본)
- English
트레이 메뉴에서 전환 가능.
oh-my-faster-whisper/
├── main.py # 앱 진입점 + 상태 머신
├── run.bat # 원클릭 실행
├── requirements.txt
├── models/ # whisper 모델 (자동 다운로드)
├── core/
│ ├── state.py # AppState enum
│ └── config.py # 설정 상수
├── audio/
│ ├── capture.py # 마이크 입력 (sounddevice)
│ └── ring_buffer.py # 순환 버퍼 (numpy)
├── transcription/
│ └── service.py # faster-whisper 래퍼
├── hotkey/
│ └── service.py # 전역 핫키 (keyboard)
└── ui/
├── overlay.py # 오버레이 창 (tkinter)
├── tray.py # 시스템 트레이 (pystray)
└── cursor.py # 커서 위치 API (ctypes)