이 애플리케이션은 Windows 환경에서 스피커 출력을 캡처하여 텍스트로 변환하고, ChatGPT를 통해 응답을 생성해주는 프로그램입니다.
python stt_app.py
~/AppData/Local/Programs/Python/Python313/python.exe stt_app.py
- 스피커 출력(오디오 루프백) 실시간 캡처
- 음성을 텍스트로 변환 (OpenAI Whisper API 사용)
- ChatGPT를 통한 자동 응답 생성
- 마지막 100자 텍스트 히스토리 표시
- 변환된 텍스트 저장 기능
- 사용 가능한 오디오 장치 목록 표시
- 필요한 패키지 설치:
pip install -r requirements.txt
- OpenAI API 키 발급:
- OpenAI 플랫폼에서 계정 생성
- API 키 발급 (결제 수단 등록 필요)
- 프로그램 실행 후 API 키 입력란에 입력
- 오디오 1분당 약 $0.006 (매우 저렴)
- 10초 단위 처리 시 1시간 사용 ≈ $0.036
- GPT-3.5-turbo: 입력 $0.0005/1K토큰, 출력 $0.0015/1K토큰
- 무료 사용량: Data Sharing 옵션 활성화 시 하루 250,000토큰 무료
OpenAI 플랫폼의 Data Controls > Sharing에서 "Share inputs and outputs with OpenAI" 옵션을 활성화하면:
- 하루 최대 250,000토큰 무료 사용 가능
- 개인정보가 포함되지 않은 일반적인 용도에 적합
스테레오 믹스는 컴퓨터의 스피커 출력을 마이크 입력으로 리디렉션하는 기능입니다.
-
소리 설정 열기
- 윈도우 작업 표시줄의 소리 아이콘을 우클릭합니다.
- "소리" 또는 "소리 설정 열기"를 선택합니다.
-
녹음 장치 표시
- "녹음" 탭을 클릭합니다.
- 기본적으로 스테레오 믹스가 표시되지 않을 수 있습니다.
- 빈 공간에서 우클릭하고 "비활성화된 장치 표시"를 선택합니다.
- 다시 우클릭하고 "연결되지 않은 장치 표시"도 선택합니다.
-
스테레오 믹스 활성화
- 이제 "스테레오 믹스" 또는 "Stereo Mix"가 목록에 표시되어야 합니다.
- 스테레오 믹스를 우클릭하고 "사용"을 선택합니다.
- 스테레오 믹스를 다시 우클릭하고 "기본 장치로 설정"을 선택합니다.
최신 컴퓨터나 노트북에서는 스테레오 믹스 옵션이 제공되지 않을 수 있습니다. 이 경우 다음과 같은 대안을 사용할 수 있습니다:
-
가상 오디오 케이블 설치
- VB-Cable (무료)
- Voicemeeter (무료, 고급 기능 제공)
-
VB-Cable 설정 방법
- VB-Cable을 다운로드하고 설치합니다.
- 윈도우 소리 설정에서 "재생" 탭으로 이동합니다.
- "CABLE Input"을 우클릭하고 "기본 장치로 설정"을 선택합니다.
- "녹음" 탭으로 이동합니다.
- "CABLE Output"을 우클릭하고 "사용"을 선택한 다음 "기본 장치로 설정"을 선택합니다.
- 이제 스피커로 출력되는 소리가 "CABLE Output"으로 캡처됩니다.
- 터미널/명령 프롬프트에서 실행:
python stt_app.py
- 프로그램 창 확인:
- "STT 변환기" 창이 열리면 정상 실행된 것입니다
- 하단에 "사용 가능한 오디오 장치" 목록에서 스테레오 믹스가 표시되는지 확인
-
API 키 입력:
- "OpenAI API 키" 입력란에 발급받은 API 키를 입력합니다
-
녹음 시작:
- "녹음 시작" 버튼 클릭
- 상태 표시가 "녹음 중..."으로 변경됨
-
테스트:
- 컴퓨터 스피커로 소리 재생 (예: YouTube 동영상, 오디오 파일)
- 재생되는 소리가 텍스트로 변환되어 화면에 표시됨
- 터미널에서 STT 변환 과정을 실시간으로 확인 가능
-
AI 응답 요청:
- "AI 응답 요청" 버튼을 클릭하면 ChatGPT가 마지막 100자를 분석하여 응답 생성
-
결과 저장:
- "텍스트 저장" 버튼 클릭하면 "transcript.txt" 파일로 저장됨
-
종료:
- "녹음 중지" 버튼 클릭 후 창 닫기
- API 키 오류: OpenAI API 키가 올바른지 확인하고, 계정에 충분한 크레딧이 있는지 확인하세요.
- 스테레오 믹스가 여전히 표시되지 않는 경우: 사운드 카드 드라이버를 업데이트하거나 제조업체 웹사이트에서 최신 드라이버를 설치해보세요.
- 스테레오 믹스가 활성화되어 있지만 소리가 캡처되지 않는 경우: 볼륨 레벨을 확인하고 음소거되어 있지 않은지 확인하세요.
- VB-Cable 설치 후 소리가 나오지 않는 경우: 일반적으로 "CABLE Input"으로 오디오를 출력하면 실제 스피커로는 소리가 나오지 않습니다. Voicemeeter를 사용하여 동시에 여러 출력으로 오디오를 라우팅할 수 있습니다.
- OpenAI API는 인터넷 연결이 필요합니다.
- API 사용량에 따라 비용이 발생할 수 있습니다. 사용량을 모니터링하세요.
- 음성 인식 정확도는 발화자의 발음, 주변 소음, 오디오 품질에 따라 달라질 수 있습니다.
- Data Sharing 옵션 활성화 시 OpenAI가 데이터를 모델 개선에 사용할 수 있습니다.