STT(Speech-to-Text) 변환기

이 애플리케이션은 Windows 환경에서 스피커 출력을 캡처하여 텍스트로 변환하고, ChatGPT를 통해 응답을 생성해주는 프로그램입니다.

실행 예시

python stt_app.py

파이썬이 전역적으로 설정 안 되어 있을 경우 실행 예시

~/AppData/Local/Programs/Python/Python313/python.exe stt_app.py

기능

스피커 출력(오디오 루프백) 실시간 캡처
음성을 텍스트로 변환 (OpenAI Whisper API 사용)
ChatGPT를 통한 자동 응답 생성
마지막 100자 텍스트 히스토리 표시
변환된 텍스트 저장 기능
사용 가능한 오디오 장치 목록 표시

설치 방법

필요한 패키지 설치:

pip install -r requirements.txt

OpenAI API 키 발급:
- OpenAI 플랫폼에서 계정 생성
- API 키 발급 (결제 수단 등록 필요)
- 프로그램 실행 후 API 키 입력란에 입력

API 사용량 및 비용

OpenAI Whisper STT

오디오 1분당 약 $0.006 (매우 저렴)
10초 단위 처리 시 1시간 사용 ≈ $0.036

ChatGPT API

GPT-3.5-turbo: 입력 $0.0005/1K토큰, 출력 $0.0015/1K토큰
무료 사용량: Data Sharing 옵션 활성화 시 하루 250,000토큰 무료

무료 사용량 늘리기

OpenAI 플랫폼의 Data Controls > Sharing에서 "Share inputs and outputs with OpenAI" 옵션을 활성화하면:

하루 최대 250,000토큰 무료 사용 가능
개인정보가 포함되지 않은 일반적인 용도에 적합

스테레오 믹스 설정 가이드

스테레오 믹스는 컴퓨터의 스피커 출력을 마이크 입력으로 리디렉션하는 기능입니다.

스테레오 믹스 활성화 방법

소리 설정 열기
- 윈도우 작업 표시줄의 소리 아이콘을 우클릭합니다.
- "소리" 또는 "소리 설정 열기"를 선택합니다.
녹음 장치 표시
- "녹음" 탭을 클릭합니다.
- 기본적으로 스테레오 믹스가 표시되지 않을 수 있습니다.
- 빈 공간에서 우클릭하고 "비활성화된 장치 표시"를 선택합니다.
- 다시 우클릭하고 "연결되지 않은 장치 표시"도 선택합니다.
스테레오 믹스 활성화
- 이제 "스테레오 믹스" 또는 "Stereo Mix"가 목록에 표시되어야 합니다.
- 스테레오 믹스를 우클릭하고 "사용"을 선택합니다.
- 스테레오 믹스를 다시 우클릭하고 "기본 장치로 설정"을 선택합니다.

스테레오 믹스가 없는 경우

최신 컴퓨터나 노트북에서는 스테레오 믹스 옵션이 제공되지 않을 수 있습니다. 이 경우 다음과 같은 대안을 사용할 수 있습니다:

가상 오디오 케이블 설치
- VB-Cable (무료)
- Voicemeeter (무료, 고급 기능 제공)
VB-Cable 설정 방법
- VB-Cable을 다운로드하고 설치합니다.
- 윈도우 소리 설정에서 "재생" 탭으로 이동합니다.
- "CABLE Input"을 우클릭하고 "기본 장치로 설정"을 선택합니다.
- "녹음" 탭으로 이동합니다.
- "CABLE Output"을 우클릭하고 "사용"을 선택한 다음 "기본 장치로 설정"을 선택합니다.
- 이제 스피커로 출력되는 소리가 "CABLE Output"으로 캡처됩니다.

상세 실행 가이드

1. 프로그램 실행

터미널/명령 프롬프트에서 실행:

python stt_app.py

프로그램 창 확인:
- "STT 변환기" 창이 열리면 정상 실행된 것입니다
- 하단에 "사용 가능한 오디오 장치" 목록에서 스테레오 믹스가 표시되는지 확인

2. 프로그램 사용

API 키 입력:
- "OpenAI API 키" 입력란에 발급받은 API 키를 입력합니다
녹음 시작:
- "녹음 시작" 버튼 클릭
- 상태 표시가 "녹음 중..."으로 변경됨
테스트:
- 컴퓨터 스피커로 소리 재생 (예: YouTube 동영상, 오디오 파일)
- 재생되는 소리가 텍스트로 변환되어 화면에 표시됨
- 터미널에서 STT 변환 과정을 실시간으로 확인 가능
AI 응답 요청:
- "AI 응답 요청" 버튼을 클릭하면 ChatGPT가 마지막 100자를 분석하여 응답 생성
결과 저장:
- "텍스트 저장" 버튼 클릭하면 "transcript.txt" 파일로 저장됨
종료:
- "녹음 중지" 버튼 클릭 후 창 닫기

문제 해결

API 키 오류: OpenAI API 키가 올바른지 확인하고, 계정에 충분한 크레딧이 있는지 확인하세요.
스테레오 믹스가 여전히 표시되지 않는 경우: 사운드 카드 드라이버를 업데이트하거나 제조업체 웹사이트에서 최신 드라이버를 설치해보세요.
스테레오 믹스가 활성화되어 있지만 소리가 캡처되지 않는 경우: 볼륨 레벨을 확인하고 음소거되어 있지 않은지 확인하세요.
VB-Cable 설치 후 소리가 나오지 않는 경우: 일반적으로 "CABLE Input"으로 오디오를 출력하면 실제 스피커로는 소리가 나오지 않습니다. Voicemeeter를 사용하여 동시에 여러 출력으로 오디오를 라우팅할 수 있습니다.

주의사항

OpenAI API는 인터넷 연결이 필요합니다.
API 사용량에 따라 비용이 발생할 수 있습니다. 사용량을 모니터링하세요.
음성 인식 정확도는 발화자의 발음, 주변 소음, 오디오 품질에 따라 달라질 수 있습니다.
Data Sharing 옵션 활성화 시 OpenAI가 데이터를 모델 개선에 사용할 수 있습니다.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
README.md		README.md
requirements.txt		requirements.txt
stt_app.py		stt_app.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

STT(Speech-to-Text) 변환기

실행 예시

파이썬이 전역적으로 설정 안 되어 있을 경우 실행 예시

기능

설치 방법

API 사용량 및 비용

OpenAI Whisper STT

ChatGPT API

무료 사용량 늘리기

스테레오 믹스 설정 가이드

스테레오 믹스 활성화 방법

스테레오 믹스가 없는 경우

상세 실행 가이드

1. 프로그램 실행

2. 프로그램 사용

문제 해결

주의사항

About

Uh oh!

Releases

Packages

Uh oh!

Languages

bedcoding/python-stt-test

Folders and files

Latest commit

History

Repository files navigation

STT(Speech-to-Text) 변환기

실행 예시

파이썬이 전역적으로 설정 안 되어 있을 경우 실행 예시

기능

설치 방법

API 사용량 및 비용

OpenAI Whisper STT

ChatGPT API

무료 사용량 늘리기

스테레오 믹스 설정 가이드

스테레오 믹스 활성화 방법

스테레오 믹스가 없는 경우

상세 실행 가이드

1. 프로그램 실행

2. 프로그램 사용

문제 해결

주의사항

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages