Skip to content

bedcoding/python-stt-test

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 

Repository files navigation

STT(Speech-to-Text) 변환기

이 애플리케이션은 Windows 환경에서 스피커 출력을 캡처하여 텍스트로 변환하고, ChatGPT를 통해 응답을 생성해주는 프로그램입니다.

실행 예시

python stt_app.py

파이썬이 전역적으로 설정 안 되어 있을 경우 실행 예시

~/AppData/Local/Programs/Python/Python313/python.exe stt_app.py

기능

  • 스피커 출력(오디오 루프백) 실시간 캡처
  • 음성을 텍스트로 변환 (OpenAI Whisper API 사용)
  • ChatGPT를 통한 자동 응답 생성
  • 마지막 100자 텍스트 히스토리 표시
  • 변환된 텍스트 저장 기능
  • 사용 가능한 오디오 장치 목록 표시

설치 방법

  1. 필요한 패키지 설치:
pip install -r requirements.txt
  1. OpenAI API 키 발급:
    • OpenAI 플랫폼에서 계정 생성
    • API 키 발급 (결제 수단 등록 필요)
    • 프로그램 실행 후 API 키 입력란에 입력

API 사용량 및 비용

OpenAI Whisper STT

  • 오디오 1분당 약 $0.006 (매우 저렴)
  • 10초 단위 처리 시 1시간 사용 ≈ $0.036

ChatGPT API

  • GPT-3.5-turbo: 입력 $0.0005/1K토큰, 출력 $0.0015/1K토큰
  • 무료 사용량: Data Sharing 옵션 활성화 시 하루 250,000토큰 무료

무료 사용량 늘리기

OpenAI 플랫폼의 Data Controls > Sharing에서 "Share inputs and outputs with OpenAI" 옵션을 활성화하면:

  • 하루 최대 250,000토큰 무료 사용 가능
  • 개인정보가 포함되지 않은 일반적인 용도에 적합

스테레오 믹스 설정 가이드

스테레오 믹스는 컴퓨터의 스피커 출력을 마이크 입력으로 리디렉션하는 기능입니다.

스테레오 믹스 활성화 방법

  1. 소리 설정 열기

    • 윈도우 작업 표시줄의 소리 아이콘을 우클릭합니다.
    • "소리" 또는 "소리 설정 열기"를 선택합니다.
  2. 녹음 장치 표시

    • "녹음" 탭을 클릭합니다.
    • 기본적으로 스테레오 믹스가 표시되지 않을 수 있습니다.
    • 빈 공간에서 우클릭하고 "비활성화된 장치 표시"를 선택합니다.
    • 다시 우클릭하고 "연결되지 않은 장치 표시"도 선택합니다.
  3. 스테레오 믹스 활성화

    • 이제 "스테레오 믹스" 또는 "Stereo Mix"가 목록에 표시되어야 합니다.
    • 스테레오 믹스를 우클릭하고 "사용"을 선택합니다.
    • 스테레오 믹스를 다시 우클릭하고 "기본 장치로 설정"을 선택합니다.

스테레오 믹스가 없는 경우

최신 컴퓨터나 노트북에서는 스테레오 믹스 옵션이 제공되지 않을 수 있습니다. 이 경우 다음과 같은 대안을 사용할 수 있습니다:

  1. 가상 오디오 케이블 설치

  2. VB-Cable 설정 방법

    • VB-Cable을 다운로드하고 설치합니다.
    • 윈도우 소리 설정에서 "재생" 탭으로 이동합니다.
    • "CABLE Input"을 우클릭하고 "기본 장치로 설정"을 선택합니다.
    • "녹음" 탭으로 이동합니다.
    • "CABLE Output"을 우클릭하고 "사용"을 선택한 다음 "기본 장치로 설정"을 선택합니다.
    • 이제 스피커로 출력되는 소리가 "CABLE Output"으로 캡처됩니다.

상세 실행 가이드

1. 프로그램 실행

  1. 터미널/명령 프롬프트에서 실행:
python stt_app.py
  1. 프로그램 창 확인:
    • "STT 변환기" 창이 열리면 정상 실행된 것입니다
    • 하단에 "사용 가능한 오디오 장치" 목록에서 스테레오 믹스가 표시되는지 확인

2. 프로그램 사용

  1. API 키 입력:

    • "OpenAI API 키" 입력란에 발급받은 API 키를 입력합니다
  2. 녹음 시작:

    • "녹음 시작" 버튼 클릭
    • 상태 표시가 "녹음 중..."으로 변경됨
  3. 테스트:

    • 컴퓨터 스피커로 소리 재생 (예: YouTube 동영상, 오디오 파일)
    • 재생되는 소리가 텍스트로 변환되어 화면에 표시됨
    • 터미널에서 STT 변환 과정을 실시간으로 확인 가능
  4. AI 응답 요청:

    • "AI 응답 요청" 버튼을 클릭하면 ChatGPT가 마지막 100자를 분석하여 응답 생성
  5. 결과 저장:

    • "텍스트 저장" 버튼 클릭하면 "transcript.txt" 파일로 저장됨
  6. 종료:

    • "녹음 중지" 버튼 클릭 후 창 닫기

문제 해결

  • API 키 오류: OpenAI API 키가 올바른지 확인하고, 계정에 충분한 크레딧이 있는지 확인하세요.
  • 스테레오 믹스가 여전히 표시되지 않는 경우: 사운드 카드 드라이버를 업데이트하거나 제조업체 웹사이트에서 최신 드라이버를 설치해보세요.
  • 스테레오 믹스가 활성화되어 있지만 소리가 캡처되지 않는 경우: 볼륨 레벨을 확인하고 음소거되어 있지 않은지 확인하세요.
  • VB-Cable 설치 후 소리가 나오지 않는 경우: 일반적으로 "CABLE Input"으로 오디오를 출력하면 실제 스피커로는 소리가 나오지 않습니다. Voicemeeter를 사용하여 동시에 여러 출력으로 오디오를 라우팅할 수 있습니다.

주의사항

  • OpenAI API는 인터넷 연결이 필요합니다.
  • API 사용량에 따라 비용이 발생할 수 있습니다. 사용량을 모니터링하세요.
  • 음성 인식 정확도는 발화자의 발음, 주변 소음, 오디오 품질에 따라 달라질 수 있습니다.
  • Data Sharing 옵션 활성화 시 OpenAI가 데이터를 모델 개선에 사용할 수 있습니다.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages