Skip to content

kosuke-17/transcription-tool

Repository files navigation

会議文字起こしツール

ローカル環境で動作する会議文字起こし・議事録自動生成ツールです。プライバシーを保護しながら、高精度な日本語文字起こしとLLMによる議事録生成を実現します。

特徴

  • 完全ローカル実行: すべての処理がローカル環境で完結(外部送信なし)
  • 高速文字起こし: faster-whisperによる高速な音声認識
  • 自動要約生成: Ollama LLMによる文字起こし内容の要約作成
  • 日本語対応: 日本語に最適化されたモデルを使用

必要環境

システム要件

  • OS: macOS / Linux / Windows
  • CPU: Intel Core i5(第8世代以降)または同等
  • RAM: 8GB以上
  • ストレージ: 10GB以上(モデル含む)
  • Python: 3.10以上

必要なソフトウェア

  1. Python 3.10+
  2. uv (パッケージマネージャー)
  3. Ollama (ローカルLLM実行環境)

セットアップ

1. uvのインストール

# macOS / Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows (PowerShell)
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

2. Ollamaのインストール

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# https://ollama.com/download からインストーラーをダウンロード

3. Ollamaの起動とモデルダウンロード

# Ollamaサービスを起動
ollama serve

# 別のターミナルでモデルをダウンロード
ollama pull qwen2.5:7b

4. プロジェクトのセットアップ

# リポジトリをクローン(または展開)
cd transcription-tool

# 依存関係をインストール
uv sync

使い方

ツールの起動

uv run python main.py

メニュー

==================================================
 会議文字起こしツール
==================================================

  1. フルワークフロー(録音→文字起こし→要約)
  2. 既存音声ファイル処理
  3. 終了

1. フルワークフロー

  1. メニューで 1 を選択
  2. 会議タイトルを入力
  3. Enterキーを押して録音開始
  4. 再度Enterキーを押して録音停止
  5. 自動で文字起こし・要約生成が実行される

2. 既存音声ファイル処理

  1. メニューで 2 を選択
  2. 音声ファイルのパスを入力
  3. 会議タイトルを入力
  4. 自動で文字起こし・要約生成が実行される

対応音声形式

  • WAV
  • MP3
  • M4A
  • FLAC
  • OGG
  • MP4
  • WebM

出力ファイル

処理が完了すると、以下のファイルが生成されます:

data/
├── audio/
│   └── 20260125_143000_会議タイトル.wav    # 録音ファイル
└── transcripts/
    ├── 20260125_143000_会議タイトル.txt    # 文字起こし
    └── 20260125_143000_会議タイトル_summary.md  # 要約

文字起こしファイル(.txt)

  • タイムスタンプ付きセグメント
  • 全文テキスト

要約ファイル(.md)

  • 情報(日時、タイトル)
  • 概要(1段落)
  • 重要ポイント(箇条書き)

トラブルシューティング

マイクが認識されない

macOS:

  1. システム設定 → プライバシーとセキュリティ → マイク
  2. ターミナル(または使用しているアプリ)にマイクへのアクセスを許可

Linux:

# PulseAudioの場合
pactl list sources

Windows:

  1. 設定 → プライバシー → マイク
  2. アプリがマイクにアクセスできるようにする

Ollamaに接続できない

# Ollamaが起動しているか確認
ollama list

# 起動していない場合
ollama serve

モデルが見つからない

# 利用可能なモデルを確認
ollama list

# モデルをダウンロード
ollama pull qwen2.5:7b

メモリ不足

  • Whisperモデルを small に変更(コード内で変更)
  • Ollamaモデルを qwen2.5:3b などの軽量版に変更

文字起こしが遅い

  • 初回実行時はモデルのダウンロードに時間がかかります
  • 30分の音声で約15分程度かかる場合があります
  • GPUがある場合は、faster-whisperのGPU版を使用すると高速化できます

設定のカスタマイズ

Whisperモデルの変更

app/transcriber.pyDEFAULT_MODEL を変更:

DEFAULT_MODEL = "medium"  # small, medium, large-v3 など

Ollamaモデルの変更

app/summary_generator.pyDEFAULT_MODEL を変更:

DEFAULT_MODEL = "qwen2.5:7b"  # llama3.1:8b など

ライセンス

MIT License

参考リンク

About

ローカルで録音と文字起こしと要約をするツール

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages