会議文字起こしツール

ローカル環境で動作する会議文字起こし・議事録自動生成ツールです。プライバシーを保護しながら、高精度な日本語文字起こしとLLMによる議事録生成を実現します。

特徴

完全ローカル実行: すべての処理がローカル環境で完結（外部送信なし）
高速文字起こし: faster-whisperによる高速な音声認識
自動要約生成: Ollama LLMによる文字起こし内容の要約作成
日本語対応: 日本語に最適化されたモデルを使用

必要環境

システム要件

OS: macOS / Linux / Windows
CPU: Intel Core i5（第8世代以降）または同等
RAM: 8GB以上
ストレージ: 10GB以上（モデル含む）
Python: 3.10以上

必要なソフトウェア

Python 3.10+
uv (パッケージマネージャー)
Ollama (ローカルLLM実行環境)

セットアップ

1. uvのインストール

# macOS / Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows (PowerShell)
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

2. Ollamaのインストール

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# https://ollama.com/download からインストーラーをダウンロード

3. Ollamaの起動とモデルダウンロード

# Ollamaサービスを起動
ollama serve

# 別のターミナルでモデルをダウンロード
ollama pull qwen2.5:7b

4. プロジェクトのセットアップ

# リポジトリをクローン（または展開）
cd transcription-tool

# 依存関係をインストール
uv sync

使い方

ツールの起動

uv run python main.py

メニュー

==================================================
 会議文字起こしツール
==================================================

  1. フルワークフロー（録音→文字起こし→要約）
  2. 既存音声ファイル処理
  3. 終了

1. フルワークフロー

メニューで 1 を選択
会議タイトルを入力
Enterキーを押して録音開始
再度Enterキーを押して録音停止
自動で文字起こし・要約生成が実行される

2. 既存音声ファイル処理

メニューで 2 を選択
音声ファイルのパスを入力
会議タイトルを入力
自動で文字起こし・要約生成が実行される

対応音声形式

WAV
MP3
M4A
FLAC
OGG
MP4
WebM

出力ファイル

処理が完了すると、以下のファイルが生成されます：

data/
├── audio/
│   └── 20260125_143000_会議タイトル.wav    # 録音ファイル
└── transcripts/
    ├── 20260125_143000_会議タイトル.txt    # 文字起こし
    └── 20260125_143000_会議タイトル_summary.md  # 要約

文字起こしファイル（.txt）

タイムスタンプ付きセグメント
全文テキスト

要約ファイル（.md）

情報（日時、タイトル）
概要（1段落）
重要ポイント（箇条書き）

トラブルシューティング

マイクが認識されない

macOS:

システム設定 → プライバシーとセキュリティ → マイク
ターミナル（または使用しているアプリ）にマイクへのアクセスを許可

Linux:

# PulseAudioの場合
pactl list sources

Windows:

設定 → プライバシー → マイク
アプリがマイクにアクセスできるようにする

Ollamaに接続できない

# Ollamaが起動しているか確認
ollama list

# 起動していない場合
ollama serve

モデルが見つからない

# 利用可能なモデルを確認
ollama list

# モデルをダウンロード
ollama pull qwen2.5:7b

メモリ不足

Whisperモデルを small に変更（コード内で変更）
Ollamaモデルを qwen2.5:3b などの軽量版に変更

文字起こしが遅い

初回実行時はモデルのダウンロードに時間がかかります
30分の音声で約15分程度かかる場合があります
GPUがある場合は、faster-whisperのGPU版を使用すると高速化できます

設定のカスタマイズ

Whisperモデルの変更

app/transcriber.py の DEFAULT_MODEL を変更：

DEFAULT_MODEL = "medium"  # small, medium, large-v3 など

Ollamaモデルの変更

app/summary_generator.py の DEFAULT_MODEL を変更：

DEFAULT_MODEL = "qwen2.5:7b"  # llama3.1:8b など

ライセンス

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.cursor/skills		.cursor/skills
app		app
config		config
.gitignore		.gitignore
README.architecture.md		README.architecture.md
README.md		README.md
coding_principals.md		coding_principals.md
main.py		main.py
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Folders and files

Latest commit

History

Repository files navigation

会議文字起こしツール

特徴

必要環境

システム要件

必要なソフトウェア

セットアップ

1. uvのインストール

2. Ollamaのインストール

3. Ollamaの起動とモデルダウンロード

4. プロジェクトのセットアップ

使い方

ツールの起動

メニュー

1. フルワークフロー

2. 既存音声ファイル処理

対応音声形式

出力ファイル

文字起こしファイル（.txt）

要約ファイル（.md）

トラブルシューティング

マイクが認識されない

Ollamaに接続できない

モデルが見つからない

メモリ不足

文字起こしが遅い

設定のカスタマイズ

Whisperモデルの変更

Ollamaモデルの変更

ライセンス

参考リンク

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages