docs: Update upstream investigation report with piper-plus status

ayutaz · claude · ayutaz · commit cf8c5c1359d9 · 2025-07-19T14:58:57.000+09:00
- Added current implementation status of piper-plus - Noted that Japanese phoneme issues (#787) are already resolved - Listed existing PRs (#96-#100) for TTS improvements - Updated priorities based on what's already implemented - Focused recommendations on features not yet in piper-plus: * Raw Phoneme Input (PR #742) * IPA phonemes support (PR #401) * GPU device designation (PR #429) * Silence randomness control (Issue #817) 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>
diff --git a/docs/upstream-investigation-20250719.md b/docs/upstream-investigation-20250719.md
@@ -3,17 +3,41 @@
 ## 概要
 このドキュメントは、[rhasspy/piper](https://github.com/rhasspy/piper)のオリジナルリポジトリのIssueとPull Requestを調査し、piper-plus（日本語対応フォーク）で取り組むべき内容をまとめたものです。
 
+## piper-plusの現在の実装状況
+
+### 既に実装済みの機能
+1. **日本語音声合成の完全対応**
+   - OpenJTalk統合による日本語前処理
+   - 58音素体系（無声化母音を含む）の実装
+   - PUA（Private Use Area）マッピングによる複数文字音素の処理
+   - 自動辞書ダウンロード機能
+
+2. **プラットフォーム対応**
+   - Windows、macOS（Apple Silicon）、Linux（x86_64, ARM64）対応
+   - GitHub Actionsによる自動ビルド
+
+3. **改善済みの機能**
+   - 前処理済み.ptファイルの破損時の自動スキップ
+   - DataLoaderのGPU転送最適化（pin_memory=True）
+   - タイムアウト機能の追加
+   - PyPIパッケージ公開（piper-tts-plus）
+
+4. **現在進行中のPR**
+   - PR #100: v3実装 - 最先端TTS機能の統合
+   - PR #99: v2精度向上機能（MOS +0.15-0.29）
+   - PR #98: v1精度向上のための実装済みコンポーネント
+   - PR #96: マルチ言語モデルの実装
+
 ## 重要なIssue
 
-### 日本語関連の直接的な課題
+### 日本語関連の課題（piper-plusでは解決済み）
 
 #### 1. Issue #787: Missing phonemes in Japanese
 - **問題内容**: 日本語の音素が不足している
-- **影響**: 日本語TTS品質に直接影響
-- **提案された解決策**:
-  - espeak-ngコマンドラインを使用したテキスト変換
-  - piper_phonemize用の日本語辞書の再コンパイル
-- **優先度**: **高** - piper-plusの主要目的に直結
+- **piper-plusでの対応状況**: ✅ **解決済み**
+  - OpenJTalk統合により完全な日本語音素対応を実現
+  - 58音素体系（無声化母音含む）を実装
+  - PUAマッピングで複数文字音素も適切に処理
 
 ### その他の言語サポート関連
 
@@ -86,47 +110,78 @@
 - **内容**: WindowsでのOpenJTalk互換性改善
 - **利点**: 日本語TTS実装に直接関連
 
-## 推奨実装優先順位
+## piper-plusで取り込むべき機能の優先順位
+
+### 優先度：高（オリジナルから取り込むべき機能）
+1. **PR #742: Raw Phoneme Input**
+   - 理由: 日本語の精密な音素制御に有用
+   - 既存の58音素体系と組み合わせることで更なる柔軟性を提供
 
-### 優先度：高
-1. **Issue #787の解決**: 日本語音素の完全実装
-2. **PR #742の実装**: 生の音素入力サポート
-3. **PR #401の実装**: IPA音素記法サポート
+2. **PR #401: IPA phonemes in text**
+   - 理由: 国際音声記号のサポートで多言語対応を強化
+   - PR #96のマルチ言語モデル実装と相乗効果
+
+3. **PR #728: Speaker_id and synthesis parameters in HTTP** (マージ済み)
+   - 理由: 音声カスタマイズの柔軟性向上
+   - APIとしての利用価値向上
 
 ### 優先度：中
-1. **省略記号・句読点処理の改善** (Issue #839関連)
-2. **無音制御の改善** (Issue #817関連)
-3. **GPU最適化** (PR #429, #512)
-4. **アライメント出力** (PR #407)
+1. **PR #429: GPU device_id designation**
+   - 理由: マルチGPU環境での性能向上
+   - 大規模な音声合成タスクに有用
+
+2. **PR #685: SSML break tags** (マージ済み)
+   - 理由: より自然な発話制御
+   - 日本語の句読点処理と組み合わせて品質向上
+
+3. **Issue #817: Silence randomness**
+   - 理由: より自然な発話リズムの実現
+   - 日本語の間（ま）の表現に有効
 
 ### 優先度：低
-1. 他の東アジア言語との共通処理の調査
-2. 追加の出力フォーマットサポート
+1. **PR #512: AMD GPU acceleration**
+   - 理由: より多くのハードウェアサポート
+   - ただし、優先度は使用環境に依存
+
+2. **PR #407: TSV alignment output**
+   - 理由: 音声と文字の同期分析
+   - 研究・開発用途には有用
 
 ## 実装戦略
 
-### フェーズ1: 基本的な日本語サポートの完全化
-- 不足している音素の特定と実装
-- OpenJTalkとの統合強化
-- 基本的なテスト環境の構築
+### フェーズ1: オリジナルの有用機能の取り込み
+- **PR #742**: Raw Phoneme Inputの実装
+  - 日本語の精密な制御に活用
+  - 既存の58音素体系との統合
+- **PR #401**: IPA音素記法サポートの追加
+  - マルチ言語対応の強化
+  - 国際標準への準拠
+
+### フェーズ2: パフォーマンスと品質の向上
+- **PR #429**: GPU device_id指定機能
+  - 大規模処理の効率化
+- **Issue #817**: 無音のランダム性制御
+  - 日本語の「間」の表現力向上
+- マージ済み機能の活用（Speaker_id、SSML break tags）
+
+### フェーズ3: 研究・開発向け機能
+- **PR #407**: TSVアライメント出力
+  - 音声研究用途
+- **PR #512**: AMD GPU対応（環境依存）
 
-### フェーズ2: 音素制御の高度化
-- IPA音素記法のサポート
-- 生の音素入力機能
-- カスタム辞書のサポート
+## まとめ
 
-### フェーズ3: パフォーマンスと品質の向上
-- GPU最適化の実装
-- 句読点・無音処理の改善
-- 音声品質の評価と改善
+piper-plusは既に日本語TTSの主要な課題を解決していますが、オリジナルリポジトリから以下の機能を取り込むことで、さらなる価値を提供できます：
 
-## まとめ
+1. **音素制御の柔軟性向上**: Raw Phoneme InputとIPA記法のサポート
+2. **パフォーマンス最適化**: GPU制御の改善
+3. **自然性の向上**: 無音制御、SSMLサポートの活用
+4. **多言語対応の強化**: PR #96と連携した国際標準への準拠
 
-piper-plusは日本語TTSに特化したフォークとして、以下の点に注力すべきです：
+これらの実装により、piper-plusは日本語に特化しつつも、国際的な標準に準拠した高品質なTTSシステムとして発展できるでしょう。
 
-1. **音素システムの完全性**: Issue #787で指摘されている音素不足の解決
-2. **柔軟な音素入力**: PR #742, #401の機能を取り入れた高度な音素制御
-3. **日本語特有の処理**: 句読点、長音、促音などの適切な処理
-4. **既存の改善の取り込み**: オリジナルリポジトリの有用な改善を選択的に統合
+## 注意事項
 
-これらの実装により、piper-plusは高品質な日本語TTSシステムとして、オリジナルのPiperを補完する重要な役割を果たすことができるでしょう。
+- Issue #787（日本語音素不足）は既に解決済み
+- Windows OpenJTalk対応も実装済み
+- 現在進行中のPR（#96-#100）との整合性を考慮して実装を進める必要がある