refactor: separate audio playback from TTS providers

zitongcharliedeng · zitongcharliedeng · commit c4b690499fe8 · 2025-12-09T18:16:40.000Z
- Add audio.ts with typed OperatingSystem union and switch cases
- Providers now use shared playAudio() instead of handling OS specifics
- ElevenLabs: use getters for env vars (fixes timing issue)
- Piper: remove duplicated playAudio, IS_WSL boolean, PowerShell code
diff --git a/.claude/voice-server/audio.ts b/.claude/voice-server/audio.ts
@@ -0,0 +1,44 @@
+import { spawn } from 'child_process';
+import { platform, release } from 'os';
+
+export type OperatingSystem = 'macos' | 'wsl' | 'linux';
+
+function detectOS(): OperatingSystem {
+  const p = platform();
+  if (p === 'darwin') return 'macos';
+  if (p === 'linux') {
+    return release().toLowerCase().includes('microsoft') ? 'wsl' : 'linux';
+  }
+  throw new Error(`Unsupported platform: ${p}`);
+}
+
+export const OS: OperatingSystem = detectOS();
+
+export async function playAudio(audio: Buffer, format: 'mp3' | 'wav'): Promise<void> {
+  const tempFile = `/tmp/voice-${Date.now()}.${format}`;
+  await Bun.write(tempFile, audio);
+
+  const player = getAudioPlayer(tempFile);
+
+  return new Promise((resolve, reject) => {
+    const proc = spawn(player.cmd, player.args);
+    proc.on('error', reject);
+    proc.on('exit', (code) => {
+      spawn('/bin/rm', ['-f', tempFile]);
+      code === 0 ? resolve() : reject(new Error(`${player.cmd} exited ${code}`));
+    });
+  });
+}
+
+function getAudioPlayer(file: string): { cmd: string; args: string[] } {
+  switch (OS) {
+    case 'macos':
+      return { cmd: '/usr/bin/afplay', args: [file] };
+    case 'wsl':
+    case 'linux':
+      return { cmd: 'paplay', args: [file] };
+    default:
+      const _exhaustive: never = OS;
+      throw new Error(`Unhandled OS: ${_exhaustive}`);
+  }
+}
diff --git a/.claude/voice-server/providers/ElevenLabs.ts b/.claude/voice-server/providers/ElevenLabs.ts
@@ -1,35 +1,35 @@
-import { spawn } from 'child_process';
-import type { TTSProvider } from './index';
-
-const ELEVENLABS_API_KEY = process.env.ELEVENLABS_API_KEY;
-const DEFAULT_VOICE_ID = process.env.ELEVENLABS_VOICE_ID || 's3TPKV1kjDlVtZbl4Ksh';
-const DEFAULT_MODEL = process.env.ELEVENLABS_MODEL || 'eleven_multilingual_v2';
+import type { TTSProvider } from '.';
+import { playAudio } from '../audio';
 
 export class ElevenLabs implements TTSProvider {
   readonly name = 'elevenlabs';
 
+  private get apiKey() { return process.env.ELEVENLABS_API_KEY; }
+  private get voiceId() { return process.env.ELEVENLABS_VOICE_ID || 's3TPKV1kjDlVtZbl4Ksh'; }
+  private get model() { return process.env.ELEVENLABS_MODEL || 'eleven_multilingual_v2'; }
+
   isAvailable(): boolean {
-    return !!ELEVENLABS_API_KEY;
+    return !!this.apiKey;
   }
 
   async speak(text: string, voiceId?: string): Promise<void> {
-    if (!ELEVENLABS_API_KEY) {
+    if (!this.apiKey) {
       throw new Error('ElevenLabs API key not configured');
     }
 
-    const voice = voiceId || DEFAULT_VOICE_ID;
+    const voice = voiceId || this.voiceId;
     const url = `https://api.elevenlabs.io/v1/text-to-speech/${voice}`;
 
     const response = await fetch(url, {
       method: 'POST',
       headers: {
         'Accept': 'audio/mpeg',
         'Content-Type': 'application/json',
-        'xi-api-key': ELEVENLABS_API_KEY,
+        'xi-api-key': this.apiKey,
       },
       body: JSON.stringify({
-        text: text,
-        model_id: DEFAULT_MODEL,
+        text,
+        model_id: this.model,
         voice_settings: {
           stability: 0.5,
           similarity_boost: 0.5,
@@ -40,26 +40,12 @@ export class ElevenLabs implements TTSProvider {
     if (!response.ok) {
       const errorText = await response.text();
       if (errorText.includes('model') || response.status === 422) {
-        throw new Error(`ElevenLabs API error: Invalid model "${DEFAULT_MODEL}". Update ELEVENLABS_MODEL in ~/.env. See https://elevenlabs.io/docs/models`);
+        throw new Error(`ElevenLabs API error: Invalid model "${this.model}". Update ELEVENLABS_MODEL in ~/.env`);
       }
       throw new Error(`ElevenLabs API error: ${response.status} - ${errorText}`);
     }
 
     const audioBuffer = await response.arrayBuffer();
-    const tempFile = `/tmp/voice-${Date.now()}.mp3`;
-    await Bun.write(tempFile, audioBuffer);
-
-    return new Promise((resolve, reject) => {
-      const proc = spawn('/usr/bin/afplay', [tempFile]);
-      proc.on('error', (error) => {
-        console.error('Error playing audio:', error);
-        reject(error);
-      });
-      proc.on('exit', (code) => {
-        spawn('/bin/rm', [tempFile]);
-        if (code === 0) resolve();
-        else reject(new Error(`afplay exited with code ${code}`));
-      });
-    });
+    await playAudio(Buffer.from(audioBuffer), 'mp3');
   }
 }
diff --git a/.claude/voice-server/providers/Piper.ts b/.claude/voice-server/providers/Piper.ts
@@ -1,10 +1,8 @@
-import { spawn, spawnSync } from 'child_process';
+import { spawnSync } from 'child_process';
 import { existsSync, readFileSync } from 'fs';
 import { join } from 'path';
-import { platform, release } from 'os';
-import type { TTSProvider } from './index';
-
-const IS_WSL = platform() === 'linux' && release().toLowerCase().includes('microsoft');
+import type { TTSProvider } from '.';
+import { playAudio } from '../audio';
 
 interface VoiceConfig {
   model: string;
@@ -55,7 +53,7 @@ export class Piper implements TTSProvider {
     if (result.status !== 0) throw new Error(`Piper failed: ${result.stderr?.toString()}`);
 
     const wavBuffer = this.pcmToWav(result.stdout);
-    await this.playAudio(wavBuffer);
+    await playAudio(wavBuffer, 'wav');
   }
 
   private pcmToWav(pcm: Buffer): Buffer {
@@ -75,34 +73,4 @@ export class Piper implements TTSProvider {
     header.writeUInt32LE(pcm.length, 40);
     return Buffer.concat([header, pcm]);
   }
-
-  private async playAudio(wav: Buffer): Promise<void> {
-    const tempFile = `/tmp/voice-${Date.now()}.wav`;
-    await Bun.write(tempFile, wav);
-
-    if (IS_WSL) {
-      const winPath = `C:\\Users\\Public\\piper_${Date.now()}.wav`;
-      const wslPath = `/mnt/c/Users/Public/piper_${Date.now()}.wav`;
-      await Bun.write(wslPath, wav);
-
-      return new Promise((resolve, reject) => {
-        const proc = spawn('powershell.exe', ['-NoProfile', '-Command',
-          `(New-Object Media.SoundPlayer '${winPath}').PlaySync(); Remove-Item '${winPath}'`]);
-        proc.on('error', reject);
-        proc.on('exit', (code) => {
-          spawn('/bin/rm', ['-f', tempFile]);
-          code === 0 ? resolve() : reject(new Error(`powershell exited ${code}`));
-        });
-      });
-    }
-
-    return new Promise((resolve, reject) => {
-      const proc = spawn('aplay', ['-q', tempFile]);
-      proc.on('error', reject);
-      proc.on('exit', (code) => {
-        spawn('/bin/rm', ['-f', tempFile]);
-        code === 0 ? resolve() : reject(new Error(`aplay exited ${code}`));
-      });
-    });
-  }
 }