feat: support elevenlabs tts

L-jasmine · L-jasmine · commit 37a83e5b26e8 · 2025-10-16T20:48:32.000+08:00
diff --git a/src/ai/elevenlabs/mod.rs b/src/ai/elevenlabs/mod.rs
@@ -0,0 +1 @@
+pub mod tts;
diff --git a/src/ai/elevenlabs/tts.rs b/src/ai/elevenlabs/tts.rs
@@ -0,0 +1,232 @@
+use std::fmt::Display;
+
+use base64::prelude::*;
+use futures_util::{SinkExt, StreamExt};
+use reqwest_websocket::{RequestBuilderExt, WebSocket};
+
+#[derive(Debug, serde::Deserialize)]
+pub struct Alignment {
+    pub chars: Vec<String>,
+}
+
+#[derive(Debug, serde::Deserialize)]
+pub struct Response {
+    #[serde(default)]
+    pub alignment: Option<Alignment>,
+    #[serde(default)]
+    pub audio: Option<String>,
+    #[serde(default, rename = "isFinal")]
+    pub is_final: Option<bool>,
+    #[serde(default)]
+    pub error: String,
+    #[serde(default)]
+    pub message: String,
+}
+
+impl Response {
+    pub fn is_error(&self) -> bool {
+        !self.error.is_empty()
+    }
+
+    pub fn get_audio_bytes(&self) -> Option<Vec<u8>> {
+        let _ = self.alignment.as_ref()?;
+        self.audio
+            .as_ref()
+            .and_then(|audio_base64| BASE64_STANDARD.decode(audio_base64).ok())
+    }
+
+    pub fn is_final(&self) -> bool {
+        self.is_final.unwrap_or(false)
+    }
+}
+
+#[test]
+fn test_response_deserialize() {
+    let json_data = r#"
+    {
+        "alignment": null,
+        "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEAQB8AAIA+AAACABAAZGF0YRAAAAAA",
+        "isFinal": null
+    }
+    "#;
+
+    let response: Response = serde_json::from_str(json_data).unwrap();
+    println!("{:?}", response);
+    assert!(!response.is_error());
+    assert!(!response.is_final());
+    assert!(response.get_audio_bytes().is_none());
+
+    let json_data_with_audio = r#"
+    {
+        "alignment": {},
+        "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEAQB8AAIA+AAACABAAZGF0YRAAAAAA",
+        "isFinal": true
+    }
+    "#;
+
+    let response_with_audio: Response = serde_json::from_str(json_data_with_audio).unwrap();
+    println!("{:?}", response_with_audio);
+    assert!(!response_with_audio.is_error());
+    assert!(response_with_audio.is_final());
+    assert!(response_with_audio.get_audio_bytes().is_some());
+}
+
+pub struct ElevenlabsTTS {
+    pub token: String,
+    pub voice: String,
+    websocket: WebSocket,
+}
+
+const MODEL_ID: &str = "eleven_flash_v2_5";
+
+pub enum OutputFormat {
+    Pcm16000,
+    Pcm24000,
+}
+
+impl Display for OutputFormat {
+    fn fmt(&self, f: &mut std::fmt::Formatter<'_>) -> std::fmt::Result {
+        match self {
+            OutputFormat::Pcm16000 => write!(f, "pcm_16000"),
+            OutputFormat::Pcm24000 => write!(f, "pcm_24000"),
+        }
+    }
+}
+
+impl ElevenlabsTTS {
+    pub async fn new(
+        token: String,
+        voice: String,
+        output_format: OutputFormat,
+    ) -> anyhow::Result<Self> {
+        let url = format!(
+            "wss://api.elevenlabs.io/v1/text-to-speech/{voice}/stream-input?model_id={MODEL_ID}&output_format={output_format}",
+        );
+
+        let client = reqwest::Client::new();
+
+        let response = client
+            .get(url)
+            .header("xi-api-key", &token)
+            .upgrade()
+            .send()
+            .await?;
+
+        let websocket = response.into_websocket().await?;
+
+        Ok(Self {
+            token,
+            voice,
+            websocket,
+        })
+    }
+
+    pub async fn initialize_connection(&mut self) -> anyhow::Result<()> {
+        let init_message = serde_json::json!({
+            "text": " ",
+        });
+
+        let message_json = serde_json::to_string(&init_message)?;
+        self.websocket
+            .send(reqwest_websocket::Message::Text(message_json))
+            .await?;
+
+        Ok(())
+    }
+
+    pub async fn send_text(&mut self, text: &str, flush: bool) -> anyhow::Result<()> {
+        let text_message = serde_json::json!({
+            "text": text,
+            "flush": flush,
+        });
+
+        let message_json = serde_json::to_string(&text_message)?;
+        self.websocket
+            .send(reqwest_websocket::Message::Text(message_json))
+            .await?;
+
+        Ok(())
+    }
+
+    pub async fn close_connection(&mut self) -> anyhow::Result<()> {
+        let close_message = serde_json::json!({
+            "text": "",
+        });
+        self.websocket
+            .send(reqwest_websocket::Message::Text(close_message.to_string()))
+            .await?;
+        Ok(())
+    }
+
+    pub async fn next_audio_response(&mut self) -> anyhow::Result<Option<Response>> {
+        while let Some(message) = self.websocket.next().await {
+            match message.map_err(|e| anyhow::anyhow!("Elevenlabs TTS WebSocket error: {}", e))? {
+                reqwest_websocket::Message::Text(text) => {
+                    let response: Response = serde_json::from_str(&text).map_err(|e| {
+                        anyhow::anyhow!(
+                            "Failed to parse Elevenlabs TTS response: {}, error: {}",
+                            text,
+                            e
+                        )
+                    })?;
+
+                    if response.is_error() {
+                        return Err(anyhow::anyhow!(
+                            "Elevenlabs TTS error: {}",
+                            response.message
+                        ));
+                    }
+
+                    if response.alignment.is_some() && response.audio.is_some() {
+                        log::trace!(
+                            "Elevenlabs TTS audio chunk received, size: {}",
+                            response.audio.as_ref().unwrap().len()
+                        );
+                        return Ok(Some(response));
+                    }
+
+                    if response.is_final() {
+                        log::trace!("TTS stream ended");
+                        return Ok(None);
+                    }
+                }
+                reqwest_websocket::Message::Binary(_) => {}
+                msg => {
+                    if cfg!(debug_assertions) {
+                        log::debug!("Received non-text message: {:?}", msg);
+                    }
+                }
+            }
+        }
+        Ok(None)
+    }
+}
+
+#[tokio::test]
+async fn test_elevenlabs_tts() {
+    env_logger::init();
+    let token = std::env::var("ELEVENLABS_API_KEY").unwrap();
+    let voice = std::env::var("ELEVENLABS_VOICE_ID").unwrap();
+
+    let mut tts = ElevenlabsTTS::new(token, voice, OutputFormat::Pcm16000)
+        .await
+        .expect("Failed to create ElevenlabsTTS");
+
+    tts.send_text("Hello, this is a test of Elevenlabs TTS.", true)
+        .await
+        .expect("Failed to send text");
+
+    tts.close_connection()
+        .await
+        .expect("Failed to close connection");
+
+    while let Ok(Some(resp)) = tts.next_audio_response().await {
+        if let Some(audio) = resp.get_audio_bytes() {
+            println!("Received audio chunk of size: {}", audio.len());
+        }
+    }
+
+    tts.close_connection()
+        .await
+        .expect("Failed to close connection");
+}
diff --git a/src/ai/mod.rs b/src/ai/mod.rs
@@ -10,6 +10,7 @@ use rmcp::{
 
 /// 阿里百炼
 pub mod bailian;
+pub mod elevenlabs;
 pub mod gemini;
 pub mod openai;
 pub mod store;
diff --git a/src/config.rs b/src/config.rs
@@ -91,6 +91,12 @@ pub struct CosyVoiceTTS {
     pub version: CosyVoiceVersion,
 }
 
+#[derive(Debug, Clone, serde::Serialize, serde::Deserialize)]
+pub struct ElevenlabsTTS {
+    pub token: String,
+    pub voice: String,
+}
+
 #[derive(Debug, Clone, serde::Serialize, serde::Deserialize)]
 #[serde(tag = "platform")]
 pub enum TTSConfig {
@@ -99,6 +105,7 @@ pub enum TTSConfig {
     Groq(GroqTTS),
     StreamGSV(StreamGSV),
     CosyVoice(CosyVoiceTTS),
+    Elevenlabs(ElevenlabsTTS),
 }
 
 #[derive(Debug, Clone, serde::Serialize, serde::Deserialize)]
diff --git a/src/services/realtime_ws.rs b/src/services/realtime_ws.rs
@@ -15,6 +15,7 @@ use uuid::Uuid;
 use crate::{
     ai::{
         bailian::cosyvoice,
+        elevenlabs,
         openai::realtime::*,
         vad::{VadRealtimeClient, VadRealtimeEvent},
         ChatSession,
@@ -133,6 +134,7 @@ async fn handle_socket(config: Arc<StableRealtimeConfig>, socket: WebSocket) {
         TTSConfig::CosyVoice(cosyvoice) => {
             cosyvoice.speaker.clone().unwrap_or("default".to_string())
         }
+        TTSConfig::Elevenlabs(elevenlabs_tts) => elevenlabs_tts.voice.clone(),
     };
 
     session.config.turn_detection = Some(turn_detection.clone());
@@ -1225,5 +1227,40 @@ async fn tts_and_send(
             }
             Ok(())
         }
+        crate::config::TTSConfig::Elevenlabs(elevenlabs_tts) => {
+            let mut tts = elevenlabs::tts::ElevenlabsTTS::new(
+                elevenlabs_tts.token.clone(),
+                elevenlabs_tts.voice.clone(),
+                elevenlabs::tts::OutputFormat::Pcm24000,
+            )
+            .await
+            .map_err(|e| anyhow::anyhow!("Elevenlabs TTS init error: {e}"))?;
+
+            tts.initialize_connection()
+                .await
+                .map_err(|e| anyhow::anyhow!("Elevenlabs TTS connection error: {e}"))?;
+
+            tts.send_text(&text, true)
+                .await
+                .map_err(|e| anyhow::anyhow!("Elevenlabs TTS send text error: {e}"))?;
+
+            tts.close_connection()
+                .await
+                .map_err(|e| anyhow::anyhow!("Elevenlabs TTS close connection error: {e}"))?;
+
+            while let Ok(Some(resp)) = tts.next_audio_response().await {
+                tx.send(ServerEvent::ResponseAudioDelta {
+                    event_id: Uuid::new_v4().to_string(),
+                    response_id: response_id.clone(),
+                    item_id: item_id.clone().unwrap_or_default(),
+                    output_index: 0,
+                    content_index: 1,
+                    delta: resp.audio.unwrap(),
+                })
+                .await
+                .map_err(|e| anyhow::anyhow!("send audio error: {e}"))?;
+            }
+            Ok(())
+        }
     }
 }
diff --git a/src/services/ws.rs b/src/services/ws.rs
@@ -17,6 +17,7 @@ use futures_util::StreamExt;
 use crate::{
     ai::{
         bailian::cosyvoice,
+        elevenlabs,
         gemini::{
             self,
             types::{Blob, GenerationConfig, RealtimeAudio},
@@ -328,6 +329,35 @@ async fn tts_and_send(pool: &WsSetting, tx: &mut WsTx, text: String) -> anyhow::
             }
             Ok(())
         }
+        crate::config::TTSConfig::Elevenlabs(elevenlabs_tts) => {
+            let mut tts = elevenlabs::tts::ElevenlabsTTS::new(
+                elevenlabs_tts.token.clone(),
+                elevenlabs_tts.voice.clone(),
+                elevenlabs::tts::OutputFormat::Pcm16000,
+            )
+            .await
+            .map_err(|e| anyhow::anyhow!("Elevenlabs TTS init error: {e}"))?;
+
+            tts.initialize_connection()
+                .await
+                .map_err(|e| anyhow::anyhow!("Elevenlabs TTS initialize connection error: {e}"))?;
+
+            tts.send_text(&text, true)
+                .await
+                .map_err(|e| anyhow::anyhow!("Elevenlabs TTS send text error: {e}"))?;
+
+            tts.close_connection()
+                .await
+                .map_err(|e| anyhow::anyhow!("Elevenlabs TTS close connection error: {e}"))?;
+
+            while let Ok(Some(resp)) = tts.next_audio_response().await {
+                if let Some(audio) = resp.get_audio_bytes() {
+                    tx.send(WsCommand::Audio(audio))
+                        .map_err(|e| anyhow::anyhow!("send audio error: {e}"))?;
+                }
+            }
+            Ok(())
+        }
     }
 }
 
@@ -1111,16 +1141,19 @@ async fn process_command(ws: &mut WebSocket, cmd: WsCommand) -> anyhow::Result<(
             ws.send(Message::binary(action)).await?;
         }
         WsCommand::StartAudio(text) => {
+            log::trace!("StartAudio: {text:?}");
             let start_audio = rmp_serde::to_vec(&crate::protocol::ServerEvent::StartAudio { text })
                 .expect("Failed to serialize StartAudio ServerEvent");
             ws.send(Message::binary(start_audio)).await?;
         }
         WsCommand::Audio(data) => {
+            log::trace!("Audio chunk size: {}", data.len());
             let start_audio = rmp_serde::to_vec(&crate::protocol::ServerEvent::AudioChunk { data })
                 .expect("Failed to serialize StartAudio ServerEvent");
             ws.send(Message::binary(start_audio)).await?;
         }
         WsCommand::EndAudio => {
+            log::trace!("EndAudio");
             let end_audio = rmp_serde::to_vec(&crate::protocol::ServerEvent::EndAudio)
                 .expect("Failed to serialize EndAudio ServerEvent");
             ws.send(Message::binary(end_audio)).await?;