Merge pull request #45 from zhonghuihong/main

Eric0308 · web-flow · commit 9472ad4df325 · 2025-06-13T23:02:56.000+08:00
websocket tts
diff --git a/config.yaml b/config.yaml
@@ -94,6 +94,10 @@ TTS:
     appid: "你的appid"
     token: 你的access_token
     cluster: 你的cluster
+  GoSherpaTTS:
+    type: gosherpa
+    cluster: "ws://127.0.0.1:8848/tts"
+    output_dir: "tmp/"
 
 # LLM配置
 LLM:
diff --git a/src/core/providers/tts/gosherpa/sherpa.go b/src/core/providers/tts/gosherpa/sherpa.go
@@ -0,0 +1,84 @@
+package gosherpa
+
+import (
+	"context"
+	"fmt"
+	"github.com/gorilla/websocket"
+	"os"
+	"path/filepath"
+	"time"
+	"xiaozhi-server-go/src/core/providers/tts"
+)
+
+// Provider Sherpa TTS提供者实现
+type Provider struct {
+	*tts.BaseProvider
+	conn *websocket.Conn
+}
+
+// NewProvider 创建Sherpa TTS提供者
+func NewProvider(config *tts.Config, deleteFile bool) (*Provider, error) {
+	base := tts.NewBaseProvider(config, deleteFile)
+
+	dialer := websocket.Dialer{
+		HandshakeTimeout: 10 * time.Second, // 设置握手超时
+	}
+	conn, _, err := dialer.DialContext(context.Background(), config.Cluster, map[string][]string{})
+	if err != nil {
+		return nil, err
+	}
+
+	return &Provider{
+		BaseProvider: base,
+		conn:         conn,
+	}, nil
+}
+
+// ToTTS 将文本转换为音频文件，并返回文件路径
+func (p *Provider) ToTTS(text string) (string, error) {
+	// 获取配置的声音，如果未配置则使用默认值
+	SherpaTTSStartTime := time.Now()
+
+	// 创建临时文件路径用于保存 SherpaTTS 生成的 MP3
+	outputDir := p.BaseProvider.Config().OutputDir
+	if outputDir == "" {
+		outputDir = os.TempDir() // Use system temp dir if not configured
+	}
+	// Ensure output directory exists
+	if err := os.MkdirAll(outputDir, 0755); err != nil {
+		return "", fmt.Errorf("创建输出目录失败 '%s': %v", outputDir, err)
+	}
+	// Use a unique filename
+	tempFile := filepath.Join(outputDir, fmt.Sprintf("go_sherpa_tts_%d.wav", time.Now().UnixNano()))
+
+	p.conn.WriteMessage(websocket.TextMessage, []byte(text))
+	_, bytes, err := p.conn.ReadMessage()
+
+	if err != nil {
+		return "", fmt.Errorf("go-sherpa-tts 获取音频流失败: %v", err)
+	}
+
+	ttsDuration := time.Since(SherpaTTSStartTime)
+	fmt.Println(fmt.Sprintf("go-sherpa-tts 语音合成完成，耗时: %s", ttsDuration))
+
+	// 将音频数据写入临时文件
+	err = os.WriteFile(tempFile, bytes, 0644)
+	if err != nil {
+		return "", fmt.Errorf("写入音频文件 '%s' 失败: %v", tempFile, err)
+	}
+
+	// 检查文件是否成功创建
+	if _, err := os.Stat(tempFile); os.IsNotExist(err) {
+		return "", fmt.Errorf("go-sherpa-tts 未能创建音频文件: %s", tempFile)
+	}
+
+	// Return the path to the generated audio file
+	return tempFile, nil
+}
+
+func init() {
+	// 注册Sherpa TTS提供者
+	tts.Register("gosherpa", func(config *tts.Config, deleteFile bool) (tts.Provider, error) {
+		return NewProvider(config, deleteFile)
+	})
+}
diff --git a/src/core/utils/audio.go b/src/core/utils/audio.go
@@ -5,6 +5,7 @@ import (
 	"io"
 	"os"
 	"path/filepath"
+	"strings"
 	"sync"
 
 	"github.com/hajimehoshi/go-mp3"
@@ -384,34 +385,45 @@ func AudioToPCMData(audioFile string) ([][]byte, float64, error) {
 
 // AudioToOpusData 将音频文件转换为Opus数据块
 func AudioToOpusData(audioFile string) ([][]byte, float64, error) {
-	// 先将MP3转为PCM
-	pcmData, duration, err := AudioToPCMData(audioFile)
-	if err != nil {
-		return nil, 0, fmt.Errorf("PCM转换失败: %v", err)
-	}
 
-	if len(pcmData) == 0 {
-		return nil, 0, fmt.Errorf("PCM转换结果为空")
-	}
-
-	// 打开MP3文件获取采样率
-	file, err := os.Open(audioFile)
-	if err != nil {
-		return nil, 0, fmt.Errorf("打开音频文件失败: %v", err)
-	}
-	defer file.Close()
-
-	// 检查MP3文件格式是否有效
-	_, err = mp3.NewDecoder(file)
-	if err != nil {
-		return nil, 0, fmt.Errorf("创建MP3解码器失败: %v", err)
-	}
+	var pcmData [][]byte
+	var err error
+	var duration float64
 
 	// 获取采样率 (固定使用24000Hz作为Opus编码的采样率)
 	// 如果采样率不是24000Hz，PCMSlicesToOpusData会处理重采样
 	opusSampleRate := 24000
 	channels := 1
 
+	if strings.HasSuffix(audioFile, ".mp3") {
+		// 先将MP3转为PCM
+		pcmData, duration, err = AudioToPCMData(audioFile)
+		if err != nil {
+			return nil, 0, fmt.Errorf("PCM转换失败: %v", err)
+		}
+
+		if len(pcmData) == 0 {
+			return nil, 0, fmt.Errorf("PCM转换结果为空")
+		}
+
+		// 打开MP3文件获取采样率
+		file, err := os.Open(audioFile)
+		if err != nil {
+			return nil, 0, fmt.Errorf("打开音频文件失败: %v", err)
+		}
+		defer file.Close()
+
+		// 检查MP3文件格式是否有效
+		_, err = mp3.NewDecoder(file)
+		if err != nil {
+			return nil, 0, fmt.Errorf("创建MP3解码器失败: %v", err)
+		}
+	} else {
+		var singlePcmData []byte
+		singlePcmData, err = ReadPCMDataFromWavFile(audioFile)
+		pcmData = [][]byte{singlePcmData}
+	}
+
 	// 将PCM转换为Opus
 	opusData, err := PCMSlicesToOpusData(pcmData, opusSampleRate, channels, 0)
 	if err != nil {
diff --git a/src/main.go b/src/main.go
@@ -23,6 +23,7 @@ import (
 	_ "xiaozhi-server-go/src/core/providers/llm/openai"
 	_ "xiaozhi-server-go/src/core/providers/tts/doubao"
 	_ "xiaozhi-server-go/src/core/providers/tts/edge"
+	_ "xiaozhi-server-go/src/core/providers/tts/gosherpa"
 	_ "xiaozhi-server-go/src/core/providers/vlllm/ollama"
 	_ "xiaozhi-server-go/src/core/providers/vlllm/openai"