Skip to content

Commit 663cfc0

Browse files
authored
Merge pull request #2189 from yt605155624/fix_name_bug
[doc]update server readme
2 parents bc2613b + dfb09ee commit 663cfc0

File tree

8 files changed

+543
-583
lines changed

8 files changed

+543
-583
lines changed

demos/speech_server/README.md

Lines changed: 37 additions & 40 deletions
Large diffs are not rendered by default.

demos/speech_server/README_cn.md

Lines changed: 48 additions & 55 deletions
Large diffs are not rendered by default.

demos/speech_web/接口文档.md renamed to demos/speech_web/API.md

Lines changed: 16 additions & 18 deletions
Original file line numberDiff line numberDiff line change
@@ -8,7 +8,7 @@ http://0.0.0.0:8010/docs
88

99
### 【POST】/asr/offline
1010

11-
说明:上传16k,16bit wav文件,返回 offline 语音识别模型识别结果
11+
说明:上传 16k, 16bit wav 文件,返回 offline 语音识别模型识别结果
1212

1313
返回: JSON
1414

@@ -26,11 +26,11 @@ http://0.0.0.0:8010/docs
2626

2727
### 【POST】/asr/offlinefile
2828

29-
说明:上传16k,16bit wav文件,返回 offline 语音识别模型识别结果 + wav数据的base64
29+
说明:上传16k,16bit wav文件,返回 offline 语音识别模型识别结果 + wav 数据的 base64
3030

3131
返回: JSON
3232

33-
前端接口: 音频文件识别(播放这段base64还原后记得添加wav头,采样率16k, int16,添加后才能播放)
33+
前端接口: 音频文件识别(播放这段base64还原后记得添加 wav 头,采样率 16k, int16,添加后才能播放)
3434

3535
示例:
3636

@@ -48,7 +48,7 @@ http://0.0.0.0:8010/docs
4848

4949
### 【POST】/asr/collectEnv
5050

51-
说明: 通过采集环境噪音,上传16k, int16 wav文件,来生成后台VAD的能量阈值, 返回阈值结果
51+
说明: 通过采集环境噪音,上传 16k, int16 wav 文件,来生成后台 VAD 的能量阈值, 返回阈值结果
5252

5353
前端接口:ASR-环境采样
5454

@@ -64,9 +64,9 @@ http://0.0.0.0:8010/docs
6464

6565
### 【GET】/asr/stopRecord
6666

67-
说明:通过 GET 请求 /asr/stopRecord, 后台停止接收 offlineStream 中通过 WS协议 上传的数据
67+
说明:通过 GET 请求 /asr/stopRecord, 后台停止接收 offlineStream 中通过 WS 协议 上传的数据
6868

69-
前端接口:语音聊天-暂停录音(获取NLP,播放TTS时暂停
69+
前端接口:语音聊天-暂停录音(获取 NLP,播放 TTS 时暂停
7070

7171
返回: JSON
7272

@@ -80,9 +80,9 @@ http://0.0.0.0:8010/docs
8080

8181
### 【GET】/asr/resumeRecord
8282

83-
说明:通过 GET 请求 /asr/resumeRecord, 后台停止接收 offlineStream 中通过 WS协议 上传的数据
83+
说明:通过 GET 请求 /asr/resumeRecord, 后台停止接收 offlineStream 中通过 WS 协议 上传的数据
8484

85-
前端接口:语音聊天-恢复录音(TTS播放完毕时,告诉后台恢复录音)
85+
前端接口:语音聊天-恢复录音( TTS 播放完毕时,告诉后台恢复录音)
8686

8787
返回: JSON
8888

@@ -100,16 +100,16 @@ http://0.0.0.0:8010/docs
100100

101101
前端接口:语音聊天-开始录音,持续将麦克风语音传给后端,后端推送语音识别结果
102102

103-
返回:后端返回识别结果,offline模型识别结果, 由WS推送
103+
返回:后端返回识别结果,offline 模型识别结果, 由WS推送
104104

105105

106106
### 【Websocket】/ws/asr/onlineStream
107107

108-
说明:通过 WS 协议,将前端音频持续上传到后台,前端采集 16k,Int16 类型的PCM片段,持续上传到后端
108+
说明:通过 WS 协议,将前端音频持续上传到后台,前端采集 16k,Int16 类型的 PCM 片段,持续上传到后端
109109

110110
前端接口:ASR-流式识别开始录音,持续将麦克风语音传给后端,后端推送语音识别结果
111111

112-
返回:后端返回识别结果,online模型识别结果, 由WS推送
112+
返回:后端返回识别结果,online 模型识别结果, 由 WS 推送
113113

114114
## NLP
115115

@@ -202,7 +202,7 @@ http://0.0.0.0:8010/docs
202202

203203
### 【POST】/tts/offline
204204

205-
说明:获取TTS离线模型音频
205+
说明:获取 TTS 离线模型音频
206206

207207
前端接口:TTS-端到端合成
208208

@@ -272,7 +272,7 @@ curl -X 'POST' \
272272

273273
### 【POST】/vpr/recog
274274

275-
说明:声纹识别,识别文件,提取文件的声纹信息做比对 音频 16k, int 16 wav格式
275+
说明:声纹识别,识别文件,提取文件的声纹信息做比对 音频 16k, int 16 wav 格式
276276

277277
前端接口:声纹识别-上传音频,返回声纹识别结果
278278

@@ -383,9 +383,9 @@ curl -X 'GET' \
383383

384384
### 【GET】/vpr/database64
385385

386-
说明: 根据 vpr_id 获取用户vpr时注册使用音频转换成 16k, int16 类型的数组,返回base64编码
386+
说明: 根据 vpr_id 获取用户 vpr 时注册使用音频转换成 16k, int16 类型的数组,返回 base64 编码
387387

388-
前端接口:声纹识别-获取vpr对应的音频(注意:播放时需要添加 wav头,16k,int16, 可参考tts播放时添加wav的方式,注意更改采样率)
388+
前端接口:声纹识别-获取 vpr 对应的音频(注意:播放时需要添加 wav头,16k,int16, 可参考 tts 播放时添加 wav 的方式,注意更改采样率)
389389

390390
访问示例:
391391

@@ -401,6 +401,4 @@ curl -X 'GET' \
401401
"code": 0,
402402
"result":"AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA",
403403
"message": "ok"
404-
```
405-
406-
404+
```

demos/speech_web/README_cn.md renamed to demos/speech_web/README.md

Lines changed: 11 additions & 16 deletions
Original file line numberDiff line numberDiff line change
@@ -1,16 +1,16 @@
11
# Paddle Speech Demo
22

3-
PaddleSpeechDemo是一个以PaddleSpeech的语音交互功能为主体开发的Demo展示项目,用于帮助大家更好的上手PaddleSpeech以及使用PaddleSpeech构建自己的应用
3+
PaddleSpeechDemo 是一个以 PaddleSpeech 的语音交互功能为主体开发的 Demo 展示项目,用于帮助大家更好的上手 PaddleSpeech 以及使用 PaddleSpeech 构建自己的应用
44

5-
智能语音交互部分使用PaddleSpeech,对话以及信息抽取部分使用PaddleNLP,网页前端展示部分基于Vue3进行开发
5+
智能语音交互部分使用 PaddleSpeech,对话以及信息抽取部分使用 PaddleNLP,网页前端展示部分基于 Vue3 进行开发
66

77
主要功能:
88

9-
+ 语音聊天:PaddleSpeech的语音识别能力+语音合成能力,对话部分基于PaddleNLP的闲聊功能
10-
+ 声纹识别:PaddleSpeech的声纹识别功能展示
9+
+ 语音聊天:PaddleSpeech 的语音识别能力+语音合成能力,对话部分基于 PaddleNLP 的闲聊功能
10+
+ 声纹识别:PaddleSpeech 的声纹识别功能展示
1111
+ 语音识别:支持【实时语音识别】,【端到端识别】,【音频文件识别】三种模式
1212
+ 语音合成:支持【流式合成】与【端到端合成】两种方式
13-
+ 语音指令:基于PaddleSpeech的语音识别能力与PaddleNLP的信息抽取,实现交通费的智能报销
13+
+ 语音指令:基于 PaddleSpeech 的语音识别能力与 PaddleNLP 的信息抽取,实现交通费的智能报销
1414

1515
运行效果:
1616

@@ -32,23 +32,21 @@ cd model
3232
wget https://bj.bcebos.com/paddlenlp/applications/speech-cmd-analysis/finetune/model_state.pdparams
3333
```
3434

35-
3635
### 前端环境安装
3736

38-
前端依赖node.js ,需要提前安装,确保npm可用,npm测试版本8.3.1,建议下载[官网](https://nodejs.org/en/)稳定版的node.js
37+
前端依赖 `node.js` ,需要提前安装,确保 `npm` 可用,`npm` 测试版本 `8.3.1`,建议下载[官网](https://nodejs.org/en/)稳定版的 `node.js`
3938

4039
```
4140
# 进入前端目录
4241
cd web_client
4342
44-
# 安装yarn,已经安装可跳过
43+
# 安装 `yarn`,已经安装可跳过
4544
npm install -g yarn
4645
4746
# 使用yarn安装前端依赖
4847
yarn install
4948
```
5049

51-
5250
## 启动服务
5351

5452
### 开启后端服务
@@ -66,18 +64,18 @@ cd web_client
6664
yarn dev --port 8011
6765
```
6866

69-
默认配置下,前端中配置的后台地址信息是localhost,确保后端服务器和打开页面的游览器在同一台机器上,不在一台机器的配置方式见下方的FAQ:【后端如果部署在其它机器或者别的端口如何修改】
67+
默认配置下,前端中配置的后台地址信息是 localhost,确保后端服务器和打开页面的游览器在同一台机器上,不在一台机器的配置方式见下方的 FAQ:【后端如果部署在其它机器或者别的端口如何修改】
7068
## FAQ
7169

7270
#### Q: 如何安装node.js
7371

74-
A: node.js的安装可以参考[【菜鸟教程】](https://www.runoob.com/nodejs/nodejs-install-setup.html), 确保npm可用
72+
A: node.js的安装可以参考[【菜鸟教程】](https://www.runoob.com/nodejs/nodejs-install-setup.html), 确保 npm 可用
7573

7674
#### Q:后端如果部署在其它机器或者别的端口如何修改
7775

7876
A:后端的配置地址有分散在两个文件中
7977

80-
修改第一个文件`PaddleSpeechWebClient/vite.config.js`
78+
修改第一个文件 `PaddleSpeechWebClient/vite.config.js`
8179

8280
```
8381
server: {
@@ -92,7 +90,7 @@ server: {
9290
}
9391
```
9492

95-
修改第二个文件`PaddleSpeechWebClient/src/api/API.js`Websocket代理配置失败,所以需要在这个文件中修改)
93+
修改第二个文件 `PaddleSpeechWebClient/src/api/API.js` Websocket 代理配置失败,所以需要在这个文件中修改)
9694

9795
```
9896
// websocket (这里改成后端所在的接口)
@@ -107,9 +105,6 @@ A:这里主要是游览器安全策略的限制,需要配置游览器后重
107105

108106
chrome设置地址: chrome://flags/#unsafely-treat-insecure-origin-as-secure
109107

110-
111-
112-
113108
## 参考资料
114109

115110
vue实现录音参考资料:https://blog.csdn.net/qq_41619796/article/details/107865602#t1

0 commit comments

Comments
 (0)