Merge pull request #14 from codeforequity-at/develop

Botium · web-flow · commit 03b03d4ebf9a · 2020-12-22T12:43:04.000+01:00
BOT-2021 added language queries
diff --git a/frontend/package.json b/frontend/package.json
@@ -16,6 +16,7 @@
     "@google-cloud/storage": "^5.7.0",
     "@google-cloud/text-to-speech": "^3.1.3",
     "body-parser": "^1.19.0",
+    "cheerio": "^1.0.0-rc.5",
     "cross-env": "^7.0.3",
     "debug": "^4.3.1",
     "dotenv-flow": "^3.2.0",
diff --git a/frontend/src/routes.js b/frontend/src/routes.js
@@ -10,8 +10,8 @@ const debug = require('debug')('botium-speech-processing-routes')
 
 const cachePathStt = process.env.BOTIUM_SPEECH_CACHE_DIR && path.join(process.env.BOTIUM_SPEECH_CACHE_DIR, 'stt')
 const cachePathTts = process.env.BOTIUM_SPEECH_CACHE_DIR && path.join(process.env.BOTIUM_SPEECH_CACHE_DIR, 'tts')
-const cacheKeyStt = (data, language, ext) => `${crypto.createHash('md5').update(data).digest('hex')}_${language}${ext}`
-const cacheKeyTts = (data, language, voice, ext) => `${crypto.createHash('md5').update(data).digest('hex')}_${language}_${voice || 'default'}${ext}`
+const cacheKeyStt = (data, language, ext) => sanitize(`${crypto.createHash('md5').update(data).digest('hex')}_${language}${ext}`)
+const cacheKeyTts = (data, language, voice, ext) => sanitize(`${crypto.createHash('md5').update(data).digest('hex')}_${language}_${voice || 'default'}${ext}`)
 
 if (cachePathStt) mkdirp.sync(cachePathStt)
 if (cachePathTts) mkdirp.sync(cachePathTts)
@@ -64,6 +64,40 @@ router.get('/api/status', (req, res) => {
   res.json({ status: 'OK' })
 })
 
+/**
+ * @swagger
+ * /api/sttlanguages:
+ *   get:
+ *     description: Get list of STT languages
+ *     security:
+ *       - ApiKeyAuth: []
+ *     produces:
+ *       - application/json
+ *     parameters:
+ *       - name: stt
+ *         description: Speech-to-text backend
+ *         in: query
+ *         required: false
+ *         schema:
+ *           type: string
+ *           enum: [kaldi, google]
+ *     responses:
+ *       200:
+ *         description: List of supported STT languages
+ *         schema:
+ *           type: array
+ *           items:
+ *             type: string
+ */
+router.get('/api/sttlanguages', async (req, res, next) => {
+  try {
+    const stt = sttEngines[(req.query.stt && sanitize(req.query.stt)) || process.env.BOTIUM_SPEECH_PROVIDER_STT]
+    res.json(await stt.languages())
+  } catch (err) {
+    return next(err)
+  }
+})
+
 /**
  * @swagger
  * /api/stt/{language}:
@@ -75,7 +109,7 @@ router.get('/api/status', (req, res) => {
  *       - application/json
  *     parameters:
  *       - name: language
- *         description: ISO-639-1 language code (2 letters)
+ *         description: Language code (as returned from sttlanguages endpoint)
  *         in: path
  *         required: true
  *         schema:
@@ -192,6 +226,40 @@ router.get('/api/ttsvoices', async (req, res, next) => {
   }
 })
 
+/**
+ * @swagger
+ * /api/ttslanguages:
+ *   get:
+ *     description: Get list of TTS languages
+ *     security:
+ *       - ApiKeyAuth: []
+ *     produces:
+ *       - application/json
+ *     parameters:
+ *       - name: tts
+ *         description: Text-to-speech backend
+ *         in: query
+ *         required: false
+ *         schema:
+ *           type: string
+ *           enum: [google, marytts, picotts]
+ *     responses:
+ *       200:
+ *         description: List of supported TTS languages
+ *         schema:
+ *           type: array
+ *           items:
+ *             type: string
+ */
+router.get('/api/ttslanguages', async (req, res, next) => {
+  try {
+    const tts = ttsEngines[(req.query.tts && sanitize(req.query.tts)) || process.env.BOTIUM_SPEECH_PROVIDER_TTS]
+    res.json(await tts.languages())
+  } catch (err) {
+    return next(err)
+  }
+})
+
 /**
  * @swagger
  * /api/tts/{language}:
@@ -203,7 +271,7 @@ router.get('/api/ttsvoices', async (req, res, next) => {
  *       - audio/wav
  *     parameters:
  *       - name: language
- *         description: ISO-639-1 language code (2 letters)
+ *         description: Language code (as returned from ttslanguages endpoint)
  *         in: path
  *         required: true
  *         schema:
diff --git a/frontend/src/stt/google.js b/frontend/src/stt/google.js
@@ -1,11 +1,40 @@
+const _ = require('lodash')
 const { v1: uuidv1 } = require('uuid')
 const speech = process.env.BOTIUM_SPEECH_GOOGLE_API_VERSION ? require('@google-cloud/speech')[process.env.BOTIUM_SPEECH_GOOGLE_API_VERSION] : require('@google-cloud/speech')
 const storage = require('@google-cloud/storage')
+const request = require('request-promise-native')
+const cheerio = require('cheerio')
 const debug = require('debug')('botium-speech-processing-google-stt')
 
 const { googleOptions } = require('../utils')
 
+const GOOGLE_STT_LANGUAGES_URL = 'https://cloud.google.com/speech-to-text/docs/languages'
+const downloadLanguageCodes = async () => {
+  debug(`Downloading language codes from ${GOOGLE_STT_LANGUAGES_URL}`)
+  const htmlString = await request(GOOGLE_STT_LANGUAGES_URL)
+  const $ = cheerio.load(htmlString)
+
+  const languageCodes = []
+  $('#lang-table-container table tbody tr').each(function () {
+    const tds = $(this).find('td')
+    const languageCode = $(tds[1]).text().trim()
+    if (languageCode) {
+      languageCodes.push(languageCode)
+    }
+  })
+  return languageCodes
+}
+
+let languageCodes = null
+
 class GoogleSTT {
+  async languages () {
+    if (!languageCodes) {
+      languageCodes = _.uniq(await downloadLanguageCodes()).sort()
+    }
+    return languageCodes
+  }
+
   async stt ({ language, buffer }) {
     const speechClient = new speech.SpeechClient(googleOptions())
     const storageClient = new storage.Storage(googleOptions())
diff --git a/frontend/src/stt/kaldi.js b/frontend/src/stt/kaldi.js
@@ -1,9 +1,15 @@
 const util = require('util')
+const _ = require('lodash')
 const Mustache = require('mustache')
 const request = require('request-promise-native')
 const debug = require('debug')('botium-speech-processing-kaldi')
 
 class KaldiSTT {
+  async languages () {
+    const envKeys = Object.keys(process.env).filter(k => k.startsWith('BOTIUM_SPEECH_KALDI_URL_'))
+    return _.uniq(envKeys.map(k => k.split('_')[4].toLowerCase())).sort()
+  }
+
   async stt ({ language, buffer }) {
     const envVarUrl = `BOTIUM_SPEECH_KALDI_URL_${language.toUpperCase()}`
     if (!process.env[envVarUrl]) throw new Error(`Environment variable ${envVarUrl} empty`)
diff --git a/frontend/src/swagger.json b/frontend/src/swagger.json
@@ -36,6 +36,45 @@
         }
       }
     },
+    "/api/sttlanguages": {
+      "get": {
+        "description": "Get list of STT languages",
+        "security": [
+          {
+            "ApiKeyAuth": []
+          }
+        ],
+        "produces": [
+          "application/json"
+        ],
+        "parameters": [
+          {
+            "name": "stt",
+            "description": "Speech-to-text backend",
+            "in": "query",
+            "required": false,
+            "schema": {
+              "type": "string",
+              "enum": [
+                "kaldi",
+                "google"
+              ]
+            }
+          }
+        ],
+        "responses": {
+          "200": {
+            "description": "List of supported STT languages",
+            "schema": {
+              "type": "array",
+              "items": {
+                "type": "string"
+              }
+            }
+          }
+        }
+      }
+    },
     "/api/stt/{language}": {
       "post": {
         "description": "Convert audio file to text",
@@ -50,7 +89,7 @@
         "parameters": [
           {
             "name": "language",
-            "description": "ISO-639-1 language code (2 letters)",
+            "description": "Language code (as returned from sttlanguages endpoint)",
             "in": "path",
             "required": true,
             "schema": {
@@ -160,6 +199,46 @@
         }
       }
     },
+    "/api/ttslanguages": {
+      "get": {
+        "description": "Get list of TTS languages",
+        "security": [
+          {
+            "ApiKeyAuth": []
+          }
+        ],
+        "produces": [
+          "application/json"
+        ],
+        "parameters": [
+          {
+            "name": "tts",
+            "description": "Text-to-speech backend",
+            "in": "query",
+            "required": false,
+            "schema": {
+              "type": "string",
+              "enum": [
+                "google",
+                "marytts",
+                "picotts"
+              ]
+            }
+          }
+        ],
+        "responses": {
+          "200": {
+            "description": "List of supported TTS languages",
+            "schema": {
+              "type": "array",
+              "items": {
+                "type": "string"
+              }
+            }
+          }
+        }
+      }
+    },
     "/api/tts/{language}": {
       "get": {
         "description": "Convert text file to audio",
@@ -174,7 +253,7 @@
         "parameters": [
           {
             "name": "language",
-            "description": "ISO-639-1 language code (2 letters)",
+            "description": "Language code (as returned from ttslanguages endpoint)",
             "in": "path",
             "required": true,
             "schema": {
diff --git a/frontend/src/tts/google.js b/frontend/src/tts/google.js
@@ -1,3 +1,4 @@
+const _ = require('lodash')
 const textToSpeech = require('@google-cloud/text-to-speech')
 const debug = require('debug')('botium-speech-processing-google-tts')
 
@@ -26,13 +27,18 @@ class GoogleTTS {
         googleVoices.push({
           name: voice.name,
           gender: genderMap[voice.ssmlGender],
-          language: languageCode.split('-')[0]
+          language: languageCode
         })
       })
     })
     return googleVoices
   }
 
+  async languages () {
+    const voicesList = await this.voices()
+    return _.uniq(voicesList.map(v => v.language)).sort()
+  }
+
   async tts ({ language, voice, text }) {
     const voiceSelector = {
       languageCode: language
diff --git a/frontend/src/tts/marytts.js b/frontend/src/tts/marytts.js
@@ -35,11 +35,16 @@ class MaryTTS {
     return maryVoices
   }
 
+  async languages () {
+    const voicesList = await this.voices()
+    return _.uniq(voicesList.map(v => v.language)).sort()
+  }
+
   async tts ({ language, voice, text }) {
     const voicesList = await this.voices()
 
     const maryVoice = voicesList.find(v => {
-      if (language && v.language !== language) return false
+      if (language && !v.language.startsWith(language)) return false
       if (voice && v.name !== voice) return false
       return true
     })
diff --git a/frontend/src/tts/picotts.js b/frontend/src/tts/picotts.js
@@ -1,4 +1,5 @@
 const fs = require('fs')
+const _ = require('lodash')
 const { spawn } = require('child_process')
 const { v1: uuidv1 } = require('uuid')
 const debug = require('debug')('botium-speech-processing-picotts')
@@ -7,13 +8,13 @@ const { ttsFilename } = require('../utils')
 
 const voicesList = [
   {
-    name: 'en-EN',
-    language: 'en',
+    name: 'en-US',
+    language: 'en-US',
     gender: 'neutral'
   },
   {
     name: 'en-GB',
-    language: 'en',
+    language: 'en-GB',
     gender: 'neutral'
   },
   {
@@ -26,11 +27,6 @@ const voicesList = [
     language: 'de',
     gender: 'neutral'
   },
-  {
-    name: 'en-GB',
-    language: 'en',
-    gender: 'neutral'
-  },
   {
     name: 'fr-FR',
     language: 'fr',
@@ -48,9 +44,13 @@ class PicoTTS {
     return voicesList
   }
 
+  async languages () {
+    return _.uniq(voicesList.map(v => v.language)).sort()
+  }
+
   async tts ({ language, voice, text }) {
     const picoVoice = voicesList.find(v => {
-      if (language && v.language !== language) return false
+      if (language && !v.language.startsWith(language)) return false
       if (voice && v.name !== voice) return false
       return true
     })