Implement Linux Support in save_to_file (#76)

fourjr · nateshmbhat · commit 9b7a9dde081b · 2020-01-23T22:47:02.000+05:30
* idk why but this is not working

* FIXED

* make an indicator that it is modified

* fix

* Implement a working save_to_file

* Cleanup code

* Typo

* Fix bug: runandwait runs indefinitely after say

* remove unnecessary

* Linux support for save_to_file

* Fix

* Fix issue where ALSA logs were printed

* clean up requirements
diff --git a/.gitignore b/.gitignore
@@ -101,3 +101,6 @@ ENV/
 .mypy_cache/
 docs/make.bat
 docs/make.bat
+
+# vscode
+.vscode/
diff --git a/docs/install.rst b/docs/install.rst
@@ -89,4 +89,5 @@ code-block:: bash
 
 .. _espeak: http://espeak.sourceforge.net/
 .. _virtualenv: https://pypi.python.org/pypi/virtualenv/1.10.1
-.. _pip: https://pypi.python.org/pypi/pip
+.. _pip: https://pypi.python.org/pypi/pip
+.. _ffmpeg: https://www.ffmpeg.org/
diff --git a/pyttsx3/drivers/_espeak.py b/pyttsx3/drivers/_espeak.py
@@ -145,8 +145,8 @@ def SetUriCallback(cb):
 POS_WORD      = 2
 POS_SENTENCE  = 3
 
-def Synth(text, position=0, position_type=POS_CHARACTER, end_position=0, flags=0):
-    return cSynth(text, len(text)*10, position, position_type, end_position, flags, None, None)
+def Synth(text, position=0, position_type=POS_CHARACTER, end_position=0, flags=0, user_data=None):
+    return cSynth(text, len(text)*10, position, position_type, end_position, flags, None, user_data)
 
 cSynth = cfunc('espeak_Synth', dll, c_int,
               ('text', c_char_p, 1),
diff --git a/pyttsx3/drivers/espeak.py b/pyttsx3/drivers/espeak.py
@@ -1,6 +1,10 @@
 
 import time
 import ctypes
+import io
+import wave
+import os
+from tempfile import NamedTemporaryFile
 from ..voice import Voice
 from . import _espeak, toUtf8, fromUtf8
 
@@ -18,7 +22,7 @@ def __init__(self, proxy):
             # espeak cannot initialize more than once per process and has
             # issues when terminating from python (assert error on close)
             # so just keep it alive and init once
-            rate = _espeak.Initialize(_espeak.AUDIO_OUTPUT_PLAYBACK, 1000)
+            rate = _espeak.Initialize(_espeak.AUDIO_OUTPUT_RETRIEVAL, 1000)
             if rate == -1:
                 raise RuntimeError('could not initialize espeak')
             EspeakDriver._defaultVoice = 'default'
@@ -31,6 +35,15 @@ def __init__(self, proxy):
         self._proxy = proxy
         self._looping = True
         self._stopping = False
+        self._data_buffer = b''
+        self._numerise_buffer = []
+
+    def numerise(self, data):
+        self._numerise_buffer.append(data)
+        return ctypes.c_void_p(len(self._numerise_buffer))
+
+    def decode_numeric(self, data):
+        return self._numerise_buffer[int(data) - 1]
 
     def destroy(self):
         _espeak.SetSynthCallback(None)
@@ -111,7 +124,9 @@ def startLoop(self):
             time.sleep(0.01)
 
     def save_to_file(self, text, filename):
-        raise NotImplementedError
+        code = self.numerise(filename)
+        _espeak.Synth(toUtf8(text), flags=_espeak.ENDPAUSE |
+                    _espeak.CHARS_UTF8, user_data=code)
 
     def endLoop(self):
         self._looping = False
@@ -139,7 +154,25 @@ def _onSynth(self, wav, numsamples, events):
                                    location=event.text_position - 1,
                                    length=event.length)
             elif event.type == _espeak.EVENT_MSG_TERMINATED:
+                stream = NamedTemporaryFile()
+
+                with wave.open(stream, 'wb') as f:
+                    f.setnchannels(1)
+                    f.setsampwidth(2)
+                    f.setframerate(22050.0)
+                    f.writeframes(self._data_buffer)
+
+                if event.user_data:
+                    os.system('ffmpeg -y -i {} {} -loglevel quiet'.format(stream.name, self.decode_numeric(event.user_data)))
+                else:
+                    os.system('aplay {} -q'.format(stream.name))  # -q for quiet
+
+                self._data_buffer = b''
                 self._proxy.notify('finished-utterance', completed=True)
                 self._proxy.setBusy(False)
             i += 1
+        
+        if numsamples > 0:
+            self._data_buffer += ctypes.string_at(wav, numsamples *
+                                                ctypes.sizeof(ctypes.c_short))
         return 0
diff --git a/requirements.txt b/requirements.txt
@@ -2,7 +2,7 @@
 # pyttsx3 only requires `espeak` driver/library which is system-dependent
 
 ### Ubuntu
-#$ sudo apt install espeak
+#$ sudo apt install espeak ffmpeg
 
 ### Mac OS X (os.platform == 'Darwin')
 # pyobjc>=2.4
diff --git a/setup.py b/setup.py
@@ -8,14 +8,14 @@
     ],
     ':"win32" in sys_platform': [
         'comtypes'
-    ],
+    ]
 }
 
-# Ubuntu: sudo apt install espeak
+# Ubuntu: sudo apt install espeak ffmpeg
 install_requires = []
 if platform.system() == 'Windows':
     install_requires += [
-        'pypiwin32'
+        'comtypes'
     ]
 elif platform.system() == 'Darwin':
     install_requires += [