wip #35

previ · previ · commit 6e07b904a3f5 · 2017-09-29T22:26:29.000Z
diff --git a/audio.py b/audio.py
@@ -35,9 +35,23 @@
 except:
   logging.info("pocketsphinx not available")
 
-CHUNK_SIZE = 4096
-FORMAT = pyaudio.paInt16
-RATE = 44100
+## GOOGLE Speech API ##
+# [START import_libraries]
+#from __future__ import division
+
+import re
+import sys
+
+from google.cloud import speech
+from google.cloud.speech import enums
+from google.cloud.speech import types
+import pyaudio
+from six.moves import queue
+# [END import_libraries]
+
+# Audio recording parameters
+RATE = 16000
+CHUNK = int(RATE / 10)  # 100ms
 
 MODELDIR = "/home/pi/coderbot/psmodels/"
 SOUNDDIR = "./sounds/"
@@ -62,6 +76,8 @@ def __init__(self):
     except:
       logging.info("Audio: input stream not available")
 
+    self._google_speech_client = speech.SpeechClient()
+
   def exit(self):
     # cleanup stuff.
     self.stream_in.close()  
@@ -217,3 +233,142 @@ def speech_recog(self, model):
     logging.info("recog text: " + recog_text)
     return recog_text
 
+  def speech_recog_google(self, locale):
+    config = types.RecognitionConfig(
+        encoding=enums.RecognitionConfig.AudioEncoding.LINEAR16,
+        sample_rate_hertz=RATE,
+        language_code=locale)
+    streaming_config = types.StreamingRecognitionConfig(
+        config=config,
+        interim_results=False,
+        single_utterance=True)
+
+    with self.MicrophoneStream(RATE, CHUNK) as stream:
+      audio_generator = stream.generator()
+      requests = (types.StreamingRecognizeRequest(audio_content=content)
+                  for content in audio_generator)
+
+      responses = self._google_speech_client.streaming_recognize(streaming_config, requests)
+
+      # Now, put the transcription responses to use.
+      #self.listen_print_loop(responses)
+      for response in responses:
+        if response.results:
+          result = response.results[0]
+          if result.is_final:
+            return result.alternatives[0].transcript
+ 
+  def listen_print_loop(self, responses):
+    for response in responses:
+      if not response.results:
+        continue
+
+      # The `results` list is consecutive. For streaming, we only care about
+      # the first result being considered, since once it's `is_final`, it
+      # moves on to considering the next utterance.
+      result = response.results[0]
+      if not result.alternatives:
+        continue
+
+      # Display the transcription of the top alternative.
+      transcript = result.alternatives[0].transcript
+
+      # Display interim results, but with a carriage return at the end of the
+      # line, so subsequent lines will overwrite them.
+      #
+      # If the previous result was longer than this one, we need to print
+      # some extra spaces to overwrite the previous result
+      overwrite_chars = ' ' * (num_chars_printed - len(transcript))
+
+      if not result.is_final:
+        sys.stdout.write(transcript + overwrite_chars + '\r')
+        sys.stdout.flush()
+
+        num_chars_printed = len(transcript)
+
+      else:
+        print(transcript + overwrite_chars)
+
+        # Exit recognition if any of the transcribed phrases could be
+        # one of our keywords.
+        if re.search(r'\b(exit|quit)\b', transcript, re.I):
+          print('Exiting..')
+        break
+
+        num_chars_printed = 0
+
+
+  class MicrophoneStream(object):
+    """Opens a recording stream as a generator yielding the audio chunks."""
+    def __init__(self, rate, chunk):
+      self._rate = rate
+      self._chunk = chunk
+
+      # Create a thread-safe buffer of audio data
+      self._buff = queue.Queue()
+      self.closed = True
+
+    def __enter__(self):
+      self._audio_interface = pyaudio.PyAudio()
+      self._audio_stream = self._audio_interface.open(
+        format=pyaudio.paInt16,
+        # The API currently only supports 1-channel (mono) audio
+        # https://goo.gl/z757pE
+        channels=1, rate=self._rate,
+        input=True, frames_per_buffer=self._chunk,
+        # Run the audio stream asynchronously to fill the buffer object.
+        # This is necessary so that the input device's buffer doesn't
+        # overflow while the calling thread makes network requests, etc.
+        stream_callback=self._fill_buffer,
+      )
+
+      self.closed = False
+
+      return self
+
+    def __exit__(self, type, value, traceback):
+      self._audio_stream.stop_stream()
+      self._audio_stream.close()
+      self.closed = True
+      # Signal the generator to terminate so that the client's
+      # streaming_recognize method will not block the process termination.
+      self._buff.put(None)
+      self._audio_interface.terminate()
+
+    def __exit__(self, type, value, traceback):
+      self._audio_stream.stop_stream()
+      self._audio_stream.close()
+      self.closed = True
+      # Signal the generator to terminate so that the client's
+      # streaming_recognize method will not block the process termination.
+      self._buff.put(None)
+      self._audio_interface.terminate()
+
+    def _fill_buffer(self, in_data, frame_count, time_info, status_flags):
+      """Continuously collect data from the audio stream, into the buffer."""
+      self._buff.put(in_data)
+      return None, pyaudio.paContinue
+
+    def generator(self):
+      while not self.closed:
+        # Use a blocking get() to ensure there's at least one chunk of
+        # data, and stop iteration if the chunk is None, indicating the
+        # end of the audio stream.
+        chunk = self._buff.get()
+        if chunk is None:
+          return
+        data = [chunk]
+
+        # Now consume whatever other data's still buffered.
+        while True:
+          try:
+            chunk = self._buff.get(block=False)
+            if chunk is None:
+              return
+            data.append(chunk)
+          except queue.Empty:
+            break
+
+        yield b''.join(data)
+# [END audio_stream]
+
diff --git a/coderbot.cfg b/coderbot.cfg
@@ -1 +1 @@
-{"move_tr_speed": "80", "move_fw_elapse": "1", "camera_color_object_size_min": "4000", "camera_path_object_size_min": "4000", "load_at_start": "", "move_tr_elapse": "0.5", "sound_stop": "$shutdown.mp3", "show_control_move_commands": "true", "prog_level": "adv", "prog_scrollbars": "true", "move_fw_speed": "100", "camera_color_object_size_max": "160000", "sound_shutter": "$shutter.mp3", "show_page_prefs": "true", "cv_image_factor": "4", "ctrl_hud_image": "", "button_func": "none", "ctrl_fw_elapse": "-1", "ctrl_tr_elapse": "-1", "move_power_angle_2": "60", "move_power_angle_3": "60", "move_power_angle_1": "45", "move_motor_trim": "1", "cnn_default_model": "apple_kiwi_tomato_fast", "show_page_program": "true", "sound_start": "$startup.mp3", "camera_exposure_mode": "auto", "ctrl_tr_speed": "80", "prog_move_mpu": "yes", "ctrl_fw_speed": "100", "camera_refresh_timeout": "0.1", "camera_jpeg_quality": "20", "prog_maxblocks": "-1", "move_motor_mode": "dc", "camera_path_object_size_max": "160000", "show_page_control": "true"}
+{"move_tr_speed": "80", "move_fw_elapse": "1", "camera_color_object_size_min": "4000", "camera_path_object_size_min": "4000", "load_at_start": "", "move_tr_elapse": "0.5", "sound_stop": "$shutdown.mp3", "show_control_move_commands": "true", "prog_level": "adv", "prog_scrollbars": "true", "move_fw_speed": "100", "camera_color_object_size_max": "160000", "sound_shutter": "$shutter.mp3", "show_page_prefs": "true", "cv_image_factor": "4", "ctrl_hud_image": "", "button_func": "none", "ctrl_fw_elapse": "-1", "ctrl_tr_elapse": "-1", "move_power_angle_2": "60", "move_power_angle_3": "60", "move_power_angle_1": "45", "move_motor_trim": "1", "cnn_default_model": "apple_kiwi_fast", "show_page_program": "true", "sound_start": "$startup.mp3", "camera_exposure_mode": "auto", "ctrl_tr_speed": "80", "prog_move_mpu": "yes", "ctrl_fw_speed": "100", "camera_refresh_timeout": "0.1", "camera_jpeg_quality": "20", "prog_maxblocks": "-1", "move_motor_mode": "dc", "camera_path_object_size_max": "160000", "show_page_control": "true"}
diff --git a/static/js/blockly/blocks.js b/static/js/blockly/blocks.js
@@ -919,7 +919,8 @@ Blockly.Blocks['coderbot_audio_listen'] = {
 Blockly.Python['coderbot_audio_listen'] = function(block) {
   // Boolean values true and false.
   var model = block.getFieldValue('MODEL');
-  var code = 'get_audio().speech_recog(model="' + model + '")';
+  //var code = 'get_audio().speech_recog(model="' + model + '")';
+  var code = 'get_audio().speech_recog_google(locale="it_IT")';
   return [code, Blockly.Python.ORDER_ATOMIC];
 };
 

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		-{"move_tr_speed": "80", "move_fw_elapse": "1", "camera_color_object_size_min": "4000", "camera_path_object_size_min": "4000", "load_at_start": "", "move_tr_elapse": "0.5", "sound_stop": "$shutdown.mp3", "show_control_move_commands": "true", "prog_level": "adv", "prog_scrollbars": "true", "move_fw_speed": "100", "camera_color_object_size_max": "160000", "sound_shutter": "$shutter.mp3", "show_page_prefs": "true", "cv_image_factor": "4", "ctrl_hud_image": "", "button_func": "none", "ctrl_fw_elapse": "-1", "ctrl_tr_elapse": "-1", "move_power_angle_2": "60", "move_power_angle_3": "60", "move_power_angle_1": "45", "move_motor_trim": "1", "cnn_default_model": "apple_kiwi_tomato_fast", "show_page_program": "true", "sound_start": "$startup.mp3", "camera_exposure_mode": "auto", "ctrl_tr_speed": "80", "prog_move_mpu": "yes", "ctrl_fw_speed": "100", "camera_refresh_timeout": "0.1", "camera_jpeg_quality": "20", "prog_maxblocks": "-1", "move_motor_mode": "dc", "camera_path_object_size_max": "160000", "show_page_control": "true"}
	`1`	+{"move_tr_speed": "80", "move_fw_elapse": "1", "camera_color_object_size_min": "4000", "camera_path_object_size_min": "4000", "load_at_start": "", "move_tr_elapse": "0.5", "sound_stop": "$shutdown.mp3", "show_control_move_commands": "true", "prog_level": "adv", "prog_scrollbars": "true", "move_fw_speed": "100", "camera_color_object_size_max": "160000", "sound_shutter": "$shutter.mp3", "show_page_prefs": "true", "cv_image_factor": "4", "ctrl_hud_image": "", "button_func": "none", "ctrl_fw_elapse": "-1", "ctrl_tr_elapse": "-1", "move_power_angle_2": "60", "move_power_angle_3": "60", "move_power_angle_1": "45", "move_motor_trim": "1", "cnn_default_model": "apple_kiwi_fast", "show_page_program": "true", "sound_start": "$startup.mp3", "camera_exposure_mode": "auto", "ctrl_tr_speed": "80", "prog_move_mpu": "yes", "ctrl_fw_speed": "100", "camera_refresh_timeout": "0.1", "camera_jpeg_quality": "20", "prog_maxblocks": "-1", "move_motor_mode": "dc", "camera_path_object_size_max": "160000", "show_page_control": "true"}