objectmode now works for all three APIs

nfriedly · nfriedly · commit fc2e756905b2 · 2016-02-15T16:39:39.000-05:00
diff --git a/dist/watson-speech.js b/dist/watson-speech.js
diff --git a/package.json b/package.json
@@ -40,6 +40,7 @@
   },
   "dependencies": {
     "clone": "^1.0.2",
+    "defaults": "^1.0.3",
     "microphone-stream": "^3.0.2",
     "object.pick": "^1.1.1",
     "readable-blob-stream": "^1.1.0",
diff --git a/speech-to-text/format-stream.js b/speech-to-text/format-stream.js
@@ -3,6 +3,7 @@
 var Transform = require('stream').Transform;
 var util = require('util');
 var clone = require('clone');
+var defaults = require('defaults');
 
 /**
  * Applies some basic formating to transcriptions:
@@ -18,11 +19,11 @@ var clone = require('clone');
  * @constructor
  */
 function FormatStream(opts) {
-  this.options = util._extend({
+  this.options = defaults(opts, {
     model: '', // some models should have all spaces removed
     hesitation: '\u2026', // ellipsis
     decodeStrings: true
-  }, opts);
+  });
   Transform.call(this, opts);
 
   this.isJaCn = ((this.options.model.substring(0,5) === 'ja-JP') || (this.options.model.substring(0,5) === 'zh-CN'));
diff --git a/speech-to-text/getusermedia.js b/speech-to-text/getusermedia.js
@@ -5,6 +5,7 @@ module.exports = function getUserMedia(constraints) {
   if(navigator.mediaDevices && navigator.mediaDevices.getUserMedia) {
     return navigator.mediaDevices.getUserMedia(constraints);
   }
+  // todo: return a fake promise if window.Promise is undefined
   return new Promise(function(resolve, reject) {
     var gum = navigator.getUserMedia || navigator.webkitGetUserMedia ||  navigator.mozGetUserMedia || navigator.msGetUserMedia;
     if (!gum) {
diff --git a/speech-to-text/media-element-audio-stream.js b/speech-to-text/media-element-audio-stream.js
@@ -1,6 +1,7 @@
 'use strict';
 var Readable = require('stream').Readable;
 var util = require('util');
+var defaults = require('defaults');
 
 /**
  * Turns a MediaStream object (from getUserMedia) into a Node.js Readable stream and converts the audio to Buffers
@@ -18,18 +19,18 @@ var util = require('util');
  */
 function MediaElementAudioStream(source, opts) {
 
-  opts = util._extend({
+  opts = defaults(opts, {
     // "It is recommended for authors to not specify this buffer size and allow the implementation to pick a good
     // buffer size to balance between latency and audio quality."
     // https://developer.mozilla.org/en-US/docs/Web/API/AudioContext/createScriptProcessor
     // Possible values: null, 256, 512, 1024, 2048, 4096, 8192, 16384
     // however, webkitAudioContext (safari) requires it to be set
     bufferSize: (typeof AudioContext != "undefined" ? null : 4096),
     muteSource: false,
-    autoplay: true,
+    autoPlay: true,
     crossOrigin: "anonymous", // required for cross-domain audio playback
     objectMode: true // true = emit AudioBuffers w/ audio + some metadata, false = emite node.js Buffers (with binary data only
-  }, opts);
+  });
 
   // We can only emit one channel's worth of audio, so only one input. (Who has multiple microphones anyways?)
   var inputChannels = 1;
@@ -92,7 +93,7 @@ function MediaElementAudioStream(source, opts) {
     source.play();
     source.removeEventListener("canplaythrough", start);
   }
-  if (opts.autoplay) {
+  if (opts.autoPlay) {
     // play immediately if we have enough data, otherwise wait for the canplaythrough event
     if(source.readyState === source.HAVE_ENOUGH_DATA) {
       source.play();
diff --git a/speech-to-text/recognize-blob.js b/speech-to-text/recognize-blob.js
@@ -20,7 +20,7 @@ var RecognizeStream = require('./recognize-stream.js');
 var FilePlayer = require('./file-player.js');
 var FormatStream = require('./format-stream.js');
 var TimingStream = require('./timing-stream.js');
-var util = require('util');
+
 
 
 /**
@@ -43,12 +43,13 @@ module.exports = function recognizeBlob(options) {
 
   var realtime = options.realtime || typeof options.realtime === 'undefined' && options.play;
 
-  var rsOpts = util._extend({
-    // if we're piping through the timing stream, we need objectMode input to get the timing data
-    readableObjectMode: options.objectMode || realtime
-  }, options);
+  // we don't want the readable stream to have objectMode on the input even if we're setting it for the output
+  // unless were in realtime mode - in which case the timing stream requires objectMode input.
+  var rsOpts = Object.assign({}, options);
+  rsOpts.readableObjectMode = options.objectMode || realtime;
   delete rsOpts.objectMode;
 
+
   var recognizeStream = new RecognizeStream(rsOpts);
   var stream = new BlobStream(options.data).pipe(recognizeStream);
 
diff --git a/speech-to-text/recognize-element.js b/speech-to-text/recognize-element.js
@@ -35,14 +35,19 @@ module.exports = function recognizeElement(options) {
     throw new Error("WatsonSpeechToText: missing required parameter: opts.token");
   }
 
-  options['content-type'] = 'audio/l16;rate=16000'; // raw wav audio (no header)
-  var recognizeStream = new RecognizeStream(options);
+  // we don't want the readable stream to have objectMode on the input even if we're setting it for the output
+  var rsOpts = Object.assign({}, options);
+  rsOpts.readableObjectMode = options.objectMode;
+  rsOpts['content-type'] = 'audio/l16;rate=16000';
+  delete rsOpts.objectMode;
+
+  var recognizeStream = new RecognizeStream(rsOpts);
 
   var sourceStream = new MediaElementAudioStream(options.element , {
     objectMode: true,
     bufferSize: options.bufferSize,
     muteSource: options.muteSource,
-    autoplay: options.autoPlay
+    autoPlay: options.autoPlay !== false // default to true if it's undefined
   });
 
   var stream = sourceStream
@@ -55,5 +60,5 @@ module.exports = function recognizeElement(options) {
 
   recognizeStream.on('stop', sourceStream.stop.bind(sourceStream));
 
-  return stream;;
+  return stream;
 };
diff --git a/speech-to-text/recognize-microphone.js b/speech-to-text/recognize-microphone.js
@@ -38,16 +38,22 @@ module.exports = function recognizeMicrophone(options) {
     throw new Error("WatsonSpeechToText: missing required parameter: opts.token");
   }
 
-  options['content-type'] = 'audio/l16;rate=16000'; // raw wav audio (no header)
-  var recognizeStream = new RecognizeStream(options);
+  // we don't want the readable stream to have objectMode on the input even if we're setting it for the output
+  var rsOpts = Object.assign({}, options);
+  rsOpts.readableObjectMode = options.objectMode;
+  rsOpts['content-type'] = 'audio/l16;rate=16000';
+  delete rsOpts.objectMode;
+
+  var recognizeStream = new RecognizeStream(rsOpts);
+
 
   getUserMedia({video: false, audio: true}).then(function(mic) {
     var micStream = new MicrophoneStream(mic, {
       objectMode: true,
       bufferSize: options.bufferSize
     });
     micStream
-      .pipe(new L16({writableObjectMode: true, downsample: false}))
+      .pipe(new L16({writableObjectMode: true}))
       .pipe(recognizeStream);
 
     recognizeStream.on('stop', micStream.stop.bind(micStream));
diff --git a/speech-to-text/recognize-stream.js b/speech-to-text/recognize-stream.js
@@ -22,6 +22,7 @@ var util = require('util');
 var pick = require('object.pick');
 var W3CWebSocket = require('websocket').w3cwebsocket;
 var contentType = require('./content-type');
+var defaults = require('defaults');
 
 
 var OPENING_MESSAGE_PARAMS_ALLOWED = ['continuous', 'max_alternatives', 'timestamps', 'word_confidence', 'inactivity_timeout',
@@ -103,7 +104,11 @@ RecognizeStream.prototype.initialize = function () {
   var url = (options.url || "wss://stream.watsonplatform.net/speech-to-text/api").replace(/^http/, 'ws') + '/v1/recognize?' + queryString;
 
   // turn off all the extras if we're just outputting text
-  var defaults = {
+  var textModeDefaults = {
+    action: 'start',
+    'content-type': 'audio/wav',
+    continuous: true,
+    inactivity_timeout: 30,
     interim_results: false,
     word_confidence: false,
     timestamps: false,
@@ -112,24 +117,21 @@ RecognizeStream.prototype.initialize = function () {
 
   // but turn everything on if we're in objectMode and the end user can consume it
   var objectModeDefaults = {
+    action: 'start',
+    'content-type': 'audio/wav',
+    continuous: true,
+    inactivity_timeout: 30,
     interim_results: true,
     word_confidence: true,
     timestamps: true,
     max_alternatives: 3
   };
 
-  var openingMessage = util._extend({
-    action: 'start',
-    'content-type': 'audio/wav',
-    continuous: true,
-    max_alternatives: 3,
-    inactivity_timeout: 30
-  },
-    (options.objectMode || options.readableObjectMode) ? objectModeDefaults : defaults,
-    pick(options, OPENING_MESSAGE_PARAMS_ALLOWED)
+  var openingMessage = defaults(
+    pick(options, OPENING_MESSAGE_PARAMS_ALLOWED),
+    (options.objectMode || options.readableObjectMode) ? objectModeDefaults : textModeDefaults
   );
 
-
   var self = this;
 
   //node params: requestUrl, protocols, origin, headers, extraRequestOptions
diff --git a/speech-to-text/timing-stream.js b/speech-to-text/timing-stream.js
@@ -3,6 +3,7 @@
 var Duplex = require('stream').Duplex;
 var util = require('util');
 var clone = require('clone');
+var defaults = require('defaults');
 
 /**
  * Slows results down to no faster than real time.
@@ -15,12 +16,12 @@ var clone = require('clone');
  * @constructor
  */
 function TimingStream(opts) {
-  this.options = util._extend({
+  this.options = defaults(opts, {
     emitAt: TimingStream.START,
     delay: 0,
     allowHalfOpen: true, // keep the readable side open after the source closes
     writableObjectMode: true
-  }, opts);
+  });
   Duplex.call(this, opts);
 
   this.startTime = Date.now();
diff --git a/speech-to-text/webaudio-l16-stream.js b/speech-to-text/webaudio-l16-stream.js
@@ -1,6 +1,7 @@
 'use strict';
 var Transform = require('stream').Transform;
 var util = require('util');
+var defaults = require('defaults');
 
 var TARGET_SAMPLE_RATE = 16000;
 /**
@@ -16,10 +17,10 @@ var TARGET_SAMPLE_RATE = 16000;
  * @constructor
  */
 function WebAudioL16Stream(options) {
-  options = this.options = util._extend({
+  options = this.options = defaults(options, {
     sourceSampleRate: 48000,
     downsample: true
-  }, options);
+  });
 
   Transform.call(this, options);
 

Original file line number	Diff line number	Diff line change
`@@ -5,6 +5,7 @@ module.exports = function getUserMedia(constraints) {`
`5`	`5`	`if(navigator.mediaDevices && navigator.mediaDevices.getUserMedia) {`
`6`	`6`	`return navigator.mediaDevices.getUserMedia(constraints);`
`7`	`7`	`}`
	`8`	`+ // todo: return a fake promise if window.Promise is undefined`
`8`	`9`	`return new Promise(function(resolve, reject) {`
`9`	`10`	`var gum = navigator.getUserMedia \|\| navigator.webkitGetUserMedia \|\| navigator.mozGetUserMedia \|\| navigator.msGetUserMedia;`
`10`	`11`	`if (!gum) {`