Refactoring and fixing the bug. Now it returns the first item with an empty transcription (#229)

emettely · web-flow · commit d953dc469b85 · 2020-04-21T20:46:44.000+09:00
diff --git a/packages/components/timed-text-editor/stories/index.stories.js b/packages/components/timed-text-editor/stories/index.stories.js
@@ -5,7 +5,6 @@ import { action } from '@storybook/addon-actions';
 import { withKnobs, text, number, boolean } from '@storybook/addon-knobs';
 
 import bbcKaldiTranscript from './fixtures/bbc-kaldi.json';
-
 import TimedTextEditor from '../index.js';
 
 storiesOf('TimedTextEditor', module)
@@ -32,6 +31,33 @@ storiesOf('TimedTextEditor', module)
       fileName: text('fileName', 'KateDarling_2018S-950k.mp4')
     };
 
+    return (
+      <TimedTextEditor { ...fixtureProps } />
+    );
+  })
+  .add('empty dpe', () => {
+    const mediaUrl = 'https://download.ted.com/talks/KateDarling_2018S-950k.mp4';
+    const emptyTranscriptData = { 'paragraphs': [], 'words': [] };
+
+    const fixtureProps = {
+      transcriptData: emptyTranscriptData,
+      mediaUrl: text('mediaUrl', mediaUrl),
+      isEditable: boolean('isEditable', true),
+      spellCheck: boolean('spellCheck', false),
+      onWordClick: action('onWordClick'),
+      sttJsonType: text('sttJsonType', 'digitalpaperedit'),
+      isPlaying: action('isPlaying'),
+      playMedia: action('playMedia'),
+      currentTime: number('currentTime', 0),
+      isScrollIntoViewOn: boolean('isScrollIntoViewOn', true),
+      isPauseWhileTypingOn: boolean('isPauseWhileTypingOn', true),
+      timecodeOffset: number('timecodeOffset', 0),
+      handleAnalyticsEvents: action('handleAnalyticsEvents'),
+      showSpeakers: boolean('showSpeakers', true),
+      showTimecodes: boolean('showTimecodes', true),
+      fileName: text('fileName', 'KateDarling_2018S-950k.mp4')
+    };
+
     return (
       <TimedTextEditor { ...fixtureProps } />
     );
diff --git a/packages/stt-adapters/digital-paper-edit/index.js b/packages/stt-adapters/digital-paper-edit/index.js
@@ -3,74 +3,68 @@
  * More details see
  * https://github.com/bbc/digital-paper-edit
  */
-import generateEntitiesRanges from '../generate-entities-ranges/index.js';
-import groupWordsInParagraphsBySpeakers from './group-words-by-speakers.js';
+import generateEntitiesRanges from '../generate-entities-ranges';
+import groupWordsInParagraphsBySpeakers from './group-words-by-speakers';
 /**
  * groups words list from kaldi transcript based on punctuation.
  * @todo To be more accurate, should introduce an honorifics library to do the splitting of the words.
  * @param {array} words - array of words opbjects from kaldi transcript
  */
-const groupWordsInParagraphs = words => {
+const groupWordsInParagraphs = (words) => {
   const results = [];
   let paragraph = { words: [], text: [] };
 
-  words.forEach(word => {
+  words.forEach((word) => {
+    paragraph.words.push(word);
+    paragraph.text.push(word.text);
+
     // if word contains punctuation
     if (/[.?!]/.test(word.text)) {
-      paragraph.words.push(word);
-      paragraph.text.push(word.text);
       paragraph.text = paragraph.text.join(' ');
       results.push(paragraph);
       // reset paragraph
       paragraph = { words: [], text: [] };
-    } else {
-      paragraph.words.push(word);
-      paragraph.text.push(word.text);
     }
   });
 
   return results;
 };
 
+const generateDraftJsContentBlock = (paragraph) => {
+  const { words, text, speaker } = paragraph;
+  const start = words.length > 0 ? words[0].start : 0;
+
+  return {
+    text: text,
+    type: 'paragraph',
+    data: {
+      speaker: speaker,
+      words: words,
+      start: start,
+    },
+    // the entities as ranges are each word in the space-joined text,
+    // so it needs to be compute for each the offset from the beginning of the paragraph and the length
+    entityRanges: generateEntitiesRanges(words, 'text'), // wordAttributeName
+  };
+};
+
 const digitalPaperEditToDraft = (digitalPaperEditTranscriptJson) => {
-  const results = [];
-  let speakerSegmentation = null;
   let wordsByParagraphs = [];
-  const tmpWords = digitalPaperEditTranscriptJson.words;
 
-  if (digitalPaperEditTranscriptJson.paragraphs) {
-    speakerSegmentation = digitalPaperEditTranscriptJson.paragraphs;
-  }
+  const { words, paragraphs } = digitalPaperEditTranscriptJson;
 
-  if (!speakerSegmentation) {
-    wordsByParagraphs = groupWordsInParagraphs(tmpWords);
+  if (!paragraphs) {
+    wordsByParagraphs = groupWordsInParagraphs(words);
   } else {
-    wordsByParagraphs = groupWordsInParagraphsBySpeakers(tmpWords, digitalPaperEditTranscriptJson.paragraphs );
+    wordsByParagraphs = groupWordsInParagraphsBySpeakers(words, paragraphs);
   }
 
-  wordsByParagraphs.forEach((paragraph, i) => {
-    // if paragraph contain words
-    // eg sometimes the speaker segmentation might not contain words :man-shrugging:
-    if (paragraph.words[0]) {
-      let speakerLabel = `TBC ${ i }`;
-      if (speakerSegmentation) {
-        speakerLabel = paragraph.speaker;
-      }
-
-      const draftJsContentBlockParagraph = {
-        text: paragraph.text,
-        type: 'paragraph',
-        data: {
-          speaker: speakerLabel,
-          words: paragraph.words,
-          start: paragraph.words[0].start
-        },
-        // the entities as ranges are each word in the space-joined text,
-        // so it needs to be compute for each the offset from the beginning of the paragraph and the length
-        entityRanges: generateEntitiesRanges(paragraph.words, 'text') // wordAttributeName
-      };
-      results.push(draftJsContentBlockParagraph);
+  const results = wordsByParagraphs.map((paragraph, i) => {
+    if (!paragraph.speaker) {
+      paragraph.speaker = `TBC ${ i }`;
     }
+
+    return generateDraftJsContentBlock(paragraph);
   });
 
   return results;