kaldi-asr
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 0 deletions b/‎.gitignore‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎CMakeLists.txt‎
Lines changed: 13 additions & 0 deletions b/‎CMakeLists.txt‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎cmake/gen_cmake_skeleton.py‎
Lines changed: 80 additions & 37 deletions b/‎cmake/gen_cmake_skeleton.py‎
Lines changed: 80 additions & 37 deletions
diff --git a/‎egs/babel/s5/local/kws_search.sh‎
Lines changed: 2 additions & 2 deletions b/‎egs/babel/s5/local/kws_search.sh‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎egs/chime6/s5_track2/RESULTS‎
Lines changed: 2 additions & 2 deletions b/‎egs/chime6/s5_track2/RESULTS‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎egs/chime6/s5_track2/local/get_hyp_perspeaker_perarray_file.py‎
Lines changed: 9 additions & 2 deletions b/‎egs/chime6/s5_track2/local/get_hyp_perspeaker_perarray_file.py‎
Lines changed: 9 additions & 2 deletions
diff --git a/‎egs/chime6/s5_track2/local/get_ref_perspeaker_persession_file.py‎
Lines changed: 10 additions & 3 deletions b/‎egs/chime6/s5_track2/local/get_ref_perspeaker_persession_file.py‎
Lines changed: 10 additions & 3 deletions
diff --git a/‎egs/formosa/s5/local/prepare_data.sh‎
Lines changed: 7 additions & 7 deletions b/‎egs/formosa/s5/local/prepare_data.sh‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎egs/gale_arabic/s5d/RESULTS‎
Lines changed: 19 additions & 0 deletions b/‎egs/gale_arabic/s5d/RESULTS‎
Lines changed: 19 additions & 0 deletions
@@ -153,6 +153,8 @@ GSYMS
 /tools/cub-1.8.0/
 /tools/cub
 /tools/python/
+/tools/ngram-1.3.7.tar.gz
+/tools/ngram-1.3.7/
 
 # These CMakeLists.txt files are all genareted on the fly at the moment.
 # They are added here to avoid accidently checkin.
 
@@ -203,9 +203,22 @@ if(CUDA_FOUND)
 endif()
 
 # add all native executables
+add_subdirectory(src/bin)
 add_subdirectory(src/gmmbin)
 add_subdirectory(src/featbin)
+add_subdirectory(src/sgmm2bin)
+add_subdirectory(src/fstbin)
+add_subdirectory(src/lmbin)
+add_subdirectory(src/latbin)
+add_subdirectory(src/nnetbin)
+add_subdirectory(src/nnet2bin)
+add_subdirectory(src/nnet3bin)
+add_subdirectory(src/rnnlmbin)
+add_subdirectory(src/chainbin)
+add_subdirectory(src/ivectorbin)
 add_subdirectory(src/onlinebin)
+add_subdirectory(src/online2bin)
+add_subdirectory(src/kwsbin)
 
 # add all cuda executables
 if(CUDA_FOUND)
 
@@ -1,6 +1,7 @@
 import os
 import sys
 import re
+import fnmatch
 import argparse
 
 # earily parse, will refernece args globally
@@ -34,9 +35,20 @@ def is_test_source(f):
 def is_source(f):
     return f.endswith(".cc") and not is_test_source(f)
 
-def dir_name_to_lib_target(dir_name):
+def lib_dir_name_to_lib_target(dir_name):
     return "kaldi-" + dir_name
 
+def bin_dir_name_to_lib_target(dir_name):
+    """return the primary lib target for all executable targets in this bin dir"""
+    assert is_bin_dir(dir_name)
+    if dir_name == "bin":
+        # NOTE: "kaldi-util" might be a more strict primary lib target...
+        return "kaldi-hmm"
+    elif dir_name == "fstbin":
+        return "kaldi-fstext"
+    else:
+        return "kaldi-" + dir_name[:-3]
+
 def wrap_notwin32_condition(should_wrap, lines):
     if isinstance(lines, str):
         lines = [lines]
@@ -48,42 +60,73 @@ def wrap_notwin32_condition(should_wrap, lines):
 
 def get_exe_additional_depends(t):
     additional = {
-        "transform-feats" : ["transform"],
-        "interpolate-pitch" : ["transform"],
+        # solve bin
+        "align-*": ["decoder"],
+        "compile-*graph*": ["decoder"],
+        "decode-faster": ["decoder"],
+        "latgen-faster-mapped": ["decoder"],
+        "latgen-faster-mapped-parallel": ["decoder"],
+        "latgen-incremental-mapped": ["decoder"],
+        "decode-faster-mapped": ["decoder"],
+        "sum-lda-accs": ["transform"],
+        "sum-mllt-accs": ["transform"],
+        "est-mllt": ["transform"],
+        "est-lda": ["transform"],
+        "acc-lda": ["transform"],
+        "build-pfile-from-ali": ["gmm"],
+        "make-*-transducer": ["fstext"],
+        "phones-to-prons": ["fstext"],
+
+        # solve gmmbin
         "post-to-feats" : ["hmm"],
         "append-post-to-feats" : ["hmm"],
+        "gmm-*": ["hmm", "transform"],
+        "gmm-latgen-*": ["decoder"],
+        "gmm-decode-*": ["decoder"],
+        "gmm-align": ["decoder"],
+        "gmm-align-compiled": ["decoder"],
         "gmm-est-fmllr-gpost": ["sgmm2", "hmm"],
-        "gmm-est-fmllr": ["hmm", "transform"],
-        "gmm-latgen-faster": ["decoder"],
-        "gmm-transform-means": ["hmm"],
-        "gmm-post-to-gpost": ["hmm"],
-        "gmm-init-lvtln": ["transform"],
         "gmm-rescore-lattice": ["hmm", "lat"],
-        "gmm-est-fmllr-global": ["transform"],
-        "gmm-copy": ["hmm"],
-        "gmm-train-lvtln-special": ["transform", "hmm"],
-        "gmm-est-map": ["hmm"],
-        "gmm-acc-stats2": ["hmm"],
-        "gmm-decode-faster-regtree-mllr": ["decoder"],
-        "gmm-global-est-fmllr": ["transform"],
-        "gmm-est-basis-fmllr": ["hmm", "transform"],
-        "gmm-init-model": ["hmm"],
-        "gmm-est-weights-ebw": ["hmm"],
-        "gmm-init-biphone": ["hmm"],
-        "gmm-compute-likes": ["hmm"],
-        "gmm-est-fmllr-raw-gpost": ["hmm", "transform"],
-        # gmm-* is a bottom case, it will add link dependencies to all other
-        # target whose names start with gmm-, it is harmless, but will increase
-        # link time. Better to avoid it at best.
-        "gmm-*": ["hmm", "transform", "lat", "decoder"],
+
+        # solve fstbin
+        "make-grammar-fst": ["decoder"],
+
+        # solve sgmm2bin
+        "sgmm2-*": ["hmm"],
+        "sgmm2-latgen-faster*": ["decoder"],
+        "sgmm2-align-compiled": ["decoder"],
+        "sgmm2-rescore-lattice": ["lat"],
+        "init-ubm": ["hmm"],
+
+        # solve nnetbin
+        "nnet-train-mmi-sequential": ["lat"],
+        "nnet-train-mpe-sequential": ["lat"],
+
+        # solve nnet2bin
+        "nnet-latgen-faster*": ["fstext", "decoder"],
+        "nnet-align-compiled": ["decoder"],
+        "nnet1-to-raw-nnet": ["nnet"],
+
+        # solve chainbin
+        "nnet3-chain-*": ["nnet3"],
+
+        # solve latbin
+        "lattice-compose": ["fstext"],
+        "lattice-lmrescore": ["fstext"],
+        "lattice-lmrescore-*": ["fstext", "rnnlm"],
+
+        # solve ivectorbin
+        "ivector-extract*": ["hmm"],
+
+        # solve kwsbin
+        "generate-proxy-keywords": ["fstext"],
+        "transcripts-to-fsts": ["fstext"],
     }
-    if t in additional:
-        return list(map(lambda name: dir_name_to_lib_target(name), additional[t]))
-    elif (t.split("-", 1)[0] + "-*") in additional:
-        wildcard = (t.split("-", 1)[0] + "-*")
-        return list(map(lambda name: dir_name_to_lib_target(name), additional[wildcard]))
-    else:
-        return []
+    l = []
+    for pattern in additional.keys():
+        if fnmatch.fnmatch(t, pattern):
+            l.extend(list(map(lambda name: lib_dir_name_to_lib_target(name), additional[pattern])))
+    return sorted(list(set(l)))
 
 def disable_for_win32(t):
     disabled = [
@@ -98,7 +141,7 @@ def disable_for_win32(t):
 class CMakeListsHeaderLibrary(object):
     def __init__(self, dir_name):
         self.dir_name = dir_name
-        self.target_name = dir_name_to_lib_target(self.dir_name)
+        self.target_name = lib_dir_name_to_lib_target(self.dir_name)
         self.header_list = []
 
     def add_header(self, filename):
@@ -123,8 +166,8 @@ def gen_code(self):
 
         ret.append("add_library(" + self.target_name + " INTERFACE)")
         ret.append("target_include_directories(" + self.target_name + " INTERFACE ")
-        ret.append("     $<BUILD_INTERFACE:${CMAKE_CURRENT_SOURCE_DIR}/..>")
-        ret.append("     $<INSTALL_INTERFACE:include/kaldi>")
+        ret.append("    $<BUILD_INTERFACE:${CMAKE_CURRENT_SOURCE_DIR}/..>")
+        ret.append("    $<INSTALL_INTERFACE:include/kaldi>")
         ret.append(")\n")
 
         ret.append("""
@@ -139,7 +182,7 @@ class CMakeListsLibrary(object):
 
     def __init__(self, dir_name):
         self.dir_name = dir_name
-        self.target_name = dir_name_to_lib_target(self.dir_name)
+        self.target_name = lib_dir_name_to_lib_target(self.dir_name)
         self.header_list = []
         self.source_list = []
         self.cuda_source_list = []
@@ -241,7 +284,7 @@ def __init__(self, dir_name, filename):
         self.list = []
         exe_name = os.path.splitext(os.path.basename(filename))[0]
         file_name = filename
-        depend = dir_name_to_lib_target(dir_name[:-3])
+        depend = bin_dir_name_to_lib_target(dir_name)
         self.list.append((exe_name, file_name, depend))
 
     def gen_code(self):
 
@@ -144,7 +144,7 @@ if [ $stage -le 2 ]; then
   echo "Writing normalized results"
   $cmd LMWT=$min_lmwt:$max_lmwt $kwsoutdir/write_normalized.LMWT.log \
     set -e ';' set -o pipefail ';'\
-    cat ${kwsoutdir}_LMWT/result.* \| \
+    gunzip -c ${kwsoutdir}_LMWT/result.* \| \
       utils/write_kwslist.pl  --Ntrue-scale=$ntrue_scale --flen=0.01 --duration=$duration \
         --segments=$datadir/segments --normalize=true --duptime=$duptime --remove-dup=true\
         --map-utter=$kwsdatadir/utter_map --digits=3 \
@@ -155,7 +155,7 @@ if [ $stage -le 3 ]; then
   echo "Writing unnormalized results"
   $cmd LMWT=$min_lmwt:$max_lmwt $kwsoutdir/write_unnormalized.LMWT.log \
     set -e ';' set -o pipefail ';'\
-    cat ${kwsoutdir}_LMWT/result.* \| \
+    gunzip -c ${kwsoutdir}_LMWT/result.* \| \
         utils/write_kwslist.pl --Ntrue-scale=$ntrue_scale --flen=0.01 --duration=$duration \
           --segments=$datadir/segments --normalize=false --duptime=$duptime --remove-dup=true\
           --map-utter=$kwsdatadir/utter_map \
 
@@ -14,5 +14,5 @@ Dev     57.15     83.96
 Eval    54.12     80.33
 
 # ASR nnet3 tdnn+chain
-Dev:  U06 %WER 81.18 [ 58881 / 47798, 1638 ins, 30528 del, 15632 sub ]
-Eval: U06 %WER 85.39 [ 55132 / 47076, 1107 ins, 27768 del, 18201 sub ]
+Dev:  %WER 84.33 [ 49653 / 58881, 1529 ins, 35813 del, 12311 sub ]
+Eval: %WER 78.08 [ 43046 / 55132, 957 ins, 32045 del, 10044 sub ]
@@ -39,11 +39,18 @@ def main():
         combined_hyp_file = args.output_dir_path + '/' + 'hyp' + '_' + sessionid_micid_speakerid + '_comb'
         combined_hyp_writer = open(combined_hyp_file, 'w')
         utterances = sessionid_micid_speakerid_dict[sessionid_micid_speakerid]
-        text = ''
+        # sorting utterances by start and end time
+        sessionid_micid_speakerid_utterances={}
         for line in utterances:
             parts = line.strip().split()
+            utt_parts = parts[0].strip().split('-')
+            time ='-'.join(utt_parts[2:])
+            sessionid_micid_speakerid_utterances[time] = line
+        text = ''
+        for time_key in sorted(sessionid_micid_speakerid_utterances):
+            parts = sessionid_micid_speakerid_utterances[time_key].strip().split()
             text = text + ' ' + ' '.join(parts[1:])
-            hyp_writer.write(line)
+            hyp_writer.write(sessionid_micid_speakerid_utterances[time_key])
         combined_utterance = 'utt' + " " + text
         combined_hyp_writer.write(combined_utterance)
         combined_hyp_writer.write('\n')
 
@@ -55,14 +55,21 @@ def main():
             spkrid_mapping[sessionid_speakerid.split('_')[1]]) + '_comb'
         combined_ref_writer = open(combined_ref_file, 'w')
         utterances = sessionid_speakerid_dict[sessionid_speakerid]
-        text = ''
-        uttid_wc = 'utt'
+        sessionid_speakerid_utterances = {}
+        # sorting utterances by start and end time
         for line in utterances:
             parts = line.strip().split()
+            utt_parts = parts[0].strip().split('-')
+            time ='-'.join(utt_parts[1:])
+            sessionid_speakerid_utterances[time] = line
+        text = ''
+        uttid_wc = 'utt'
+        for time_key in sorted(sessionid_speakerid_utterances):
+            parts = sessionid_speakerid_utterances[time_key].strip().split()
             uttid_id = parts[0]
             utt_text = ' '.join(parts[1:])
             text = text + ' ' + ' '.join(parts[1:])
-            ref_writer.write(line)
+            ref_writer.write(sessionid_speakerid_utterances[time_key])
             length = str(len(utt_text.split()))
             uttid_id_len = uttid_id + ":" + length
             uttid_wc = uttid_wc + ' ' + uttid_id_len
 
@@ -26,15 +26,15 @@ if [ -z "$(command -v dos2unix 2>/dev/null)" ]; then
     exit 1;
 fi
 
-# have to remvoe previous files to avoid filtering speakers according to cmvn.scp and feats.scp
+# have to remove previous files to avoid filtering speakers according to cmvn.scp and feats.scp
 rm -rf   data/all data/train data/test data/eval data/local/train
 mkdir -p data/all data/train data/test data/eval data/local/train
 
 
 # make utt2spk, wav.scp and text
-find $train_dir -name *.wav -exec sh -c 'x={}; y=$(basename -s .wav $x); printf "%s %s\n"     $y $y' \; | dos2unix > data/all/utt2spk
-find $train_dir -name *.wav -exec sh -c 'x={}; y=$(basename -s .wav $x); printf "%s %s\n"     $y $x' \; | dos2unix > data/all/wav.scp
-find $train_dir -name *.txt -exec sh -c 'x={}; y=$(basename -s .txt $x); printf "%s " $y; cat $x'    \; | dos2unix > data/all/text
+find -L $train_dir -name *.wav -exec sh -c 'x={}; y=$(basename -s .wav $x); printf "%s %s\n"     $y $y' \; | sed 's/\xe3\x80\x80\|\xc2\xa0//g' | dos2unix > data/all/utt2spk
+find -L $train_dir -name *.wav -exec sh -c 'x={}; y=$(basename -s .wav $x); printf "%s %s\n"     $y $x' \; | sed 's/\xe3\x80\x80\|\xc2\xa0//g' | dos2unix > data/all/wav.scp
+find -L $train_dir -name *.txt -exec sh -c 'x={}; y=$(basename -s .txt $x); printf "%s " $y; cat $x'    \; | sed 's/\xe3\x80\x80\|\xc2\xa0//g' | dos2unix > data/all/text
 
 # fix_data_dir.sh fixes common mistakes (unsorted entries in wav.scp,
 # duplicate entries and so on). Also, it regenerates the spk2utt from
@@ -51,9 +51,9 @@ echo "cp data/train/text data/local/train/text for language model training"
 cat data/train/text | awk '{$1=""}1;' | awk '{$1=$1}1;' > data/local/train/text
 
 # preparing EVAL set.
-find $eval_dir     -name *.wav -exec sh -c 'x={}; y=$(basename -s .wav $x); printf "%s %s\n"     $y $y' \; | dos2unix > data/eval/utt2spk
-find $eval_dir     -name *.wav -exec sh -c 'x={}; y=$(basename -s .wav $x); printf "%s %s\n"     $y $x' \; | dos2unix > data/eval/wav.scp
-find $eval_key_dir -name *.txt -exec sh -c 'x={}; y=$(basename -s .txt $x); printf "%s " $y; cat $x'    \; | dos2unix > data/eval/text
+find -L $eval_dir     -name *.wav -exec sh -c 'x={}; y=$(basename -s .wav $x); printf "%s %s\n"     $y $y' \; | sed 's/\xe3\x80\x80\|\xc2\xa0//g' | dos2unix > data/eval/utt2spk
+find -L $eval_dir     -name *.wav -exec sh -c 'x={}; y=$(basename -s .wav $x); printf "%s %s\n"     $y $x' \; | sed 's/\xe3\x80\x80\|\xc2\xa0//g' | dos2unix > data/eval/wav.scp
+find -L $eval_key_dir -name *.txt -exec sh -c 'x={}; y=$(basename -s .txt $x); printf "%s " $y; cat $x'    \; | sed 's/\xe3\x80\x80\|\xc2\xa0//g' | dos2unix > data/eval/text
 utils/fix_data_dir.sh data/eval
 
 echo "Data preparation completed."
 
@@ -0,0 +1,19 @@
+tri1
+%WER 40.91 [ 32272 / 78894, 2147 ins, 7478 del, 22647 sub ] exp/tri1/decode/wer_12_0.5
+tri2b
+%WER 36.68 [ 28936 / 78894, 2752 ins, 5682 del, 20502 sub ] exp/tri2b/decode/wer_13_0.0
+tri3b
+%WER 35.35 [ 27892 / 78894, 2587 ins, 7024 del, 18281 sub ] exp/tri3b/decode/wer_14_0.0
+
+chain for dev set
+%WER 16.60 [ 13094 / 78894, 1314 ins, 2992 del, 8788 sub ] exp/chain/tdnn_1a_sp/decode_dev/wer_9_0.0
+rnnlm-rescoring for dev set
+%WER 15.02 [ 11846 / 78894, 1248 ins, 2836 del, 7762 sub ] exp/chain/tdnn_1a_sp/decode_dev_rnnlm_1e_0.45/wer_9_0.0
+
+chain for test_p2 set
+%WER 14.95 [ 10416 / 69668, 1129 ins, 2593 del, 6694 sub ] exp/chain/tdnn_1a_sp/decode_test_p2/wer_9_0.0
+rnnlm-rescoring for test_p2 set
+%WER 13.51 [ 9413 / 69668, 1059 ins, 2517 del, 5837 sub ] exp/chain/tdnn_1a_sp/decode_test_p2_rnnlm_1e_0.45/wer_9_0.0
+
+rnnlm-rescoring for mt_eval set
+%WER 12.02 [ 10829 / 90112, 1483 ins, 2401 del, 6945 sub ] exp/chain/tdnn_1a_sp/decode_mt_all_rnnlm_1e_0.45/wer_9_0.0