grantjenks · kvakil · Oct 11, 2019
diff --git a/lowercase_ngrams.py b/lowercase_ngrams.py
@@ -0,0 +1,30 @@
+"""Merges frequencies of uppercase and lowercase n-grams.
+
+For example, if the input looks like this:
+
+    aa bb   5
+    Aa bb   3
+    Cc dd   2
+    ee ff   1
+
+This tool outputs:
+
+    aa bb   8
+    cc dd   2
+    ee ff   1
+
+"""
+from __future__ import print_function
+
+import sys
+from collections import Counter
+
+if __name__ == '__main__':
+    ngram_frequency = Counter()
+    for line in sys.stdin:
+        ngram, count = line.split('\t')
+        ngram, count = ngram.lower(), int(count)
+        ngram_frequency[ngram] += count
+
+    for ngram, count in sorted(ngram_frequency.items()):
+        print(ngram, count, sep='\t')
diff --git a/tests/test_coverage.py b/tests/test_coverage.py
@@ -93,6 +93,10 @@ def test_segment_12():
     ]
     assert segment(''.join(result)) == result
 
+def test_segment_13():
+    result = ['hello', 'world']
+    assert segment(''.join(result)) == result
+
 def test_main():
     main(['tests/test.txt'])
     result = os.linesep.join(('choose spain', 'this is a test')) + os.linesep