Fix codes for ham/spam messages

bryanwweber · bryanwweber · commit b1773896b108 · 2020-03-08T13:07:19.000-04:00
Newer versions of SciPy are not deterministic about which code goes to
which cluster category. Uses argmin to get the index of the lowest
indexed unique code. From the setup of the model, this is the ham
category. Likewise, the highest indexed unique code is the spam
category. The code for the unknown value is then the one value remaining
that hasn't been used yet from 0, 1, or 2.
diff --git a/python-scipy-cluster-optimize/cluster_sms_spam.py b/python-scipy-cluster-optimize/cluster_sms_spam.py
@@ -20,19 +20,25 @@
 codebook, _ = kmeans(whitened_counts, 3)
 codes, _ = vq(whitened_counts, codebook)
 
-print("definitely spam:", unique_counts[codes == 0][-1])
-print("definitely ham:", unique_counts[codes == 1][-1])
-print("unknown:", unique_counts[codes == 2][-1])
+possible_codes = {0, 1, 2}
+unique_codes, code_indices = np.unique(codes, return_index=True)
+ham_code = unique_codes[np.argmin(code_indices)]
+spam_code = unique_codes[np.argmax(code_indices)]
+unknown_code = list(possible_codes ^ set((ham_code, spam_code)))[0]
+
+print("definitely ham:", unique_counts[codes == ham_code][-1])
+print("definitely spam:", unique_counts[codes == spam_code][-1])
+print("unknown:", unique_counts[codes == unknown_code][-1])
 
 digits = digit_counts[:, 1]
 predicted_hams = digits == 0
 predicted_spams = digits > 20
 predicted_unknowns = np.logical_and(digits > 0, digits <= 20)
 
-spam_cluster = digit_counts[predicted_spams]
 ham_cluster = digit_counts[predicted_hams]
+spam_cluster = digit_counts[predicted_spams]
 unknown_cluster = digit_counts[predicted_unknowns]
 
-print("definitely ham:", np.unique(ham_cluster[:, 0], return_counts=True))
-print("definitely spam:", np.unique(spam_cluster[:, 0], return_counts=True))
-print("unknown:", np.unique(unknown_cluster[:, 0], return_counts=True))
+print("hams:", np.unique(ham_cluster[:, 0], return_counts=True))
+print("spams:", np.unique(spam_cluster[:, 0], return_counts=True))
+print("unknowns:", np.unique(unknown_cluster[:, 0], return_counts=True))