Update phishing_email_detection_gpt2.py

david-thrower · web-flow · commit 7d3787bfe80b · 2025-09-06T21:10:44.000-04:00
1. Test SmollmV3 tokenizer.
2. Get saved model sizes.
diff --git a/phishing_email_detection_gpt2.py b/phishing_email_detection_gpt2.py
@@ -32,6 +32,7 @@
 from ast import literal_eval
 import time
 from gc import collect
+from os.path import getsize
 
 #
 # Load the email data
@@ -403,7 +404,7 @@ def from_config(cls, config):
 
 # Optimal for accuracy thus far:
 max_seq_length = 1536
-tokenizer_checkpoint = "HuggingFaceTB/SmolLM2-1.7B-Instruct"
+tokenizer_checkpoint = "HuggingFaceTB/SmolLM3-3B"
 
 inp = tf.keras.layers.Input(shape=(), dtype=tf.string)
 gp2_tokenizer = NewTokenizerLayer(max_seq_length=max_seq_length,tokenizer_checkpoint=tokenizer_checkpoint)
@@ -550,6 +551,9 @@ def from_config(cls, config):
 del(cerebros_automl)
 collect()
 
+file_size_bytes = getsize(MODEL_FILE_NAME)
+print(f"Model size on disk: {file_size_bytes / (1024*1024):.2f} MB")
+
 reconstituted_model = tf.keras.models.load_model(MODEL_FILE_NAME)
 test_x_packaged = [test_x_tf]
 test_y_packaged = [test_y_tf]