RUCKBReasoning · wasabi9 · Oct 30, 2023
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,4 @@
+data/*
+database/*
+models/*
+*.pyc
diff --git a/NatSQL/natsql2sql/preprocess/TokenString.py b/NatSQL/natsql2sql/preprocess/TokenString.py
@@ -245,21 +245,21 @@ def get_spacy_tokenizer():
         return global_tokenizer
 
     import spacy
-    from spacy.symbols import ORTH, LEMMA
+    from spacy.symbols import ORTH, NORM
     nlp = spacy.load("en_core_web_sm")
     import re
     from spacy.tokenizer import Tokenizer
 
-    suffixes = nlp.Defaults.suffixes +  (r'((\d{4}((_|-|/){1}\d{2}){2})|((\d{2})(_|-|/)){2}\d{4})(\s\d{2}(:\d{2}){2}){0,1}',) + (r'(\d{1,2}(st|nd|rd|th){0,1}(,|\s)){0,1}((J|j)an(uary){0,1}|(F|f)eb(ruary){0,1}|(M|m)ar(ch){0,1}|(A|a)pr(il){0,1}|(M|m)ay|(J|j)un(e){0,1}|(J|j)ul(y){0,1}|(A|a)ug(ust){0,1}|(S|s)ep(tember){0,1}|(O|o)ct(ober){0,1}|(N|n)ov(ember){0,1}|(D|d)ec(ember){0,1})(\s|,)(\d{1,2}(st|nd|rd|th){0,1}(\s|,){1,3}){0,1}\d{4}',) + ( r'(\d{1,6}(_|-|\+|/)\d{0,6}[A-Za-z]{0,6}\d{0,6}[A-Za-z]{0,6})',)
+    suffixes = nlp.Defaults.suffixes +  list((r'((\d{4}((_|-|/){1}\d{2}){2})|((\d{2})(_|-|/)){2}\d{4})(\s\d{2}(:\d{2}){2}){0,1}',) + (r'(\d{1,2}(st|nd|rd|th){0,1}(,|\s)){0,1}((J|j)an(uary){0,1}|(F|f)eb(ruary){0,1}|(M|m)ar(ch){0,1}|(A|a)pr(il){0,1}|(M|m)ay|(J|j)un(e){0,1}|(J|j)ul(y){0,1}|(A|a)ug(ust){0,1}|(S|s)ep(tember){0,1}|(O|o)ct(ober){0,1}|(N|n)ov(ember){0,1}|(D|d)ec(ember){0,1})(\s|,)(\d{1,2}(st|nd|rd|th){0,1}(\s|,){1,3}){0,1}\d{4}',) + ( r'(\d{1,6}(_|-|\+|/)\d{0,6}[A-Za-z]{0,6}\d{0,6}[A-Za-z]{0,6})',))
     suffix_regex = spacy.util.compile_suffix_regex(suffixes)
     nlp.tokenizer.suffix_search = suffix_regex.search
 
-    nlp.tokenizer.add_special_case(u'Ph.D', [{ORTH: u'Ph.D', LEMMA: u'ph.d'}])
-    nlp.tokenizer.add_special_case(u'id', [{ORTH: u'id', LEMMA: u'id'}])
-    nlp.tokenizer.add_special_case(u'Id', [{ORTH: u'Id', LEMMA: u'id'}])
-    nlp.tokenizer.add_special_case(u'ID', [{ORTH: u'ID', LEMMA: u'id'}])
-    nlp.tokenizer.add_special_case(u'iD', [{ORTH: u'iD', LEMMA: u'id'}])
-    nlp.tokenizer.add_special_case(u'statuses', [{ORTH: u'statuses', LEMMA: u'status'}])
+    nlp.tokenizer.add_special_case(u'Ph.D', [{ORTH: u'Ph.D', NORM: u'ph.d'}])
+    nlp.tokenizer.add_special_case(u'id', [{ORTH: u'id', NORM: u'id'}])
+    nlp.tokenizer.add_special_case(u'Id', [{ORTH: u'Id', NORM: u'id'}])
+    nlp.tokenizer.add_special_case(u'ID', [{ORTH: u'ID', NORM: u'id'}])
+    nlp.tokenizer.add_special_case(u'iD', [{ORTH: u'iD', NORM: u'id'}])
+    nlp.tokenizer.add_special_case(u'statuses', [{ORTH: u'statuses', NORM: u'status'}])
 
     global_tokenizer = Tokenizer_Similar_Allennlp(nlp)
     global_spacy = nlp