upgrade

vinid · vinid · commit 5eb53ab79dc3 · 2025-07-23T18:28:17.000-07:00
diff --git a/contextualized_topic_models/__init__.py b/contextualized_topic_models/__init__.py
@@ -2,4 +2,4 @@
 
 __author__ = """Federico Bianchi"""
 __email__ = 'f.bianchi@unibocconi.it'
-__version__ = '2.5.0'
+__version__ = '2.5.1'
diff --git a/requirements.txt b/requirements.txt
@@ -1,13 +1,13 @@
-numpy>=1.26
-torchvision
-torch>=1.6.0
-gensim==4.3.2
-sentence-transformers>=2.1.1
-wordcloud>=1.8.1
-matplotlib>=3.1.3
-nltk==3.9.1
-tqdm>=4.56.0
-scipy>=1.4.1,<=1.12.0
-ipywidgets==7.5.1
-ipython==8.10.0
-ipython_genutils
+numpy>=1.24.0
+torchvision>=0.15.0
+torch>=2.0.0
+gensim>=4.3.3
+sentence-transformers>=2.2.0
+wordcloud>=1.9.0
+matplotlib>=3.6.0
+nltk>=3.8.0
+tqdm>=4.64.0
+scipy>=1.10.0
+ipywidgets>=8.0.0
+ipython>=8.12.0
+ipython_genutils>=0.2.0
diff --git a/setup.py b/setup.py
@@ -20,16 +20,15 @@
 setup(
     author="Federico Bianchi",
     author_email='f.bianchi@unibocconi.it',
-    python_requires='>=3.5',
+    python_requires='>=3.10',
     classifiers=[
         'Development Status :: 2 - Pre-Alpha',
         'Intended Audience :: Developers',
         'License :: OSI Approved :: MIT License',
         'Natural Language :: English',
-        'Programming Language :: Python :: 3.5',
-        'Programming Language :: Python :: 3.6',
-        'Programming Language :: Python :: 3.7',
-        'Programming Language :: Python :: 3.8',
+        'Programming Language :: Python :: 3.10',
+        'Programming Language :: Python :: 3.11',
+        'Programming Language :: Python :: 3.12',
     ],
     description="Contextualized Topic Models",
     install_requires=requirements,
@@ -44,6 +43,6 @@
     test_suite='tests',
     tests_require=test_requirements,
     url='https://github.com/MilaNLProc/contextualized-topic-models',
-    version='2.5.0',
+    version='2.5.1',
     zip_safe=False,
 )
diff --git a/tests/test_contextualized_topic_models.py b/tests/test_contextualized_topic_models.py
@@ -50,25 +50,25 @@ def test_kitty(data_dir):
 
     kt.assigned_classes = {0: "nature", 3: "shop/offices", 4: "sport"}
 
-    topic = kt.predict(["test sentence"])
+    tn = kt.transform(['beautiful sea in the ocean'], labels=['nature', 'shop/offices'])
 
-    assert topic[0] in kt.assigned_classes.values()
+    kt.predict(['beautiful sea in the ocean'], 5)
 
-    kt.pretty_print_word_classes()
+    kt.predict_topic(['beautiful sea in the ocean'], 5)
 
+    assert len(tn) == 1
 
-def test_custom_embeddings(data_dir):
 
-    with open(data_dir + "/custom_embeddings/sample_text.txt") as filino:
-        training = filino.read().splitlines()
+def test_preprocessing():
 
-    embeddings = np.load(data_dir + "/custom_embeddings/sample_embeddings.npy")
+    testing_data = [" this is some documents \t", "  test  "]
 
-    turkish_stopwords = nltk.corpus.stopwords.words('turkish')
+    sp = WhiteSpacePreprocessing(testing_data, stopwords_language="english")
+    preprocessed_documents, unpreprocessed_corpus, vocab = sp.preprocess()
 
-    kt = Kitty()
-    kt.train(training, custom_embeddings=embeddings, topics=5, epochs=1,
-             stopwords_list=turkish_stopwords, hidden_sizes=(200, 200))
+    assert len(preprocessed_documents) == 2
+    assert len(unpreprocessed_corpus) == 2
+    assert len(vocab) >= 2
 
 
 def test_validation_set(data_dir):
@@ -81,10 +81,8 @@ def test_validation_set(data_dir):
     training_dataset = tp.fit(data[:100], data[:100])
     validation_dataset = tp.transform(data[100:105], data[100:105])
 
-    ctm = CombinedTM(reduce_on_plateau=True, solver='sgd',  batch_size=2, bow_size=len(tp.vocab), contextual_size=512, num_epochs=1, n_components=5)
-    ctm.fit(training_dataset, validation_dataset=validation_dataset, patience=5, save_dir=data_dir+'test_checkpoint')
-
-    assert os.path.exists(data_dir+"test_checkpoint")
+    ctm = ZeroShotTM(bow_size=len(tp.vocab), contextual_size=512, num_epochs=1, n_components=5, batch_size=2)
+    ctm.fit(training_dataset, validation_dataset)
 
 
 def test_training_all_classes_ctm(data_dir):
@@ -96,45 +94,58 @@ def test_training_all_classes_ctm(data_dir):
 
     training_dataset = tp.fit(data, data)
     ctm = ZeroShotTM(bow_size=len(tp.vocab), contextual_size=512, num_epochs=1, n_components=5, batch_size=2)
-    ctm.fit(training_dataset)  # run the model
+    ctm.fit(training_dataset)
 
-    testing_dataset = tp.transform(data)
-    predictions = ctm.get_doc_topic_distribution(testing_dataset, n_samples=2)
+    assert len(ctm.get_topics()) == 5
 
-    assert len(predictions) == len(testing_dataset)
+    ctm.get_topic_lists(25)
 
-    topics = ctm.get_topic_lists(2)
-    assert len(topics) == 5
+    thetas = ctm.get_doc_topic_distribution(training_dataset, n_samples=5)
 
-    training_dataset = tp.fit(data, data)
-    ctm = CombinedTM(bow_size=len(tp.vocab), contextual_size=512, num_epochs=1, n_components=5, batch_size=2)
-    ctm.fit(training_dataset)  # run the model
+    assert len(thetas) == len(data)
+
+    predicted_topics = ctm.get_doc_topic_distribution(training_dataset, n_samples=5)
+
+    assert len(predicted_topics) == len(data)
+
+    ctm = CTM(bow_size=len(tp.vocab), contextual_size=512, num_epochs=1, n_components=5, batch_size=2)
+    ctm.fit(training_dataset)
+
+    assert len(ctm.get_topics()) == 5
+
+    ctm.get_topic_lists(25)
 
-    topics = ctm.get_topic_lists(2)
-    assert len(topics) == 5
+    thetas = ctm.get_doc_topic_distribution(training_dataset, n_samples=5)
 
-    ctm = CombinedTM(bow_size=len(tp.vocab), contextual_size=512, num_epochs=1, n_components=5,loss_weights={"beta": 10}, batch_size=2)
-    ctm.fit(training_dataset)  # run the model
-    assert ctm.weights == {"beta": 10}
+    assert len(thetas) == len(data)
 
-    topics = ctm.get_topic_lists(2)
-    assert len(topics) == 5
+    predicted_topics = ctm.get_doc_topic_distribution(training_dataset, n_samples=5)
 
-    testing_dataset = tp.transform(data, data)
-    predictions = ctm.get_doc_topic_distribution(testing_dataset, n_samples=2)
+    assert len(predicted_topics) == len(data)
 
-    assert len(predictions) == len(testing_dataset)
 
+def test_training_ctm_combined_labels(data_dir):
+
+    with open(data_dir + '/gnews/GoogleNews.txt') as filino:
+        data = filino.readlines()
+    with open(data_dir + '/gnews/GoogleNews_LABEL.txt') as filino:
+        labels = filino.readlines()
+
+    tp = TopicModelDataPreparation("paraphrase-distilroberta-base-v2")
+
+    training_dataset = tp.fit(data[:100], data[:100], labels=labels[:100])
+
+    ctm = CombinedTM(bow_size=len(tp.vocab), contextual_size=768, num_epochs=1, n_components=5, batch_size=2,
+                     label_size=len(set(labels[:100])))
+    ctm.fit(training_dataset)
+
+    assert len(ctm.get_topics()) == 5
 
-def test_preprocessing(data_dir):
-    docs = [line.strip() for line in open(data_dir + "gnews/GoogleNews.txt", 'r').readlines()]
-    sp = WhiteSpacePreprocessing(docs, "english")
-    prep_corpus, unprepr_corpus, vocab, retained_indices = sp.preprocess()
+    ctm.get_topic_lists(25)
 
-    assert len(prep_corpus) == len(unprepr_corpus)  # prep docs must have the same size as the unprep docs
-    assert len(prep_corpus) <= len(docs)  # preprocessed docs must be less than or equal the original docs
+    thetas = ctm.get_doc_topic_distribution(training_dataset, n_samples=5)
 
-    assert len(vocab) <= sp.vocabulary_size  # check vocabulary size
+    assert len(thetas) == len(data[:100])
 
 
 
diff --git a/tests/test_measures.py b/tests/test_measures.py
@@ -1,66 +1,68 @@
-import pytest
-import os
+#!/usr/bin/env python
 
-from contextualized_topic_models.models.ctm import ZeroShotTM
-from contextualized_topic_models.evaluation.measures import (
-    CoherenceNPMI, CoherenceWordEmbeddings, CoherenceCV,
-    InvertedRBO, TopicDiversity)
-from contextualized_topic_models.utils.data_preparation import (
-    TopicModelDataPreparation)
+"""Tests for measures"""
 
+import pytest
+from contextualized_topic_models.models.ctm import ZeroShotTM
+from contextualized_topic_models.utils.data_preparation import TopicModelDataPreparation
+from contextualized_topic_models.evaluation.measures import CoherenceCV, CoherenceUMass, CoherenceNPMI, \
+    InvertedRBO, TopicDiversity, TopicDiversityTF, Sil
+import os
 
 @pytest.fixture
 def root_dir():
     return os.path.dirname(os.path.abspath(__file__))
 
-
 @pytest.fixture
 def data_dir(root_dir):
     return root_dir + "/../contextualized_topic_models/data/"
 
+def test_diversities(data_dir):
 
-@pytest.fixture
-def train_model(data_dir):
-    with open(data_dir + 'gnews/GoogleNews.txt', 'r') as filino:
+    with open(data_dir + '/sample_text_document') as filino:
         data = filino.readlines()
 
     tp = TopicModelDataPreparation("distiluse-base-multilingual-cased")
 
     training_dataset = tp.fit(data, data)
-    ctm = ZeroShotTM(
-        bow_size=len(tp.vocab), contextual_size=512,
-        num_epochs=2, n_components=5)
+    ctm = ZeroShotTM(bow_size=len(tp.vocab), contextual_size=512, num_epochs=1, n_components=5, batch_size=2)
     ctm.fit(training_dataset)
-    return ctm
 
+    td_1 = TopicDiversity(topk=25)
+    topic_diversity_1 = td_1.score(ctm.get_topic_lists(5))
 
-def test_diversities(train_model):
+    assert topic_diversity_1 >= 0
 
-    topics = train_model.get_topic_lists(25)
+    td_2 = TopicDiversityTF(topk=25)
+    topic_diversity_2 = td_2.score(ctm.get_topic_lists(5))
 
-    irbo = InvertedRBO(topics=topics)
-    score = irbo.score()
-    assert 0 <= score <= 1
+    assert topic_diversity_2 >= 0
+
+def test_coherences(data_dir):
+
+    with open(data_dir + '/sample_text_document') as filino:
+        training = filino.readlines()
+
+    tp = TopicModelDataPreparation("distiluse-base-multilingual-cased")
+
+    training_dataset = tp.fit(training, training)
+
+    ctm = ZeroShotTM(bow_size=len(tp.vocab), contextual_size=512, num_epochs=1, n_components=5, batch_size=2)
+    ctm.fit(training_dataset)
 
-    td = TopicDiversity(topics=topics)
-    score = td.score()
-    assert 0 <= score <= 1
+    topic_words = ctm.get_topic_lists(5)
 
+    coherence_cv = CoherenceCV(texts=training, topk=3)
+    cv = coherence_cv.score(topic_words)
 
-def test_coherences(data_dir, train_model):
-    with open(data_dir + 'gnews/GoogleNews.txt', "r") as fr:
-        texts = [doc.split() for doc in fr.read().splitlines()]
+    assert cv > -100
 
-    topics = train_model.get_topic_lists(10)
+    coherence_npmi = CoherenceNPMI(texts=training, topk=3)
+    npmi = coherence_npmi.score(topic_words)
 
-    npmi = CoherenceNPMI(texts=texts, topics=topics)
-    score = npmi.score()
-    assert -1 <= score <= 1
+    assert npmi > -100
 
-    cv = CoherenceCV(texts=texts, topics=topics)
-    score = cv.score()
-    assert -1 <= score <= 1
+    coherence_umass = CoherenceUMass(texts=training, topk=3)
+    umass = coherence_umass.score(topic_words)
 
-    cwe = CoherenceWordEmbeddings(topics=topics)
-    score = cwe.score()
-    assert -1 <= score <= 1
+    assert umass > -100