some minor API's changes

Alon Eirew · Alon Eirew · commit e3919d96509e · 2018-11-26T11:20:46.000+02:00
diff --git a/examples/cross_doc_coref/cross_doc_coref_sieves.py b/examples/cross_doc_coref/cross_doc_coref_sieves.py
@@ -28,7 +28,24 @@
 from nlp_architect.models.cross_doc_sieves import run_event_coref, run_entity_coref
 
 
-def run_example():
+def run_example(cdc_settings):
+    event_mentions = Topics(LIBRARY_ROOT + '/datasets/ecb/ecb_all_event_mentions.json')
+
+    event_clusters = None
+    if cdc_settings.event_config.run_evaluation:
+        logger.info('Running event coreference resolution')
+        event_clusters = run_event_coref(event_mentions, cdc_settings)
+
+    entity_mentions = Topics(LIBRARY_ROOT + '/datasets/ecb/ecb_all_entity_mentions.json')
+    entity_clusters = None
+    if cdc_settings.entity_config.run_evaluation:
+        logger.info('Running entity coreference resolution')
+        entity_clusters = run_entity_coref(entity_mentions, cdc_settings)
+
+    return event_clusters, entity_clusters
+
+
+def create_example_settings():
     event_config = EventConfig()
     event_config.sieves_order = [
         (SieveType.STRICT, RelationType.SAME_HEAD_LEMMA, 0.0),
@@ -37,11 +54,7 @@ def run_example():
         (SieveType.RELAX, RelationType.SAME_HEAD_LEMMA_RELAX, 0.5),
     ]
 
-    event_config.gold_mentions = Topics(LIBRARY_ROOT
-                                        + '/datasets/ecb/ecb_all_event_mentions.json')
-
     entity_config = EntityConfig()
-
     entity_config.sieves_order = [
         (SieveType.STRICT, RelationType.SAME_HEAD_LEMMA, 0.0),
         (SieveType.VERY_RELAX, RelationType.WIKIPEDIA_REDIRECT_LINK, 0.1),
@@ -50,36 +63,18 @@ def run_example():
         (SieveType.VERY_RELAX, RelationType.REFERENT_DICT, 0.5)
     ]
 
-    entity_config.gold_mentions = Topics(LIBRARY_ROOT
-                                         + '/datasets/ecb/ecb_all_entity_mentions.json')
-
     # CDCResources hold default attribute values that might need to be change,
     # (using the defaults values in this example), use to configure attributes
     # such as resources files location, output directory, resources init methods and other.
     # check in class and see if any attributes require change in your set-up
     resource_location = CDCResources()
-    resources = CDCSettings(resource_location, event_config, entity_config)
-
-    event_clusters = None
-    if event_config.run_evaluation:
-        logger.info('Running event coreference resolution')
-        event_clusters = run_event_coref(resources)
-
-    entity_clusters = None
-    if entity_config.run_evaluation:
-        logger.info('Running entity coreference resolution')
-        entity_clusters = run_entity_coref(resources)
-
-    print('-=Cross Document Coref Results=-')
-    print_results(event_clusters, 'Event')
-    print('################################')
-    print_results(entity_clusters, 'Entity')
+    return CDCSettings(resource_location, event_config, entity_config)
 
 
 def print_results(clusters: List[Clusters], type: str):
     print('-=' + type + ' Clusters=-')
     for topic_cluster in clusters:
-        print('\n\tCluster Topic=' + topic_cluster.topic_id)
+        print('\n\tTopic=' + topic_cluster.topic_id)
         for cluster in topic_cluster.clusters_list:
             cluster_mentions = list()
             for mention in cluster.mentions:
@@ -92,8 +87,18 @@ def print_results(clusters: List[Clusters], type: str):
                   + str(cluster_mentions))
 
 
+def run_cdc_pipeline():
+    cdc_settings = create_example_settings()
+    event_clusters, entity_clusters = run_example(cdc_settings)
+
+    print('-=Cross Document Coref Results=-')
+    print_results(event_clusters, 'Event')
+    print('################################')
+    print_results(entity_clusters, 'Entity')
+
+
 if __name__ == '__main__':
     logging.basicConfig(level=logging.INFO)
     logger = logging.getLogger(__name__)
 
-    run_example()
+    run_cdc_pipeline()
diff --git a/nlp_architect/models/cross_doc_coref/cdc_config.py b/nlp_architect/models/cross_doc_coref/cdc_config.py
@@ -27,7 +27,6 @@ def __init__(self):
 
         self.__sieves_order = None
         self.__run_evaluation = False
-        self.__gold_mentions = None
 
     @property
     def sieves_order(self):
@@ -58,15 +57,6 @@ def run_evaluation(self):
     def run_evaluation(self, run_evaluation: bool):
         self.__run_evaluation = run_evaluation
 
-    @property
-    def gold_mentions(self) -> Topics:
-        """Mentions file to run against"""
-        return self.__gold_mentions
-
-    @gold_mentions.setter
-    def gold_mentions(self, gold_mentions_topics: Topics):
-        self.__gold_mentions = gold_mentions_topics
-
 
 class EventConfig(CDCConfig):
     def __init__(self):
@@ -92,9 +82,6 @@ def __init__(self):
             (SieveType.STRICT, RelationType.WORDNET_DERIVATIONALLY, 0.0)
         ]
 
-        self.gold_mentions = Topics(LIBRARY_ROOT
-                                    + '/datasets/ecb/ecb_all_event_mentions.json')
-
 
 class EntityConfig(CDCConfig):
     def __init__(self):
@@ -119,6 +106,3 @@ def __init__(self):
             (SieveType.STRICT, RelationType.WORDNET_SAME_SYNSET_ENTITY, 0.0),
             (SieveType.VERY_RELAX, RelationType.REFERENT_DICT, 0.5)
         ]
-
-        self.gold_mentions = (LIBRARY_ROOT
-                              + '/datasets/ecb/ecb_all_entity_mentions.json')
diff --git a/nlp_architect/models/cross_doc_coref/system/cdc_settings.py b/nlp_architect/models/cross_doc_coref/system/cdc_settings.py
@@ -43,21 +43,12 @@ def __init__(self, resources, event_coref_config, entity_coref_config):
         self.context2vec_model = None
         self.wordnet = None
         self.within_doc = None
-        self.events_topics = None
-        self.entity_topics = None
         self.event_config = event_coref_config
         self.entity_config = entity_coref_config
         self.cdc_resources = resources
 
         self.load_modules()
 
-        if event_coref_config.run_evaluation:
-            self.events_topics = event_coref_config.gold_mentions
-        if entity_coref_config.run_evaluation:
-            self.entity_topics = entity_coref_config.gold_mentions
-        if not self.events_topics and not self.entity_topics:
-            raise Exception('No entity or events Gold topics loaded!')
-
     def load_modules(self):
         relations = set()
         for sieve in self.event_config.sieves_order:
diff --git a/nlp_architect/models/cross_doc_coref/system/sieves/run_sieve_system.py b/nlp_architect/models/cross_doc_coref/system/sieves/run_sieve_system.py
@@ -18,6 +18,8 @@
 import time
 
 from nlp_architect.common.cdc.cluster import Clusters
+from nlp_architect.common.cdc.topics import Topic
+from nlp_architect.models.cross_doc_coref.system.cdc_settings import CDCSettings
 from nlp_architect.models.cross_doc_coref.system.sieves.sieves import get_sieve
 
 logger = logging.getLogger(__name__)
@@ -90,3 +92,12 @@ def __init__(self, topic, resources):
         super(RunSystemsEvent, self).__init__(topic)
         self.sieves = self.set_sieves_from_config(resources.event_config,
                                                   resources.get_module_from_relation)
+
+
+def get_run_system(topic: Topic, resource: CDCSettings, eval_type: str):
+    if eval_type.lower() == 'entity':
+        return RunSystemsEntity(topic, resource)
+    elif eval_type.lower() == 'event':
+        return RunSystemsEvent(topic, resource)
+    else:
+        raise AttributeError(eval_type + ' Not supported!')
diff --git a/nlp_architect/models/cross_doc_sieves.py b/nlp_architect/models/cross_doc_sieves.py
@@ -18,67 +18,72 @@
 from typing import List
 
 from nlp_architect.common.cdc.cluster import Clusters
+from nlp_architect.common.cdc.topics import Topics
 from nlp_architect.models.cross_doc_coref.system.cdc_settings import CDCSettings
 from nlp_architect.models.cross_doc_coref.system.cdc_utils import write_clusters_to_file, \
     write_event_coref_scorer_results, write_entity_coref_scorer_results
-from nlp_architect.models.cross_doc_coref.system.sieves.run_sieve_system import RunSystemsEvent, \
-    RunSystemsEntity
+from nlp_architect.models.cross_doc_coref.system.sieves.run_sieve_system import get_run_system
 from nlp_architect.utils import io
 
 logger = logging.getLogger(__name__)
 
 
-def run_event_coref(resources: CDCSettings) -> List[Clusters]:
+def run_event_coref(topics: Topics, resources: CDCSettings) -> List[Clusters]:
     """
     Running Cross Document Coref on event mentions
     Args:
+        topics   : The Topics (with mentions) to evaluate
         resources: resources for running the evaluation
 
     Returns:
         Clusters: List of clusters and mentions with predicted cross doc coref within each topic
     """
-    io.create_folder(resources.cdc_resources.eval_output_dir)
-    event_clusters_list = list()
-    for topic in resources.events_topics.topics_list:
-        sieves_list_event = RunSystemsEvent(topic, resources)
-        clusters = sieves_list_event.run_deterministic()
-        clusters.set_coref_chain_to_mentions()
-        event_clusters_list.append(clusters)
-        with open(os.path.join(
-                resources.cdc_resources.eval_output_dir, 'event_clusters.txt'), 'w') \
-                as event_clusters_file:
-            write_clusters_to_file(clusters, topic.topic_id, event_clusters_file)
 
-    logger.info('Write event coref results')
-    write_event_coref_scorer_results(resources.events_topics.topics_list,
-                                     resources.cdc_resources.eval_output_dir)
-    return event_clusters_list
+    return _run_coref(topics, resources, 'event')
+
+
+def run_entity_coref(topics: Topics, resources: CDCSettings) -> List[Clusters]:
+    """
+    Running Cross Document Coref on Entity mentions
+    Args:
+        topics   : The Topics (with mentions) to evaluate
+        resources: (CDCSettings) resources for running the evaluation
+
+    Returns:
+        Clusters: List of topics and mentions with predicted cross doc coref within each topic
+    """
+    return _run_coref(topics, resources, 'entity')
 
 
-def run_entity_coref(resources: CDCSettings) -> List[Clusters]:
+def _run_coref(topics: Topics, resources: CDCSettings, eval_type: str) -> List[Clusters]:
     """
     Running Cross Document Coref on Entity mentions
     Args:
         resources: (CDCSettings) resources for running the evaluation
+        topics   : The Topics (with mentions) to evaluate
 
     Returns:
         Clusters: List of topics and mentions with predicted cross doc coref within each topic
     """
     io.create_folder(resources.cdc_resources.eval_output_dir)
-    entity_clusters_list = list()
-    for topic in resources.entity_topics.topics_list:
-        sieves_list_entity = RunSystemsEntity(topic, resources)
-        clusters = sieves_list_entity.run_deterministic()
+    clusters_list = list()
+    for topic in topics.topics_list:
+        sieves_list = get_run_system(topic, resources, eval_type)
+        clusters = sieves_list.run_deterministic()
         clusters.set_coref_chain_to_mentions()
-        entity_clusters_list.append(clusters)
+        clusters_list.append(clusters)
 
         with open(os.path.join(
-                resources.cdc_resources.eval_output_dir, 'entity_clusters.txt'), 'w') \
-                as entity_clusters_file:
-            write_clusters_to_file(clusters, topic.topic_id, entity_clusters_file)
+                resources.cdc_resources.eval_output_dir, eval_type+ '_clusters.txt'), 'w') \
+                as clusters_file:
+            write_clusters_to_file(clusters, topic.topic_id, clusters_file)
 
-    logger.info('Write entity coref results')
-    write_entity_coref_scorer_results(resources.entity_topics.topics_list,
-                                      resources.cdc_resources.eval_output_dir)
+    logger.info('Write ' + eval_type + ' coref results')
+    if eval_type.lower() == 'entity':
+        write_entity_coref_scorer_results(topics.topics_list,
+                                          resources.cdc_resources.eval_output_dir)
+    else:
+        write_event_coref_scorer_results(topics.topics_list,
+                                         resources.cdc_resources.eval_output_dir)
 
-    return entity_clusters_list
+    return clusters_list