updated scoring moving normalization into moderators. Trend anotate in bitstomach updated to use trend signal. Added MPM table to esteemer. (#326)

faridseifi · web-flow · commit ee4ccc526fcd · 2024-03-22T15:37:10.000-04:00
diff --git a/bit_stomach/trend_annotate.py b/bit_stomach/trend_annotate.py
@@ -4,7 +4,7 @@
 from rdflib import Literal, URIRef, BNode
 from rdflib.namespace import RDF
 #from calc_gaps_slopes import gap_calc,trend_calc,monotonic_pred,mod_collector
-
+from bitstomach2.signals import Trend
 
 
 
@@ -101,14 +101,5 @@ def theil_reg(df, xcol, ycol):
    return pd.Series(model)
 
 def calculate_trend(df, month, performance_rate):
-    performance_rates = list(df[performance_rate])
-    last_index= len(performance_rates) - 1 
-    change_this_month = performance_rates[last_index ] - performance_rates[last_index - 1]
-    change_last_month = performance_rates[last_index - 1] - performance_rates[last_index - 2]
-    
-    if change_this_month * change_last_month < 0:
-        return 0   
-    
-    return (performance_rates[last_index ] - performance_rates[last_index - 2]) / 2
-    
-    
+    df["passed_rate"]=df[performance_rate]
+    return Trend._detect(df)
diff --git a/bitstomach2/bitstomach.py b/bitstomach2/bitstomach.py
@@ -43,8 +43,8 @@ def fix_up(performance_data):
     performance_df.rename(
         columns={"MPOG_goal": "goal_comparator_content"}, inplace=True
     )
-    performance_df["passed_percentage"] = (
-        performance_df["passed_count"] / performance_df["denominator"] * 100.0
+    performance_df["passed_rate"] = (
+        performance_df["passed_count"] / performance_df["denominator"] 
     )
 
     return performance_df
diff --git a/bitstomach2/signals/_comparison.py b/bitstomach2/signals/_comparison.py
@@ -28,7 +28,7 @@ def detect(perf_data: pd.DataFrame) -> Optional[List[Resource]]:
         if perf_data.empty:
             raise ValueError
 
-        level = perf_data["passed_percentage"][-1:].to_list()[0]
+        level = perf_data["passed_rate"][-1:].to_list()[0]
 
         resources = []
         comp_cols = [
@@ -37,12 +37,12 @@ def detect(perf_data: pd.DataFrame) -> Optional[List[Resource]]:
             "peer_90th_percentile_benchmark",
             "goal_comparator_content",
         ]
-        comparators = perf_data[-1:][comp_cols].to_dict(orient="records")[0]
+        comparators = perf_data[-1:][comp_cols].to_dict(orient="records")[0] 
 
         for key, value in comparators.items():
-            gap = Comparison._detect(level, value)
+            gap = Comparison._detect(level, value / 100)
 
-            r = Comparison._resource(gap, key, value)
+            r = Comparison._resource(gap, key, value / 100)
 
             resources.append(r)
 
@@ -88,9 +88,9 @@ def moderators(cls, motivating_informations: List[Resource]) -> List[dict]:
 
         for signal in super().select(motivating_informations):
             motivating_info_dict = super().moderators(signal)
-            motivating_info_dict["gap_size"] = signal.value(
+            motivating_info_dict["gap_size"] = round(abs(signal.value(
                 SLOWMO.PerformanceGapSize
-            ).value
+            ).value),4)
             motivating_info_dict["comparator_type"] = signal.value(
                 SLOWMO.RegardingComparator / RDF.type
             ).identifier
diff --git a/bitstomach2/signals/_trend.py b/bitstomach2/signals/_trend.py
@@ -21,7 +21,7 @@ def detect(perf_data: pd.DataFrame) -> Optional[List[Resource]]:
         if perf_data.empty:
             raise ValueError
 
-        if perf_data["passed_percentage"].count() < 3:
+        if perf_data["passed_rate"].count() < 3:
             return None
 
         slope = Trend._detect(perf_data)
@@ -57,9 +57,9 @@ def moderators(cls, motivating_informations: List[Resource]) -> List[dict]:
 
         for signal in super().select(motivating_informations):
             motivating_info_dict = super().moderators(signal)
-            motivating_info_dict["trend_size"] = signal.value(
+            motivating_info_dict["trend_size"] = round(abs(signal.value(
                 SLOWMO.PerformanceTrendSlope
-            ).value
+            ).value),4)
 
             mods.append(motivating_info_dict)
 
@@ -70,10 +70,13 @@ def _detect(perf_data: pd.DataFrame) -> float:
         """
         calcolates the slope of a monotonically increasing or decreasing trend over three month.
         """
-        performance_rates = perf_data["passed_percentage"]
+        performance_rates = perf_data["passed_rate"]
         change_this_month = performance_rates.iloc[-1] - performance_rates.iloc[-2]
         change_last_month = performance_rates.iloc[-2] - performance_rates.iloc[-3]
 
+        if change_this_month == 0:
+            return 0
+
         if change_this_month * change_last_month < 0:
             return 0
 
diff --git a/esteemer/esteemer.py b/esteemer/esteemer.py
@@ -8,6 +8,11 @@
 from esteemer.signals import History
 from utils.namespace import SLOWMO
 
+MPM = {"Social Worse": {Comparison.signal_type: 0.5, History.signal_type: -0.5},
+       "Social better": {Comparison.signal_type: 0.5, History.signal_type: -0.1},
+       "Improving": {Trend.signal_type: 0.8, History.signal_type: -0.1},
+       "Worsening": {Trend.signal_type: 0.8, History.signal_type: -0.5}
+       }
 
 def score(candidate_resource: Resource, history: json, preferences: json) -> Resource:
     """
@@ -33,7 +38,11 @@ def score(candidate_resource: Resource, history: json, preferences: json) -> Res
     preference_score = calculate_preference_score(candidate_resource, preferences)
 
     # calculate final score = function of sub-scores
-    final_score = motivating_info["score"] + -history_info["score"] + preference_score
+    final_score = motivating_info["score"] + history_info["score"] + preference_score
+
+    candidate_resource[URIRef("motivating_score")] = Literal(motivating_info["score"] , datatype=XSD.double)
+    candidate_resource[URIRef("history_score")] = Literal(history_info["score"], datatype=XSD.double)
+
 
     candidate_resource[SLOWMO.Score] = Literal(final_score, datatype=XSD.double)
 
@@ -64,6 +73,7 @@ def calculate_motivating_info_score(candidate_resource: Resource) -> dict:
     ]
 
     mod = {}
+    
     match causal_pathway.value:
         case "Social Worse":
             comparator_type = candidate_resource.value(SLOWMO.IsAbout).identifier
@@ -76,7 +86,7 @@ def calculate_motivating_info_score(candidate_resource: Resource) -> dict:
                 if moderator["comparator_type"] == comparator_type
             ][0]
 
-            mod["score"] = round(abs(mod["gap_size"] / 100), 4) / 5 - 0.02
+            mod["score"] = (mod["gap_size"]  / 5 - 0.02) * MPM[causal_pathway.value][Comparison.signal_type]
         case "Social better":
             comparator_type = candidate_resource.value(SLOWMO.IsAbout).identifier
             moderators = Comparison.moderators(motivating_informations)
@@ -87,13 +97,13 @@ def calculate_motivating_info_score(candidate_resource: Resource) -> dict:
                 if moderator["comparator_type"] == comparator_type
             ][0]
 
-            mod["score"] = round(abs(mod["gap_size"] / 100), 4) + 0.02
+            mod["score"] = (mod["gap_size"]  + 0.02) * MPM[causal_pathway.value][Comparison.signal_type]
         case "Improving":
             mod = Trend.moderators(motivating_informations)[0]
-            mod["score"] = round(abs(mod["trend_size"] / 100), 4) * 5
+            mod["score"] = (mod["trend_size"]  * 5) * MPM[causal_pathway.value][Trend.signal_type]
         case "Worsening":
             mod = Trend.moderators(motivating_informations)[0]
-            mod["score"] = round(abs(mod["trend_size"] / 100), 4)
+            mod["score"] = (mod["trend_size"]) * MPM[causal_pathway.value][Trend.signal_type]
         case _:
             mod["score"] = 0.0
     return mod
@@ -105,7 +115,7 @@ def calculate_history_score(candidate_resource: Resource, history: dict) -> dict
 
     Parameters:
     - candidate_resource (Resource): The candidate resource.
-    - history (json): The history of messages.
+    - history (dict): The history of messages.
 
     Returns:
     float: history sub-score.
@@ -124,8 +134,10 @@ def calculate_history_score(candidate_resource: Resource, history: dict) -> dict
         return {"score": 0}
 
     mod = History.moderators(signals)[0]
-
-    mod["score"] = mod["occurance"] / 11
+    
+    causal_pathway = list(candidate_resource.objects(URIRef("slowmo:acceptable_by")))[0]    
+        
+    mod["score"] = mod["recurrence_count"] * MPM[causal_pathway.value][History.signal_type]
 
     return mod
 
diff --git a/esteemer/signals/_history.py b/esteemer/signals/_history.py
@@ -20,15 +20,15 @@ def detect(message_history: dict) -> Optional[List[Resource]]:
         history = pd.DataFrame.from_dict(message_history, orient="index")
         history = history.sort_index()
 
-        occurance = History._detect(history)
+        recurrence = History._detect(history)
 
-        return [History._resource(occurance)]
+        return [History._resource(recurrence)]
 
     @classmethod
-    def _resource(cls, occurance: int) -> Resource:
+    def _resource(cls, recurrence_count: int) -> Resource:
         base = super()._resource()
 
-        base[URIRef("occurance")] = Literal(occurance, datatype=XSD.integer)
+        base[URIRef("recurrence_count")] = Literal(recurrence_count, datatype=XSD.integer)
         return base
 
     @classmethod
@@ -37,7 +37,7 @@ def moderators(cls, signals: List[Resource]) -> List[dict]:
 
         for signal in super().select(signals):
             history_dict = {}
-            history_dict["occurance"] = signal.value(URIRef("occurance")).value
+            history_dict["recurrence_count"] = round( signal.value(URIRef("recurrence_count")).value / 11, 4) 
             mods.append(history_dict)
 
         return mods
diff --git a/esteemer/utils.py b/esteemer/utils.py
@@ -156,7 +156,7 @@ def candidates_records(performer_graph: Graph) -> List[List]:
     Returns:
     dict: The representation of candidates as a dictionary.
     """
-    candidate_list = [["staff_number", "measure", "month", "score", "name", "acceptable_by", "selected"]]
+    candidate_list = [["staff_number", "measure", "month", "score","motivating_score", "history_score", "name", "acceptable_by", "selected"]]
 
 
     for a_candidate in candidates(performer_graph):
@@ -174,7 +174,9 @@ def candidate_as_record(a_candidate: Resource) -> List:
     representation.append(a_candidate.value(SLOWMO.RegardingMeasure).identifier)
     representation.append("N/A")
     score = a_candidate.value(SLOWMO.Score) 
-    representation.append(round(float(score.value), 4) if score else None)
+    representation.append(float(score.value) if score else None)
+    representation.append(float( a_candidate.value(URIRef("motivating_score"))) if score else None)
+    representation.append(float( a_candidate.value(URIRef("history_score"))) if score else None)
     representation.append(a_candidate.value( SLOWMO.name))
     representation.append(a_candidate.value( URIRef("slowmo:acceptable_by")))
     representation.append(a_candidate.value( URIRef("slowmo:selected")))  
diff --git a/tests/bitstomach2/test_comparisons.py b/tests/bitstomach2/test_comparisons.py
@@ -24,7 +24,7 @@ def perf_data() -> pd.DataFrame:
             "staff_number",
             "measure",
             "month",
-            "passed_percentage",
+            "passed_rate",
             "passed_count",
             "flagged_count",
             "denominator",
@@ -33,8 +33,8 @@ def perf_data() -> pd.DataFrame:
             "peer_90th_percentile_benchmark",
             "goal_comparator_content",
         ],
-        [157, "BP01", "2022-08-01", 85.0, 85.0, 0, 100.0, 84.0, 88.0, 90.0, 99.0],
-        [157, "BP01", "2022-09-01", 90.0, 90.0, 0, 100.0, 85.0, 89.0, 91.0, 100.0],
+        [157, "BP01", "2022-08-01", 0.85, 85.0, 0, 100.0, 84.0, 88.0, 90.0, 99.0],
+        [157, "BP01", "2022-09-01", 0.90, 90.0, 0, 100.0, 85.0, 89.0, 91.0, 100.0],
     ]
     return pd.DataFrame(performance_data[1:], columns=performance_data[0])
 
@@ -72,7 +72,7 @@ def test_multiple_gap_values(perf_data):
 
     assert 4 == len(signals)
 
-    expected_gap_sizes = [5.0, 1.0, -1.0, -10.0]
+    expected_gap_sizes = [0.05, 0.01, -0.01, -0.1]
 
     for index, signal in enumerate(signals):
         v = signal.value(SLOWMO.PerformanceGapSize).value
@@ -84,7 +84,7 @@ def test_comparator_node(perf_data):
 
     signals = signal.detect(perf_data)
 
-    expected_comparator_values = [85.0, 89.0, 91.0, 100.0]
+    expected_comparator_values = [0.85, 0.89, 0.91, 1.0]
 
     for index, signal in enumerate(signals):
         assert Literal(expected_comparator_values[index]) == signal.value(
diff --git a/tests/bitstomach2/test_trends.py b/tests/bitstomach2/test_trends.py
@@ -21,7 +21,7 @@ def test_empty_perf_data_raises_value_error():
 def test_no_trend_returns_none():
     mi = Trend.detect(
         pd.DataFrame(
-            {"passed_percentage": [90, 90, 90]},
+            {"passed_rate": [90, 90, 90]},
         )
     )
     assert mi is None
@@ -30,24 +30,24 @@ def test_no_trend_returns_none():
 ## Signal detection tests
 def test_trend_is_detected():
     slope = Trend._detect(
-        pd.DataFrame(columns=["passed_percentage"], data=[[90], [91], [92]])
+        pd.DataFrame(columns=["passed_rate"], data=[[90], [91], [92]])
     )
     assert slope == 1
 
     slope = Trend._detect(
-        pd.DataFrame(columns=["passed_percentage"], data=[[90], [92], [94]])
+        pd.DataFrame(columns=["passed_rate"], data=[[90], [92], [94]])
     )
     assert slope == 2
 
     slope = Trend._detect(
-        pd.DataFrame(columns=["passed_percentage"], data=[[90], [92], [90], [92], [94]])
+        pd.DataFrame(columns=["passed_rate"], data=[[90], [92], [90], [92], [94]])
     )
     assert slope == 2
 
 
 def test_trend_as_resource():
     signal = Trend.detect(
-        pd.DataFrame(columns=["passed_percentage"], data=[[90], [91], [92]])
+        pd.DataFrame(columns=["passed_rate"], data=[[90], [91], [92]])
     ).pop()
 
     assert isinstance(signal, Resource)
@@ -99,7 +99,7 @@ def test_select():
         pd.DataFrame(
             columns=[
                 "measure",
-                "passed_percentage",
+                "passed_rate",
                 "peer_average_comparator",
                 "peer_75th_percentile_benchmark",
                 "peer_90th_percentile_benchmark",
@@ -111,7 +111,7 @@ def test_select():
 
     r2 = Trend.detect(
         pd.DataFrame(
-            {"passed_percentage": [89, 90, 91]},
+            {"passed_rate": [89, 90, 91]},
         )
     )
 
@@ -141,12 +141,12 @@ def test_select():
 def test_trend_identity():
     r1 = Trend.detect(
         pd.DataFrame(
-            {"passed_percentage": [89, 90, 91]},
+            {"passed_rate": [89, 90, 91]},
         )
     )
     r2 = Trend.detect(
         pd.DataFrame(
-            {"passed_percentage": [89, 90, 91]},
+            {"passed_rate": [89, 90, 91]},
         )
     )
 
@@ -162,7 +162,7 @@ def test_detect_creates_correct_signal_with_magick_mock_calc():
 
     signal = Trend.detect(
         pd.DataFrame(
-            {"passed_percentage": [89, 90, 91]},  # slope 1.0
+            {"passed_rate": [89, 90, 91]},  # slope 1.0
         )
     )
 
@@ -176,7 +176,7 @@ def test_detect_with_decoy_calc(decoy: Decoy):
 
     signal = Trend.detect(
         pd.DataFrame(
-            {"passed_percentage": [89, 90, 91]},  # slope 1.0
+            {"passed_rate": [89, 90, 91]},  # slope 1.0
         )
     )
 
diff --git a/tests/test_esteemer.py b/tests/test_esteemer.py
diff --git a/tests/test_history.py b/tests/test_history.py

Original file line number	Diff line number	Diff line change
`@@ -43,8 +43,8 @@ def fix_up(performance_data):`
`43`	`43`	`performance_df.rename(`
`44`	`44`	`columns={"MPOG_goal": "goal_comparator_content"}, inplace=True`
`45`	`45`	`)`
`46`		`- performance_df["passed_percentage"] = (`
`47`		`- performance_df["passed_count"] / performance_df["denominator"] * 100.0`
	`46`	`+ performance_df["passed_rate"] = (`
	`47`	`+ performance_df["passed_count"] / performance_df["denominator"]`
`48`	`48`	`)`
`49`	`49`
`50`	`50`	`return performance_df`
Original file line number	Diff line number	Diff line change
`@@ -21,7 +21,7 @@ def test_empty_perf_data_raises_value_error():`
`21`	`21`	`def test_no_trend_returns_none():`
`22`	`22`	`mi = Trend.detect(`
`23`	`23`	`pd.DataFrame(`
`24`		`- {"passed_percentage": [90, 90, 90]},`
	`24`	`+ {"passed_rate": [90, 90, 90]},`
`25`	`25`	`)`
`26`	`26`	`)`
`27`	`27`	`assert mi is None`
`@@ -30,24 +30,24 @@ def test_no_trend_returns_none():`
`30`	`30`	`## Signal detection tests`
`31`	`31`	`def test_trend_is_detected():`
`32`	`32`	`slope = Trend._detect(`
`33`		`- pd.DataFrame(columns=["passed_percentage"], data=[[90], [91], [92]])`
	`33`	`+ pd.DataFrame(columns=["passed_rate"], data=[[90], [91], [92]])`
`34`	`34`	`)`
`35`	`35`	`assert slope == 1`
`36`	`36`
`37`	`37`	`slope = Trend._detect(`
`38`		`- pd.DataFrame(columns=["passed_percentage"], data=[[90], [92], [94]])`
	`38`	`+ pd.DataFrame(columns=["passed_rate"], data=[[90], [92], [94]])`
`39`	`39`	`)`
`40`	`40`	`assert slope == 2`
`41`	`41`
`42`	`42`	`slope = Trend._detect(`
`43`		`- pd.DataFrame(columns=["passed_percentage"], data=[[90], [92], [90], [92], [94]])`
	`43`	`+ pd.DataFrame(columns=["passed_rate"], data=[[90], [92], [90], [92], [94]])`
`44`	`44`	`)`
`45`	`45`	`assert slope == 2`
`46`	`46`
`47`	`47`
`48`	`48`	`def test_trend_as_resource():`
`49`	`49`	`signal = Trend.detect(`
`50`		`- pd.DataFrame(columns=["passed_percentage"], data=[[90], [91], [92]])`
	`50`	`+ pd.DataFrame(columns=["passed_rate"], data=[[90], [91], [92]])`
`51`	`51`	`).pop()`
`52`	`52`
`53`	`53`	`assert isinstance(signal, Resource)`
`@@ -99,7 +99,7 @@ def test_select():`
`99`	`99`	`pd.DataFrame(`
`100`	`100`	`columns=[`
`101`	`101`	`"measure",`
`102`		`- "passed_percentage",`
	`102`	`+ "passed_rate",`
`103`	`103`	`"peer_average_comparator",`
`104`	`104`	`"peer_75th_percentile_benchmark",`
`105`	`105`	`"peer_90th_percentile_benchmark",`
`@@ -111,7 +111,7 @@ def test_select():`
`111`	`111`
`112`	`112`	`r2 = Trend.detect(`
`113`	`113`	`pd.DataFrame(`
`114`		`- {"passed_percentage": [89, 90, 91]},`
	`114`	`+ {"passed_rate": [89, 90, 91]},`
`115`	`115`	`)`
`116`	`116`	`)`
`117`	`117`
`@@ -141,12 +141,12 @@ def test_select():`
`141`	`141`	`def test_trend_identity():`
`142`	`142`	`r1 = Trend.detect(`
`143`	`143`	`pd.DataFrame(`
`144`		`- {"passed_percentage": [89, 90, 91]},`
	`144`	`+ {"passed_rate": [89, 90, 91]},`
`145`	`145`	`)`
`146`	`146`	`)`
`147`	`147`	`r2 = Trend.detect(`
`148`	`148`	`pd.DataFrame(`
`149`		`- {"passed_percentage": [89, 90, 91]},`
	`149`	`+ {"passed_rate": [89, 90, 91]},`
`150`	`150`	`)`
`151`	`151`	`)`
`152`	`152`
`@@ -162,7 +162,7 @@ def test_detect_creates_correct_signal_with_magick_mock_calc():`
`162`	`162`
`163`	`163`	`signal = Trend.detect(`
`164`	`164`	`pd.DataFrame(`
`165`		`- {"passed_percentage": [89, 90, 91]}, # slope 1.0`
	`165`	`+ {"passed_rate": [89, 90, 91]}, # slope 1.0`
`166`	`166`	`)`
`167`	`167`	`)`
`168`	`168`
`@@ -176,7 +176,7 @@ def test_detect_with_decoy_calc(decoy: Decoy):`
`176`	`176`
`177`	`177`	`signal = Trend.detect(`
`178`	`178`	`pd.DataFrame(`
`179`		`- {"passed_percentage": [89, 90, 91]}, # slope 1.0`
	`179`	`+ {"passed_rate": [89, 90, 91]}, # slope 1.0`
`180`	`180`	`)`
`181`	`181`	`)`
`182`	`182`