Merge pull request #1 from CompNet/dev

LucasPotin98 · web-flow · commit 05664f74d2cc · 2025-03-21T09:23:46.000+01:00
Version Rebuttal paper
diff --git a/README.md b/README.md
@@ -1,4 +1,4 @@
-Comparison of Graph Pattern Quality Measures v1.0.0
+Comparison of Graph Pattern Quality Measures v1.0.1
 -------------------------------------------------------------------------
 
 # Description
@@ -16,7 +16,7 @@ This repository is composed of the following elements:
 
 * `requirements.txt`: List of required Python packages.
 * `src`: folder containing the source code
-  * `ClusteringComparison.py`: script that reproduces the experiments of Section 5.2.
+  * `ClusteringComparison.py`: script that reproduces the experiments of Section 5.2.1. and Section 5.2.3.
   * `KendallTauHistogram.py`: script that reproduces the experiments of Section 5.2.2.
   * `PairwiseComparisons.py`: script that reproduces the experiments of Section 5.3.
   * `GoldStandardComparison.py`: script that reproduces the experiments of Section 5.4.
diff --git a/src/GoldStandardComparison.py b/src/GoldStandardComparison.py
@@ -542,9 +542,35 @@ def FPR(discriminationScore):
     result = np.where(discriminationScore.pCassumingnotP == 0, float('inf'), 1/discriminationScore.pCassumingnotP)
     return result
 
+def Gini(discriminationScore):
+    gini_index = 1 - (discriminationScore.pCassumingP ** 2 + discriminationScore.pnotCassumingP ** 2)
+    return 1/(gini_index+0.0000000001)
+
+def Gini2(discriminationScore):
+    gini_index = (discriminationScore.pPassumingC ** 2) * discriminationScore.pCassumingP + (discriminationScore.pPassumingnotC ** 2) * discriminationScore.pnotCassumingP
+    return 1/(gini_index+0.0000000001)
+
+def Entropy(discriminationScore):
+    epsilon = 1e-10  # Avoid log(0)
+    p0 = discriminationScore.pnotCassumingP
+    p1 = discriminationScore.pCassumingP
+    
+    entropy = - (p0 * np.log2(p0 + epsilon) + p1 * np.log2(p1 + epsilon))
+    return 1 / (entropy + epsilon)
+
+def Fisher(discriminationScore):
+    epsilon = 1e-10  # Avoid division by zero
+    mean_diff = (discriminationScore.pCassumingP - discriminationScore.pnotCassumingP) ** 2
+    var_sum = discriminationScore.pCassumingP * (1 - discriminationScore.pCassumingP) + \
+              discriminationScore.pnotCassumingP * (1 - discriminationScore.pnotCassumingP)
+    
+    return mean_diff / (var_sum + epsilon)
+
+
 
 def CertaintyFactor(discriminationScore):
     return (discriminationScore.pCassumingP - discriminationScore.pC) / (1 - discriminationScore.pC)
+
 def creationDictionnaryScores():
     dico = {
         "Acc": Acc,
@@ -556,8 +582,11 @@ def creationDictionnaryScores():
         "Cos": Cos,
         "Cover": Cover,
         "Dep": Dep,
+        "Entropy": Entropy,
         "Excex": Excex,
+        "Fisher": Fisher,
         "Gain": Gain,
+        "Gini": Gini,
         "GR": GR,
         "InfGain": InfGain,
         "Jacc": Jacc,
@@ -657,19 +686,21 @@ def graphKeep(Graphes,labels):
         minority =0
         NbMino=len(labels)-sum(labels)
     keep = []
+    NbMino = 0
     count=0
     graphs=[]
     for i in range(len(labels)):
         if labels[i]==minority:
+            NbMino=NbMino+1
             keep.append(i)
     complete=NbMino
     for i in range(len(labels)):   
         if labels[i]!=minority:
             if count<complete:
                 count=count+1
                 keep.append(i)
-    return keep
 
+    return keep
 
 
 def cross_validation(X,Y,cv,classifier):
@@ -1079,11 +1110,11 @@ def GoldStandardComparison(arg,mode,id_graphsMono,labels,keep,TAILLEGRAPHE):
     if arg=="PTC":
         Range = [129]
     if arg=="FOPPA":
-        Range = [33]
+        Range = [66]
     if arg=="AIDS":
         Range = [19]
     if arg=="NCI1":
-        Range = [20]
+        Range = [39]
     if arg=="DD":
         Range = [353]
     if arg=="IMDB":
@@ -1280,43 +1311,45 @@ def plot_fig(arg):
     NAMESORTIEF1= "../results/"+str(arg)+"/"+ str(arg)+"ShapleyF1"
 
     dicoNumeroNom = {
-        0 : "Acc",
-        1 : "Brins",
-        2 : "CConf",
-        3 : "CFactor",
-        4 : "ColStr",
-        5 : "Cole",
-        6 : "Conf",
-        7 : "Cos",
-        8 : "Cover",
-        9 : "Dep",
-        10 : "Excex",
-        11 : "FPR",
-        12 : "GR",
-        13 : "Gain",
-        14 : "InfGain",
-        15 : "Jacc",
-        16 : "Klos",
-        17 : "Lap",
-        18 : "Lever",
-        19 : "Lift",
-        20 : "MDisc",
-        21 : "MutInf",
-        22 : "NetConf",
-        23 : "OddsR",
-        24 : "Pearson",
-        25 : "RelRisk",
-        26 : "Sebag",
-        27 : "Spec",
-        28 : "Str",
-        29 : "Sup",
-        30 : "SupDif",
-        31 : "AbsSupDif",
-        32 : "WRACC",
-        33 : "Zhang",
-        34 : "chiTwo",
-
-    }
+        0: "Acc",
+        1: "Brins",
+        2: "CConf",
+        3: "CFactor",
+        4: "ColStr",
+        5: "Cole",
+        6: "Conf",
+        7: "Cos",
+        8: "Cover",
+        9: "Dep",
+        10: "Entropy",
+        11: "Excex",
+        12: "FPR",
+        13: "Fisher",
+        14: "GR",
+        15: "Gain",
+        16: "Gini",
+        17: "InfGain",
+        18: "Jacc",
+        19: "Klos",
+        20: "Lap",
+        21: "Lever",
+        22: "Lift",
+        23: "MDisc",
+        24: "MutInf",
+        25: "NetConf",
+        26: "OddsR",
+        27: "Pearson",
+        28: "RelRisk",
+        29: "Sebag",
+        30: "Spec",
+        31: "Str",
+        32: "Sup",
+        33: "SupDif",
+        34: "AbsSupDif",
+        35: "WRACC",
+        36: "Zhang",
+        37: "chiTwo",
+}
 
     datas = pd.read_csv(NOMDATA)
     print(datas)
@@ -1347,14 +1380,14 @@ def plot_fig(arg):
     print(datas)
 
 
-    TOKEEP1 = [0,4,10,12,21,27,29,31]
+    TOKEEP1 = [0,4,11,14,24,30,32,34]
     TOKEEP2 = [16,17,18,20,21,22,23,24]
     TOKEEP3 = [25,27,28,29,31,33,34]
 
-    TOKEEPA = [0,4,7,9,10]
-    TOKEEPB = [12,13,15,16,17]
-    TOKEEPC = [20,21,22,23,24]
-    TOKEEPD = [25,27,29,31,34]
+    TOKEEPA = [0,4,7,9,10,11]
+    TOKEEPB = [14,15,18,19,20]
+    TOKEEPC = [23,24,25,26,27]
+    TOKEEPD = [28,30,32,33,37]
 
     maxVal = 0
     for i in range(0, nBScore):
diff --git a/src/KendallTauHistogram.py b/src/KendallTauHistogram.py
@@ -602,6 +602,27 @@ def FPR(discriminationScore):
 def CertaintyFactor(discriminationScore):
     return (discriminationScore.pCassumingP - discriminationScore.pC) / (1 - discriminationScore.pC)
 
+# Les mesures à rajouter : 
+def Gini(discriminationScore):
+    gini_index = 1 - (discriminationScore.pCassumingP ** 2 + discriminationScore.pnotCassumingP ** 2)
+    return 1/(gini_index+0.0000000001)
+
+def Entropy(discriminationScore):
+    epsilon = 1e-10  # Avoid log(0)
+    p0 = discriminationScore.pnotCassumingP
+    p1 = discriminationScore.pCassumingP
+    
+    entropy = - (p0 * np.log2(p0 + epsilon) + p1 * np.log2(p1 + epsilon))
+    return 1 / (entropy + epsilon)
+
+def Fisher(discriminationScore):
+    epsilon = 1e-10  # Avoid division by zero
+    mean_diff = (discriminationScore.pCassumingP - discriminationScore.pnotCassumingP) ** 2
+    var_sum = discriminationScore.pCassumingP * (1 - discriminationScore.pCassumingP) + \
+              discriminationScore.pnotCassumingP * (1 - discriminationScore.pnotCassumingP)
+    
+    return mean_diff / (var_sum + epsilon)
+
 def creationDictionnaryScores():
     dico = {
         "Acc": Acc,
@@ -613,8 +634,11 @@ def creationDictionnaryScores():
         "Cos": Cos,
         "Cover": Cover,
         "Dep": Dep,
+        "Entropy": Entropy,
         "Excex": Excex,
+        "Fisher": Fisher,
         "Gain": Gain,
+        "Gini": Gini,
         "GR": GR,
         "InfGain": InfGain,
         "Jacc": Jacc,
@@ -1241,7 +1265,7 @@ def KendallTauHistograms(argu,mode,id_graphsMono,labelss,keep,TAILLEGRAPHE):
             res0.append(res[0])
             res20.append(res[20])
             res40.append(res[40])
-            res60.append(res[60])
+            res60.append(res[50])
             res80.append(res[80])
     bins = np.linspace(-1,1,100)
     histo0 = np.histogram(res0,bins=bins)
diff --git a/src/PairwiseComparisons.py b/src/PairwiseComparisons.py
@@ -215,7 +215,7 @@ def load_patterns(fileName,TAILLE):
             temp= []
             tempOccu = []
             tempCoverage = []
-            for j in range(1,len(b)-1):
+            for j in range(1,len(b)):
                 val = b[j]
                 val = re.sub("\n","",val)
                 if not(val=="#" or val==""):
@@ -341,8 +341,8 @@ def patternMeasures(keep,labels,id_graphs,TAILLEPATTERN):
             pnotCassumingP[i]= t_Neg/(t_Pos+t_Neg)
         
         if t_Pos+t_Neg==lenALL:
-            pCassumingnotP[i]= 0
-            pnotCassumingnotP[i]= 0
+            pCassumingnotP[i]= 0.5
+            pnotCassumingnotP[i]= 0.5
         else:
             pCassumingnotP[i]= (lenC-t_Pos)/(lenALL-t_Pos-t_Neg)
             pnotCassumingnotP[i]= (lennotC-t_Neg)/(lenALL-t_Pos-t_Neg)
@@ -584,13 +584,33 @@ def TPR(discriminationScore):
     return discriminationScore.pCassumingP
 
 def FPR(discriminationScore):
-    result = np.where(discriminationScore.pCassumingnotP == 0, float('inf'), 1/discriminationScore.pCassumingnotP)
+    result = 1/(discriminationScore.pCassumingnotP+0.0000000000001)
     return result
 
 
 def CertaintyFactor(discriminationScore):
     return (discriminationScore.pCassumingP - discriminationScore.pC) / (1 - discriminationScore.pC)
 
+def Gini(discriminationScore):
+    gini_index = 1 - (discriminationScore.pCassumingP ** 2 + discriminationScore.pnotCassumingP ** 2)
+    return 1/(gini_index+0.0000000001)
+
+def Entropy(discriminationScore):
+    epsilon = 1e-10  # Avoid log(0)
+    p0 = discriminationScore.pnotCassumingP
+    p1 = discriminationScore.pCassumingP
+    
+    entropy = - (p0 * np.log2(p0 + epsilon) + p1 * np.log2(p1 + epsilon))
+    return 1 / (entropy + epsilon)
+
+def Fisher(discriminationScore):
+    epsilon = 1e-10  # Avoid division by zero
+    mean_diff = (discriminationScore.pCassumingP - discriminationScore.pnotCassumingP) ** 2
+    var_sum = discriminationScore.pCassumingP * (1 - discriminationScore.pCassumingP) + \
+              discriminationScore.pnotCassumingP * (1 - discriminationScore.pnotCassumingP)
+    
+    return mean_diff / (var_sum + epsilon)
+
 
 def creationDictionnaryScores():
     dico = {
@@ -614,8 +634,10 @@ def creationDictionnaryScores():
         "Sup": Supp,
         "Spec": Spec,
         "FPR": FPR,
-        "ColStr": ColStr,
         "Dep": Dep,
+        "Gini": Gini,
+        "Fisher": Fisher,
+        "ColStr": ColStr,
         "Excex": Excex,
         "Gain": Gain,
         "Jacc": Jacc,
@@ -628,7 +650,9 @@ def creationDictionnaryScores():
         "Pearson": Pearson,
         "RelRisk": RelRisk,
         "AbsSupDif": SuppDifAbs,
-        "chiTwo": chiTwo}
+        "chiTwo": chiTwo,
+        "Entropy": Entropy,
+        }
     #don't sort the dictionnary
     return dico
 
@@ -705,12 +729,11 @@ def graphKeep(Graphes,labels):
         minority =0
         NbMino=len(labels)-sum(labels)
     keep = []
+    NbMino = 0
     count=0
-    NbMino=0
-    threshold = 1000
     graphs=[]
     for i in range(len(labels)):
-        if labels[i]==minority and NbMino<threshold:
+        if labels[i]==minority:
             NbMino=NbMino+1
             keep.append(i)
     complete=NbMino
@@ -719,6 +742,7 @@ def graphKeep(Graphes,labels):
             if count<complete:
                 count=count+1
                 keep.append(i)
+
     return keep
 
 
@@ -1069,7 +1093,6 @@ def PairwiseComparisons(arg,mode,id_graphsMono,labelss,keep,TAILLEGRAPHE):
             delete = np.count_nonzero(scoresValues == -1000000)
             dicoRankings[compteur]=np.argsort(scoresValues,kind='mergesort')[::-1]
             dicoRankings[compteur] = dicoRankings[compteur][0:len(dicoRankings[compteur])-delete]
-            
             compteur=compteur+1
         dicoFinal[VALUECLUSTER]=dicoRankings
         import scipy
@@ -1101,6 +1124,9 @@ def PairwiseComparisons(arg,mode,id_graphsMono,labelss,keep,TAILLEGRAPHE):
         if mode == "i":
             nameSortie = NAMEBASE+"PairwiseComparisons"+str(METHOD)+"Induced"+".pdf"
         plt.savefig(nameSortie)
+        #Save the dataframe
+        nameSortie = NAMEBASE+"PairwiseComparisons"+str(METHOD)+".csv"
+        df.to_csv(nameSortie)