Asmaa DEMNY & Cécile MACAIRE & Ludivine ROBERT
Ce projet a été réalisé dans le cadre d'un cours de fouille de données au programme du Master 2 en Traitement Automatique des Langues à l'Université de Lorraine (Nancy).
Ce répertoire contient tous les fichiers nécessaires au projet. Vous trouverez ci-dessous une description de base, ainsi que les instructions et commandes d'exécution des scripts d'encodage et de décodage.
Pour commencer, veuillez cloner le répertoire par la ligne de commande:
git clone git@github.com:macairececile/data-mining-project.gitVous aurez également besoin du fichier de données GrandEst au format .txt et de l'archive spmf.jar pour les différents algorithmes à copier dans le même répertoire.
- pandas
- csv
- pickle
Pour encoder le fichier de données, lancer la commande suivante:
python encode_SPMF.py -f GrandEst.txtLe fichier GrandEst_filter.txt comprendra les données filtrées, c'est à dire les données provenant des attributs que nous avons fait le choix de garder.
Le fichier encodé GrandEst_encode.txt sera généré ainsi que le dictionnaire comprenant l'encodage dictionnaire.pickle.
Pour extraire les itemsets fréquents, veuillez lancer la ligne de commande suivante:
sh commandes_Itemset_SPMF.shLes résultats sont déjà disponibles dans resultats_spmf/Itemset/.
Pour extraire les règles d'association, veuillez lancer la ligne de commande suivante:
sh commandes_AssRules_SPMF.shLes résultats sont déjà disponibles dans resultats_spmf/AssociationRules/.
Afin de décoder les fichiers générés par spmf, lancer la commande suivante:
python decode_SPMF.py -f res.txtVeuillez à bien avoir le fichier dictionnaire.pickle pour que le décodage puisse de réaliser.
res.txt correspond au fichier à décoder.
Les fichiers décodés sont déjà disponible dans les dossiers resultats_decode/Itemset/ et resultats_decode/AssociationRules/ pour les itemsets fréquents et les règles d'association, respectivement.
Enfin, l'étude de certains itemsets et règles d'association se trouve dans le fichier DataMining_rapport.pdf.