GitHub - macairececile/data-mining-project

UE901 EC2 Data Mining - Practical word

Itemset and Association Rules Mining (données : GrandEst)

Asmaa DEMNY & Cécile MACAIRE & Ludivine ROBERT

Contexte

Ce projet a été réalisé dans le cadre d'un cours de fouille de données au programme du Master 2 en Traitement Automatique des Langues à l'Université de Lorraine (Nancy).

Ce répertoire contient tous les fichiers nécessaires au projet. Vous trouverez ci-dessous une description de base, ainsi que les instructions et commandes d'exécution des scripts d'encodage et de décodage.

Prérequis

Pour commencer, veuillez cloner le répertoire par la ligne de commande:

git clone git@github.com:macairececile/data-mining-project.git

Vous aurez également besoin du fichier de données GrandEst au format .txt et de l'archive spmf.jar pour les différents algorithmes à copier dans le même répertoire.

Librairies nécessaires

pandas
csv
pickle

1. Encodage du fichier de données pour SPMF

Pour encoder le fichier de données, lancer la commande suivante:

python encode_SPMF.py -f GrandEst.txt

Le fichier GrandEst_filter.txt comprendra les données filtrées, c'est à dire les données provenant des attributs que nous avons fait le choix de garder. Le fichier encodé GrandEst_encode.txt sera généré ainsi que le dictionnaire comprenant l'encodage dictionnaire.pickle.

2. Mining avec SPMF

Pour extraire les itemsets fréquents, veuillez lancer la ligne de commande suivante:

sh commandes_Itemset_SPMF.sh

Les résultats sont déjà disponibles dans resultats_spmf/Itemset/.

Pour extraire les règles d'association, veuillez lancer la ligne de commande suivante:

sh commandes_AssRules_SPMF.sh

Les résultats sont déjà disponibles dans resultats_spmf/AssociationRules/.

3. Décodage des fichiers générés par SPMF

Afin de décoder les fichiers générés par spmf, lancer la commande suivante:

python decode_SPMF.py -f res.txt

Veuillez à bien avoir le fichier dictionnaire.pickle pour que le décodage puisse de réaliser. res.txt correspond au fichier à décoder.

Les fichiers décodés sont déjà disponible dans les dossiers resultats_decode/Itemset/ et resultats_decode/AssociationRules/ pour les itemsets fréquents et les règles d'association, respectivement.

4. Analyse des résultats

Enfin, l'étude de certains itemsets et règles d'association se trouve dans le fichier DataMining_rapport.pdf.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

UE901 EC2 Data Mining - Practical word

Itemset and Association Rules Mining (données : GrandEst)

Contexte

Prérequis

Librairies nécessaires

1. Encodage du fichier de données pour SPMF

2. Mining avec SPMF

3. Décodage des fichiers générés par SPMF

4. Analyse des résultats

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
resultats_decode		resultats_decode
resultats_spmf		resultats_spmf
.DS_Store		.DS_Store
DataMining_Rapport_MacaireRobertDemny.pdf		DataMining_Rapport_MacaireRobertDemny.pdf
GrandEst_encode.txt		GrandEst_encode.txt
GrandEst_filter.txt		GrandEst_filter.txt
README.md		README.md
analyse_resultats.py		analyse_resultats.py
commandes_AssRules_SPMF.sh		commandes_AssRules_SPMF.sh
commandes_Itemset_SPMF.sh		commandes_Itemset_SPMF.sh
decode_SPMF.py		decode_SPMF.py
details_variables.xlsx		details_variables.xlsx
dictionnaire.pickle		dictionnaire.pickle
encode_SPMF.py		encode_SPMF.py
spmf.jar		spmf.jar

macairececile/data-mining-project

Folders and files

Latest commit

History

Repository files navigation

UE901 EC2 Data Mining - Practical word

Itemset and Association Rules Mining (données : GrandEst)

Contexte

Prérequis

Librairies nécessaires

1. Encodage du fichier de données pour SPMF

2. Mining avec SPMF

3. Décodage des fichiers générés par SPMF

4. Analyse des résultats

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages