Dans cette documentation vous trouverez la procedure pour monter la maquette que je présenterais lors de ma soutenance.
-
Git
-
Docker Engine
-
Docker Compose
Nous allons telecharger des données et les push dans notre cluster. Télechargez et renommez les données.
wget https://ressources.data.sncf.com/api/explore/v2.1/catalog/datasets/comptage-voyageurs-trains-transilien/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B
mv csv\?lang\=fr sncf.csvPoussez les données dans votre cluster
hadoop fs -put sncf.csvCréer un fichier mapreduce.py et executez le.
nano mapreduce.py
python3 mapreduce.pyAffichez les données géneré dans le cluster
hadoop fs -cat /user/output/filenameAttention ! Votre fichier a surement un nom différent. Vous pouvez vérifier sur le webui ou avec un hadoop fs -ls /user/output/
Copiez l'output et créez un fichier result.txt.
Nous ne pouvons pas visualiser ces données sans interface graphique donc j'ai transféré mon fichier result.txt sur mon windows avec python d'installer. Ce fichier doit etre déposer dans le meme repertoire que vos 3 scripts pour graphique (graphe1.py, graphe2.py, graphe3.py).
Rendez vous avec le cmd dans l'emplacement où se trouve vos fichiers.
Vous devez avoir installer Python sur windows. N'oubliez pas d'installer matplotlib.
pip install matplotlibPour finir, affichez votre graphique.
python3 graphe1.py