Skip to content

Commit 3275684

Browse files
sauvegarde notebook
1 parent eefdc0e commit 3275684

File tree

1 file changed

+116
-8
lines changed

1 file changed

+116
-8
lines changed

2_Clustering.ipynb

Lines changed: 116 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -5,39 +5,147 @@
55
"id": "8fee4912-d12f-4b18-a9d9-f19a3704a9da",
66
"metadata": {},
77
"source": [
8-
"# Funathon 2023 - Sujet 3 : Habitudes alimentaires à partir des données INCA"
8+
"# Funathon 2023 - Sujet 3"
9+
]
10+
},
11+
{
12+
"cell_type": "markdown",
13+
"id": "2157edb9-8f45-4ad1-ab37-6c1a2e67a7c5",
14+
"metadata": {},
15+
"source": [
16+
"Responsables :\n",
17+
"- Julie Sixou, D2E\n",
18+
"- Antoine Palazzolo, SSP Lab\n",
19+
"- Thomas Faria, SSP Lab"
20+
]
21+
},
22+
{
23+
"cell_type": "markdown",
24+
"id": "15c3a94a-ef0d-4501-9228-220d31f3ceb6",
25+
"metadata": {},
26+
"source": [
27+
"# Habitudes alimentaires à partir des données INCA"
28+
]
29+
},
30+
{
31+
"cell_type": "markdown",
32+
"id": "3ab8a7a3-50dc-4e38-9205-420b9cab1f55",
33+
"metadata": {},
34+
"source": [
35+
"## Avant de commencer..."
36+
]
37+
},
38+
{
39+
"cell_type": "markdown",
40+
"id": "02c84d3c-2058-4266-bf2f-d52b4a282e6f",
41+
"metadata": {},
42+
"source": [
43+
"Ce sujet est disponible dans 2 langages : R et Python.\n",
44+
"Ce notebook correspond à la version Python.\n",
45+
"\n",
46+
"Il s'agit là principalement d'une initiation à l'analyse de données et à la data visualization, à travers l'étude des données de consommations et habitudes alimentaires de l'[étude INCA 3](https://www.data.gouv.fr/fr/datasets/donnees-de-consommations-et-habitudes-alimentaires-de-letude-inca-3/).\n",
47+
"Le sujet est constituée de 3 parties distinctes et indépendantes :\n",
48+
"- Analyse exploratoire des données et visualisations\n",
49+
"- Clustering d'individus : ACP, K-moyennes, Clustering Ascendant Hiérarchique\n",
50+
"- Prédiction de l'IMC : différentes approches de régression\n",
51+
"\n",
52+
"Il est également possible de ne faire qu'une ou deux parties du sujet."
53+
]
54+
},
55+
{
56+
"cell_type": "markdown",
57+
"id": "5adbe276-e2db-471a-931c-be05efea1069",
58+
"metadata": {},
59+
"source": [
60+
"Si jamais vous n'êtes pas familiers avec l'une des thématiques du sujet, nous ne saurions que trop vous recommander de jeter un oeil aux ressources suivantes :\n",
61+
"- Débuter avec Pandas : https://pythonds.linogaliana.fr/pandas/\n",
62+
"- Une introduction au clustering : https://pythonds.linogaliana.fr/clustering/\n",
63+
"- Une introduction aux régressions en Python : https://pythonds.linogaliana.fr/regression/"
964
]
1065
},
1166
{
1267
"cell_type": "markdown",
1368
"id": "b14e875b-59ac-48cb-8629-e50f7c3af232",
1469
"metadata": {},
1570
"source": [
16-
"Site : https://www.data.gouv.fr/fr/datasets/donnees-de-consommations-et-habitudes-alimentaires-de-letude-inca-3/"
71+
"Pour en savoir plus sur les données utilisées pour ce sujet et sur le contexte de l'étude : https://www.data.gouv.fr/fr/datasets/donnees-de-consommations-et-habitudes-alimentaires-de-letude-inca-3/\n",
72+
"\n",
73+
"Pour lire la documentation associée aux données : https://static.data.gouv.fr/resources/donnees-de-consommations-et-habitudes-alimentaires-de-letude-inca-3/20210128-192017/notice-utilisateurs-donnees-inca3-data.gouvjanv21.pdf"
74+
]
75+
},
76+
{
77+
"cell_type": "markdown",
78+
"id": "b8ccb064-1f6b-4152-852c-729209734fc7",
79+
"metadata": {},
80+
"source": [
81+
"Exécutez à présent la cellule ci-dessous pour installer les packages nécessaires au sujet :"
82+
]
83+
},
84+
{
85+
"cell_type": "code",
86+
"execution_count": 1,
87+
"id": "ea2450c2-3fb1-4aaf-91ef-30fbe145eadc",
88+
"metadata": {},
89+
"outputs": [],
90+
"source": [
91+
"!pip install --quiet -r requirements.txt"
1792
]
1893
},
1994
{
2095
"cell_type": "markdown",
21-
"id": "4b979795-67d1-421c-a3a3-52b9e87fd65b",
96+
"id": "8b023787-27db-4ad6-8cf6-f2d7cd3e443d",
2297
"metadata": {},
2398
"source": [
24-
"Documentation : https://static.data.gouv.fr/resources/donnees-de-consommations-et-habitudes-alimentaires-de-letude-inca-3/20210128-192017/notice-utilisateurs-donnees-inca3-data.gouvjanv21.pdf"
99+
"## Partie 1 : Analyse exploratoire des données et visualisations"
100+
]
101+
},
102+
{
103+
"cell_type": "markdown",
104+
"id": "75602806-edcb-4e39-9412-38c7460fc285",
105+
"metadata": {},
106+
"source": [
107+
"Compléter avec la partie de Julie"
108+
]
109+
},
110+
{
111+
"cell_type": "markdown",
112+
"id": "b2f456cf-c7ca-4b80-885d-8b31fe5073e3",
113+
"metadata": {},
114+
"source": [
115+
"## Partie 2 : Clustering d'individus"
116+
]
117+
},
118+
{
119+
"cell_type": "markdown",
120+
"id": "ac4a2760-a941-4f12-84e3-278180730cf1",
121+
"metadata": {},
122+
"source": [
123+
"Lorsque l'on pense au Machine Learning, les premiers exemples qui viennent en tête sont souvent des problèmes de régression ou bien de classification.\n",
124+
"Ces cas d'usage font partie d'une branche du ML appelée _apprentissage supervisé_, qui requiert notamment d'avoir des données labellisées permettant aux diverses méthodes utilisées de comprendre la relation entre un ensemble de variables explicatives et une variable à prédire.\n",
125+
"\n",
126+
"_L'apprentissage non supervisé_ est une autre branche du ML qui ne consiste cette fois plus à prédire une variable donnée à partir de données labellisées.\n",
127+
"Au coeur de l'apprentissage non supervisé on trouve notamment le __clustering__.\n",
128+
"Cette fois-ci, le but est de créer à partir d'une population donnée un ensemble de clusters (ou paquets) d'individus regroupés par similarité. Ce sera peut-être plus clair avec quelques exemples et applications :\n",
129+
"- Une enseigne de retail possède une centaine de magasins en France et souhaite regrouper ces derniers en une poignée de groupes qu'elle pourra approvisionner de la même façon. Chaque groupe devra regrouper des magasins ayant des performances similaires et une clientèle proche. C'est un problème de clustering.\n",
130+
"- A partir d'une base de données regroupant les thèmes de prédilection de centaines de journalistes (ou bien leurs références), on souhaite regrouper ces mêmes journalistes en quelques catégories au sein desquelles chaque individu aura une orientation politique proche de celles des autres.\n",
131+
"- En fonction des caractéristiques physiques d'espèces animales ou végétales, on souhaite regrouper ces espèces en un plus petit nombre de groupes.\n",
132+
"\n"
25133
]
26134
},
27135
{
28136
"cell_type": "markdown",
29-
"id": "ac11bb9e-2813-4bd9-928b-06fffc43a708",
137+
"id": "5f583b56-6b2f-4d6e-8d0a-3572000b6aa5",
30138
"metadata": {},
31139
"source": [
32-
"Pour en savoir plus sur le clustering : https://pythonds.linogaliana.fr/clustering/"
140+
"## Partie 3 : Prédiction de l'IMC"
33141
]
34142
},
35143
{
36144
"cell_type": "markdown",
37-
"id": "1ba74e65-a15f-4637-b8eb-559eaa9aaf33",
145+
"id": "f24f6689-f8fc-4aeb-bf0e-9507e8707065",
38146
"metadata": {},
39147
"source": [
40-
"Partie clustering"
148+
"Compléter avec la partie de Thomas"
41149
]
42150
},
43151
{

0 commit comments

Comments
 (0)