Merge branch 'main' of https://github.com/InseeFrLab/funathon2023_sujet3

antoine-palazz · antoine-palazz · commit 10d59a467f84 · 2023-06-28T15:50:15.000Z
diff --git a/Sujet_3_Python.ipynb b/Sujet_3_Python.ipynb
@@ -144,7 +144,7 @@
    "id": "f72b31fc-f676-489f-93c3-4adce67aacc3",
    "metadata": {},
    "source": [
-    "A favoriser, en utilisant les données déjà importées sur le Datalab"
+    "A favoriser, en utilisant les données déjà importées sur le Datalab (si vous y avez bien accès)"
    ]
   },
   {
@@ -209,7 +209,7 @@
    "id": "ebd17192-125e-429c-bd50-96ddc6c2da5e",
    "metadata": {},
    "source": [
-    "Eviter cette option pour ne pas surcharger le SSP Cloud si trop de participants font des téléchargements en même temps. A n'utiliser que si impossibilité d'utiliser le Datalab."
+    "A n'utiliser que si vous n'avez pas accès au système s3 du SSP Cloud :"
    ]
   },
   {
@@ -233,6 +233,9 @@
     "fpq = pd.read_csv(\"https://www.data.gouv.fr/fr/datasets/r/32e79499-9897-423b-acd6-143121340f86\",\n",
     "                            sep=\";\"\n",
     "                            ).infer_objects()\n",
+    "\n",
+    "# Pour la partie 3\n",
+    "df = pd.read_parquet(\"https://minio.lab.sspcloud.fr/projet-funathon/2023/sujet3/diffusion/description_individu_inca.parquet\")\n",
     "```"
    ]
   },
@@ -4041,9 +4044,7 @@
   {
    "cell_type": "markdown",
    "id": "1f753dc2-3c24-48d3-b9c5-38c229463cdc",
-   "metadata": {
-    "jp-MarkdownHeadingCollapsed": true
-   },
+   "metadata": {},
    "source": [
     "### 2. Le clustering en lui-même"
    ]
@@ -4131,6 +4132,7 @@
     "\n",
     "```python\n",
     "from yellowbrick.cluster import KElbowVisualizer\n",
+    "from sklearn.cluster import KMeans\n",
     "\n",
     "elbow_method = KElbowVisualizer(KMeans(), k=(1,10))\n",
     "elbow_method.fit(habitudes_indiv_clustering)\n",
@@ -4514,7 +4516,7 @@
     "projection_individus = pd.DataFrame(data=projection_individus_array, columns=['PC1', 'PC2', 'PC3'])\n",
     "\n",
     "# Obtenir les poids des caractéristiques pour chaque composante principale\n",
-    "composantes_principales = pd.DataFrame(acp.components_, columns=habitudes_indiv_clustering.columns)\n",
+    "composantes_principales = pd.DataFrame(acp.components_, columns=habitudes_indiv_clustering_1.columns)\n",
     "```\n",
     "\n",
     "</details>"
@@ -8274,7 +8276,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.10.6"
+   "version": "3.10.9"
   }
  },
  "nbformat": 4,