dataforgoodfr
diff --git a/‎data/exploration/exemple_duckdb.ipynb‎
Lines changed: 291 additions & 0 deletions b/‎data/exploration/exemple_duckdb.ipynb‎
Lines changed: 291 additions & 0 deletions
@@ -0,0 +1,291 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Exemple de notebook - filtres sql et récupération des données en pandas\n",
+    "\n",
+    "L'objectif de ce notebook est de fournir des exemples pour pré-filtrer les données via sql avant de charger les données dans un DataFrame pandas.\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "\n",
+    "pd.set_option(\"display.max_columns\", None)  # show all cols\n",
+    "pd.set_option(\"display.max_colwidth\", None)  # show full width of showing cols\n",
+    "pd.set_option(\n",
+    "    \"display.expand_frame_repr\", False\n",
+    ")  # print cols side by side as it's supposed to be"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Nous commencons par importer les librairies nécessaires pour l'analyse des données.\n",
+    "\n",
+    "import duckdb\n",
+    "from pipelines.tasks.config.common import DUCKDB_FILE\n",
+    "\n",
+    "con = duckdb.connect(database=DUCKDB_FILE, read_only=True)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Filtres\n",
+    "\n",
+    "1. Filtrer sur les prélévements de 2024\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "query_2024 = \"\"\"\n",
+    "SELECT * from edc_prelevements\n",
+    "WHERE dateprel >= '2024-01-01'\n",
+    "\"\"\"\n",
+    "\n",
+    "prelevements_2024 = con.sql(query_2024)\n",
+    "prelevements_2024_df = prelevements_2024.df()\n",
+    "prelevements_2024_df.head(2)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "2. Filtrer sur les prélévements non conformes en 2024\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "where_clause = \"\"\"\n",
+    "\"dateprel\" >= '2024-01-01'\n",
+    "  AND (\n",
+    "    (\n",
+    "      \"plvconformitebacterio\" = 'N'\n",
+    "    )\n",
+    "    OR (\n",
+    "      \"plvconformitechimique\" = 'N'\n",
+    "    )\n",
+    "    OR (\n",
+    "      \"plvconformitereferencebact\" = 'N'\n",
+    "    )\n",
+    "    OR (\n",
+    "      \"plvconformitereferencechim\" = 'N'\n",
+    "    )\n",
+    "  )\n",
+    "\"\"\"\n",
+    "query_non_conforme = f\"\"\"\n",
+    "SELECT\n",
+    "  *\n",
+    "FROM \"edc_prelevements\"\n",
+    "WHERE\n",
+    "  {where_clause}\n",
+    "\"\"\"\n",
+    "prelevements_2024_non_conforme = con.sql(query_non_conforme)\n",
+    "prelevements_2024_non_conforme_df = prelevements_2024_non_conforme.df()\n",
+    "prelevements_2024_non_conforme_df.head(2)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Selectionner des colonnes avant d'exécuter la requête\n"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Selectionner les colonnes avant de charger les données permets une exécution plus rapide et limite l'usage de la mémoire.\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "query_preselected = f\"\"\"\n",
+    "SELECT\n",
+    "  \"referenceprel\",\n",
+    "  \"dateprel\",\n",
+    "  \"nomcommuneprinc\",\n",
+    "  \"plvconformitebacterio\"\n",
+    "FROM \"edc_prelevements\"\n",
+    "WHERE\n",
+    "  {where_clause}\n",
+    "\"\"\"\n",
+    "preselected = con.sql(query_preselected)\n",
+    "preselected_df = preselected.df()\n",
+    "preselected_df.head(2)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Jointure\n",
+    "\n",
+    "Joindre edc_prelevements et edc_resultats sur referenceprel pour obtenir les résultats associés à chaque prélèvement :\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "query = f\"\"\"\n",
+    "SELECT\n",
+    "  \"edc_prelevements\".\"referenceprel\",\n",
+    "  \"edc_prelevements\".\"dateprel\",\n",
+    "  \"edc_prelevements\".\"nomcommuneprinc\",\n",
+    "  \"edc_resultats\".\"libmajparametre\",\n",
+    "  \"edc_resultats\".\"insituana\",\n",
+    "  \"edc_resultats\".\"rqana\",\n",
+    "  \"edc_resultats\".\"cdunitereferencesiseeaux\"\n",
+    "FROM (\n",
+    "  SELECT\n",
+    "    *\n",
+    "  FROM \"edc_prelevements\" \n",
+    "  WHERE\n",
+    "    {where_clause}\n",
+    ") AS edc_prelevements\n",
+    "INNER JOIN \"edc_resultats\"\n",
+    "  ON \"edc_prelevements\".\"referenceprel\" = \"edc_resultats\".\"referenceprel\"\n",
+    "\"\"\"\n",
+    "\n",
+    "\n",
+    "joined = con.sql(query)\n",
+    "joined_df = joined.df()\n",
+    "joined_df"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Groupby et aggregats\n",
+    "\n",
+    "Nombre total de prélèvements non conforme par commune en 2024\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "query = f\"\"\"\n",
+    "SELECT\n",
+    "  \"nomcommuneprinc\",\n",
+    "  COUNT(\"referenceprel\") AS \"nb_prelevements_non_conformes\"\n",
+    "FROM (\n",
+    "  SELECT\n",
+    "    *\n",
+    "  FROM \"edc_prelevements\" \n",
+    "  WHERE\n",
+    "    {where_clause}\n",
+    ") \n",
+    "GROUP BY\n",
+    "  1\n",
+    "\"\"\"\n",
+    "grouped = con.sql(query)\n",
+    "grouped_df = grouped.df()\n",
+    "grouped_df.sort_values(\"nb_prelevements_non_conformes\", ascending=False)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Autres exemples :\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Exemple issu du notebook premier notebook d'exemple : exemple.ipynb\n",
+    "# Faisons une requête SQL en utilisant duckdb via la librarie python pour lister les substances qui ont été recherchées\n",
+    "# et les trier par ordre décroissant de leur nombre d'occurrences\n",
+    "\n",
+    "con.sql(\"\"\"\n",
+    "    SELECT libmajparametre, COUNT(*) as count\n",
+    "    FROM edc_resultats\n",
+    "    GROUP BY libmajparametre\n",
+    "    ORDER BY count DESC\n",
+    "\"\"\").show()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Exemple issu du notebook premier notebook d'exemple : exemple.ipynb\n",
+    "\n",
+    "# Enfin, terminons par lister les prélèvements effectués dans une commune donnée\n",
+    "\n",
+    "nomcommune = \"TOULOUSE\"\n",
+    "\n",
+    "con.sql(f\"\"\"\n",
+    "    SELECT *\n",
+    "    FROM edc_prelevements\n",
+    "    WHERE nomcommuneprinc = '{nomcommune}'\n",
+    "\"\"\").show()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": ".venv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.7"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}