InseeFrLab
diff --git a/‎R/checkpoints/application3/functions.R‎
Lines changed: 0 additions & 43 deletions b/‎R/checkpoints/application3/functions.R‎
Lines changed: 0 additions & 43 deletions
diff --git a/‎R/checkpoints/application3/main.R‎ ‎R/checkpoints/application3/script.R‎R/checkpoints/application3/main.R renamed to R/checkpoints/application3/script.R b/‎R/checkpoints/application3/main.R‎ ‎R/checkpoints/application3/script.R‎R/checkpoints/application3/main.R renamed to R/checkpoints/application3/script.R
diff --git a/‎slides/_r_fundamentals.qmd‎
Lines changed: 9 additions & 1 deletion b/‎slides/_r_fundamentals.qmd‎
Lines changed: 9 additions & 1 deletion
diff --git a/‎slides/applications_r/_application3.qmd‎
Lines changed: 46 additions & 127 deletions b/‎slides/applications_r/_application3.qmd‎
Lines changed: 46 additions & 127 deletions
@@ -467,7 +467,7 @@ Source : [eliocamp.github.io](https://eliocamp.github.io/reproducibility-with-r/
 
 - [**Open-source**]{.orange}
 
-## Utiliser des fichiers `Parquet`
+## Le format `Parquet`
 
 - Deux *frameworks* de référence : [Arrow](https://book.utilitr.org/03_Fiches_thematiques/Fiche_arrow.html) et [DuckDB](https://book.utilitr.org/03_Fiches_thematiques/Fiche_duckdb.html)
   - Orientation [**fichier**]{.blue2} (`Arrow`) VS orientation [**BDD**]{.blue2} (`DuckDB`)
@@ -495,4 +495,12 @@ n_logements_depcom <- achille |>
 :::::
 :::
 
+## Le format `Parquet`
+
+- `Parquet` gagne sur tous les tableaux
+
+. . .
+
+![](img/tableau-perf-parquet.png){fig-align="center" height="500"}
+
 {{< include applications_r/_application3.qmd >}}
@@ -1,200 +1,119 @@
-## Application 3 (préparation) {.smaller}
+## Application 3 {.smaller}
 
 
 ::: {.panel-tabset}
 
 ## {{< fa brands github >}}
 
 :::{.callout-tip .nonincremental collapse="true" icon=false}
-# Partie 0: préparation de l'exercice
-* Remplacer le contenu du script `R/get_data.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/get_data.R). Exécuter ce script, il crée les fichiers nécessaires pour ces exercices.
-* Créer le script `R/benchmarking_functions.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/benchmark_functions.R)
-* Créer un nouveau script `R` qui servira de bac à sable pour tester le format `Parquet`.
-* Créer les variables qui seront utiles pour les prochaines questions
+# Partie 0 : préparation
 
-```{.r}
-columns_subset <- c(
-  "REGION", "AGED", "ANAI", "CATL", "COUPLE",
-  "SEXE", "SURF", "TP", "TRANS"
-)
-
-filename_sample_csv <- "data/RPindividus_24.csv"
-filename_sample_parquet <- gsub("csv", "parquet", filename_sample_csv)
-filename_full_parquet <- gsub("_24", "", filename_sample_parquet)
-filename_full_csv <- gsub("parquet", "csv", filename_full_parquet)
-```
+* Remplacer le contenu du script `get_data.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/get_data.R). Exécuter ce script, il importe les fichiers nécessaires pour cette application.
 
 :::
 
 ## {{< fa brands gitlab >}} insee
 
 :::{.callout-tip .nonincremental collapse="true" icon=false}
-# Partie 0: préparation de l'exercice
-* Remplacer le contenu du script `R/get_data.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/get_data_ls3.R). Exécuter ce script, il crée les fichiers nécessaires pour ces exercices.
-* Créer le script `R/benchmarking_functions.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/benchmark_functions.R)
-* Créer un nouveau script `R` qui servira de bac à sable pour tester le format `Parquet`.
-* Créer les variables qui seront utiles pour les prochaines questions
+# Partie 0 : préparation
 
-```{.r}
-columns_subset <- c(
-  "REGION", "AGED", "ANAI", "CATL", "COUPLE",
-  "SEXE", "SURF", "TP", "TRANS"
-)
-
-filename_sample_csv <- "data/RPindividus_24.csv"
-filename_sample_parquet <- gsub("csv", "parquet", filename_sample_csv)
-filename_full_parquet <- gsub("_24", "", filename_sample_parquet)
-filename_full_csv <- gsub("parquet", "csv", filename_full_parquet)
-```
+* Remplacer le contenu du script `get_data_ls3.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/get_data_ls3.R). Exécuter ce script, il importe les fichiers nécessaires pour cette application.
 
 :::
 
 :::
 
 
-## Application 3 (partie 1) {.smaller}
-
-::: {.callout-tip .nonincremental collapse="true" icon=false}
-## Partie 1 : Ouvrir un fichier `Parquet` et comprendre la logique de la lecture par bloc
-
-Lecture du fichier avec `read_parquet` du _package_ `arrow` :
-
-* Lire les données dont le chemin est stocké dans `filename_sample_parquet`. Pour mesurer le temps d'exécution, vous pouvez utiliser le squelette de code suggéré ci-dessous 👇️.
-* Faire la même chose mais cette fois, ajouter un filtre _ex post_ avec les colonnes (`select(any_of(columns_subset))`). Mesurez-vous une différence dans les temps de traitement ?
 
-Lecture du fichier avec `open_dataset` du _package_ `arrow` :
+## Application 3 {.smaller}
 
-* Cette fois, lire le fichier avec `open_dataset(filename_sample_parquet)`. Regarder la classe de cet objet. 
-* Faire un `head(5)` après `open_dataset`. Observer l'objet obtenu (sortie en console, classe).
-* Maintenant regarder lorsque vous ajouter `collect()` après cette chaîne.
-* Mesurer le temps d'exécution de `open_dataset(filename_sample_parquet) %>% collect()`. Ajouter le filtre `select(any_of(columns_subset))`. Sa place influence-t-elle la vitesse de votre processus ? 
-
-Comparaison à la lecture d'un CSV : 
-
-* Utiliser `readr::read_csv` pour lire le fichier (chemin `filename_sample_csv`) avec et sans l'argument `col_select`. Avez-vous des gains de performance si vous ne lisez le fichier qu'avec ces colonnes ? 
+:::{.callout-tip .nonincremental collapse="true" icon=false}
+# Partie 1 : Du `CSV` au `Parquet`
 
-<details>
+Tout au long de cette application, nous allons voir comment utiliser le format `Parquet` de manière la plus efficiente. Afin de comparer les différents formats et méthodes d'utilisation, nous allons **comparer le temps d'exécution et l'usage mémoire d'une requête standard**. Commençons par comparer les formats `CSV` et `Parquet`.
 
-<summary>
-Mesurer le temps d'exécution
-</summary>
+* Remplacer le contenu du script `get_data.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/get_data.R). Exécuter ce script, il importe les fichiers nécessaires dans cette application
+* Pour effectuer les comparaisons de performance, on va utiliser la fonction [bench::mark](https://bench.r-lib.org/#benchmark). Analyser la documentation pour comprendre ce que la fonction attend en entrée. 
+* La requête suivante permet de calculer les données pour construire une pyramide des âges sur un département donné, à partir du fichier `CSV` du recensement. Encapsuler la requête dans une fonction `req_csv` (sans argument).
 
 ```{.r}
-start_time <- Sys.time()
-# lecture du fichier ici
-end_time <- Sys.time()
-diff_time <- end_time - start_time
+res <- readr::read_csv("data/RPindividus_24.csv") %>% 
+    filter(DEPT == "36") %>%
+    group_by(AGED, DEPT) %>%
+    summarise(n_indiv = sum(IPONDI))
 ```
 
-</details>
+* Sur le même modèle, construire une fonction `req_read_parquet` basée cette fois sur le fichier `data/RPindividus_24.parquet` chargé avec la fonction [read_parquet](https://arrow.apache.org/docs/r/reference/read_parquet.html) d'`Arrow`
+* Comparer les performances (temps d'exécution et allocation mémoire) de ces deux méthodes grâce à la fonction [bench::mark](https://bench.r-lib.org/#benchmark), à laquelle on passera les paramètres `iterations = 1` (comparaison à partir d'une seule itération) et `check = FALSE` (autorise les outputs des deux fonctions à être différents).
 
 :::
 
-_❓️ Quelle méthode retenir pour lire un `Parquet` avec `Arrow` ?_
+_❓️ Quelle semble être la limite de la fonction `read_parquet` ?_
 
-## Application 3 (partie 2) {.smaller}
+## Application 3 {.smaller}
 
 ::: {.callout-tip .nonincremental collapse="true" icon=false}
-## Partie 2 : Un format léger et efficace
+## Partie 2 : Exploiter la *lazy evaluation* et les optimisations d'`Arrow`
 
-Dans cet exercice, vous devrez utiliser `open_dataset` pour lire les `Parquet`. 
+La partie précédente a montré un **gain de temps considérable** du passage de `CSV` à `Parquet`. Néanmoins, l'**utilisation mémoire était encore très élevée** alors qu'on utilise de fait qu'une infime partie du fichier. Dans cette partie, on va voir comment utiliser la ***lazy evaluation*** et les **optimisations du plan d'exécution** effectuées par `Arrow` pour exploiter pleinement la puissance du format `Parquet`.
 
-* Observer l'espace disque de chaque fichier par le biais de l'explorateur de fichiers
-* Mesurer le temps d'exécution de la lecture du fichier dont le chemin est stocké dans la variable `filename_full_parquet`. 
-    + Faire ceci avec et sans le filtre des colonnes[^csv].
-    + La croissance du temps de traitement vous apparaît-elle énorme ? 
-* Ajouter après cette étape de lecture `filter(REGION == 24)`. Comprenez-vous pourquoi vous ne bénéficiez pas de gain de performance ?   
+* Utiliser la fonction [arrow::open_dataset](https://arrow.apache.org/docs/r/reference/open_dataset.html) pour ouvrir le fichier `data/RPindividus_24.parquet`. Regarder la classe de l'objet obtenu.
+* Afficher les 5 premières lignes de la table avec la fonction `head()`. Observer l'objet obtenu (sortie en console, classe).
+* Ajouter une étape `collect()` à la fin de cette chaîne. Comprenez-vous la différence ?
+* Construire une fonction `req_open_dataset` sur le modèle de celles de la partie précédente, qui importe cette fois les données avec la fonction [arrow::open_dataset](https://arrow.apache.org/docs/r/reference/open_dataset.html)
+* Comparer les performances (temps d'exécution et allocation mémoire) des trois méthodes (`CSV`, `read_parquet` et `open_dataset`) grâce à la fonction [bench::mark](https://bench.r-lib.org/#benchmark)
 
 :::
 
-_❓️ Dans quel ordre sont faits les filtres par `Arrow` ?_
-
-[^csv]: Ne pas faire ceci maintenant avec le CSV, le _benchmark_ arrive prochainement.
+_❓️ Quelle méthode retenir pour lire un `Parquet` avec `Arrow` ?_
 
-## Application 3 (partie 3) {.smaller}
+## Application 3 {.smaller}
 
 ::: {.callout-tip .nonincremental collapse="true" icon=false}
-# Partie 3 : le Parquet partitionné
+# Partie 3 : Le `Parquet` partitionné
 
-* Utiliser le code ci-dessous pour partitionner le fichier `Parquet` par _"REGION"_ et _"DEPT"_
+La *lazy evaluation* et les optimisations d'`Arrow` apportent des gain de performance considérables. Mais on peut encore faire mieux ! Lorsqu'on sait qu'on va être amené à **filter régulièrement les données selon une variable d'intérêt**, on a tout intérêt à **partitionner** le fichier `Parquet` selon cette variable.
 
-```{.r}
-open_dataset(filename_full_parquet) %>%
-  group_by(REGION, DEPT) %>%
-  write_dataset("./data/RPindividus")
-```
-
-* Observer l'arborescence de fichiers
-* Utiliser `Arrow` pour lire les données de la Corse du Sud (code région 94, code département 2A) à partir de ce fichier partitionné
+* Parcourir la documentation de la fonction [arrow::write_dataset](https://arrow.apache.org/docs/r/reference/write_dataset.html) pour comprendre comment spécifier la clé de partitionnement d'un fichier `Parquet`. Plusieurs méthodes sont possibles !
+* Dans une même chaîne, importer la table individus complète du recensement `data/RPindividus.parquet` avec la fonction [arrow::open_dataset](https://arrow.apache.org/docs/r/reference/open_dataset.html) et l'exporter en une table `data/RPindividus_dept.parquet` partitionnée par le département (`DEPT`)
+* Observer l'arborescence de fichiers de la table exportée
+* Modifier la fonction `req_open_dataset` de la partie précédente pour partir de la table complète (non-partitionnée) `data/RPindividus.parquet` au lieu de l'échantillon
+* Construire une fonction `req_open_dataset_part` sur le modèle de `req_open_dataset`, qui importe cette fois les données partitionnées `data/RPindividus_dept.parquet`. Ne pas oublier de spécifier le paramètre `hive_style = TRUE`.
+* Comparer les performances (temps d'exécution et allocation mémoire) des deux méthodes grâce à la fonction [bench::mark](https://bench.r-lib.org/#benchmark)
 
 :::
 
 ::: {.nonincremental}
 
-_❓️ Imaginons que les utilisateurs voudraient aussi se restreindre à certains types de ménages en fonction de caractéristiques :_
+_❓️ Dans le cadre d'une mise à disposition de données en `Parquet` auprès d'utilisateurs :_
 
-* _Que faudrait-il faire ?_
-* _Quelle est la limite ?_
+* _Comment bien choisir la/les clé(s) de partitionnement ?_
+* _Quelle est la limite à garder en tête ?_
 
 :::
 
-## Application 3 (partie 3) {.smaller}
-
-Quand on généralise cette démarche de _benchmark_, on obtient le tableau de performance suivant
-
-![](img/tableau-perf-parquet.png){fig-align="center"}
-
 
-## Application 3 (partie 4) {.smaller}
+## Application 3 {.smaller}
 
 :::{.callout-tip .nonincremental collapse="true" icon=false}
 # Partie 4 : mise à jour de la chaîne de production
 
-Nous allons mettre à jour les données utilisées pour notre chaîne de production :
-
-* Lire les données à partir du morceau de code proposé
-* Vérifier que le code tourne de A à Z et changer celui-ci marginalement si ce n'est pas le cas
-
-<details>
-
-<summary>
-Modification du code pour l'import de données
-</summary>
-
-```{.r}
-columns_subset <- c(
-  "REGION", "AGED", "ANAI", "CATL", "COUPLE",
-  "SEXE", "SURF", "TP", "TRANS", "IPONDI"
-)
-
-df <- open_dataset(
-  "./data/RPindividus",
-  hive_style = TRUE
-) %>%
-  filter(REGION == 24) %>%
-  select(any_of(columns_subset)) %>%
-  collect()
-
-```
-
-</details>
+Convaincus par ce comparatif, nous allons maintenant mettre à jour le format des données utilisées pour notre chaîne de production.
 
+* Modifier le script `script.R` pour importer les données d'entrée de votre chaîne à partir de la table `Parquet` partitionnée par département
+* Vérifier que le code tourne de A à Z et l'adapter si ce n'est pas le cas
 
 :::
 
-
-
-_❓️ Cette mise à jour des données utilisées vous est-elle apparue plus simple que les changements de l'application 1 ?_
+_❓️ Cette mise à jour des données utilisées en source de la chaîne de production vous semble-t-elle complexe ? Pourquoi ?_
 
 
 ## Checkpoint
 
 ::: {.callout-caution .noincremental}
 ## Checkpoint
 
-* Le script [`main.R`](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/main.R)
-* Le script [`R/functions.R`](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/functions.R)
-
+* Le script [`script.R`](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/script.R)
 
 ![](checkpoint.jpg){width=40% fig-align="center"}