diverses corrections

avouacr · avouacr · commit ba0287eda1a6 · 2024-11-26T15:10:22.000Z
diff --git a/R/benchmark_parquet_functions.R b/R/benchmark_parquet_functions.R
@@ -48,7 +48,7 @@ import_time_parquet <- function(path, col_names = NULL) {
 
 
 import_time_parquet_partioned <- function(
-    path = "./data/RPindividus.parquet",
+    path = "data/RPindividus.parquet",
     col_names = NULL
 ){
   
diff --git a/R/checkpoints/application4/main_ls3.R b/R/checkpoints/application4/main_ls3.R
@@ -18,7 +18,7 @@ columns_subset <- c(
 )
 
 df <- open_dataset(
-  "./data/RPindividus",
+  "data/RPindividus",
   hive_style = TRUE
 ) %>%
   filter(REGION == 24) %>%
@@ -98,7 +98,7 @@ departements <- aws.s3::s3read_using(
 # PART DES SENIORS FRANCE ENTIERE =====================================
 
 part_seniors <- open_dataset(
-  "./data/RPindividus",
+  "data/RPindividus",
   hive_style = TRUE
 ) %>%
   mutate(plus_60 = AGED > 60) %>%
diff --git a/R/checkpoints/application4/script.R b/R/checkpoints/application4/script.R
@@ -18,7 +18,7 @@ columns_subset <- c(
 )
 
 df <- open_dataset(
-  "./data/RPindividus",
+  "data/RPindividus",
   hive_style = TRUE
 ) %>%
   filter(REGION == 24) %>%
@@ -95,7 +95,7 @@ departements <- sf::st_read(
 # PART DES SENIORS FRANCE ENTIERE =====================================
 
 part_seniors <- open_dataset(
-  "./data/RPindividus",
+  "data/RPindividus",
   hive_style = TRUE
 ) %>%
   mutate(plus_60 = AGED > 60) %>%
diff --git a/R/checkpoints/application5_part2/main_sspcloud.R b/R/checkpoints/application5_part2/main_sspcloud.R
@@ -10,9 +10,9 @@ path_within_bucket <- "/bonnes-pratiques/data"
 
 
 source("R/functions.R", encoding = "UTF-8")
-source("./R/functions_import.R", encoding = "UTF-8")
-source("./R/functions_stats_desc.R", encoding = "UTF-8")
-source("./R/functions_models.R", encoding = "UTF-8")
+source("R/functions_import.R", encoding = "UTF-8")
+source("R/functions_stats_desc.R", encoding = "UTF-8")
+source("R/functions_models.R", encoding = "UTF-8")
 
 
 # ENVIRONNEMENT DE STOCKAGE -------------------
diff --git a/slides/_r_advanced.qmd b/slides/_r_advanced.qmd
@@ -529,14 +529,14 @@ On aurait pu également utiliser un **orchestrateur** dédié pour effectuer cet
 ## Application 5: partie 3 {.smaller}
 
 
-:::{.callout-tip collapse="true" icon=false .noincremental}
+:::{.callout-tip collapse="true" icon=false .nonincremental}
 ## Partie 3 : ajout de contrôles de qualité des données
 
 Un critère de qualité majeur d'une chaîne de production est sa robustesse. Naturellement, les données en entrée de la chaîne peuvent évoluer dans le temps. Afin de gérer au mieux les risques posés par de telles évolutions, on va ajouter des contrôles sur la qualité des données, en entrée et en sortie de la chaîne.
 
 :::
 
-:::{.callout-tip collapse="true" icon=false .noincremental}
+:::{.callout-tip collapse="true" icon=false .nonincremental}
 ## Partie 4 : tests unitaires et versionnage de la chaîne
 
 Notre chaîne tourne à présent de manière robuste. Pour autant, ce n'est pas un objet fixe : on peut vouloir lui apporter des corrections ou des améliorations fonctionnelles. Et ces modifications peuvent, à leur tour, provoquer des nouvelles erreurs. Pour gérer ces risques, on va :
@@ -545,14 +545,14 @@ Notre chaîne tourne à présent de manière robuste. Pour autant, ce n'est pas
 
 :::
 
-:::{.callout-tip collapse="true" icon=false .noincremental}
+:::{.callout-tip collapse="true" icon=false .nonincremental}
 ## Partie 5 : un rapport reproductible pour documenter sa chaîne de production
 
 Une bonne manière de favoriser à la fois la maintenabilité de sa chaîne et la réutilisationde ses produits est de documenter son fonctionnement. Le format [quarto](https://quarto.org) — successeur de `R Markdown` — permet de reproduire facilement des **rapports reproductibles, qui intègrent code et texte**. En plus, ces rapports peuvent être facilement publiés en différents formats, du plus **interactif** (`html`) aux plus classiques (`pdf`, `odt`, etc.).
 
 :::
 
-:::{.callout-tip collapse="true" icon=false .noincremental}
+:::{.callout-tip collapse="true" icon=false .nonincremental}
 ## Partie 6 : automatiser la mise à disposition
 
 On dispose finalement d'une chaîne **orchestrée, robuste et bien documentée**. Afin d'en faire une chaîne vraiment intégrée de bout en bout, on va **automatiser** les étapes, de sorte à ce que les modifications apportées au projet se répércutent sur ses sorties. Pour cela, on va utiliser les outils de l'**intégration continue** proposés par `GitHub` / `GitLab`.
diff --git a/slides/_r_fundamentals.qmd b/slides/_r_fundamentals.qmd
@@ -210,7 +210,7 @@ if (x_is_not_empty_string) {
 
 ::::: {.columns}
 
-:::: {.column .noincremental width="60%"}
+:::: {.column .nonincremental width="60%"}
 
 - Un code mal structuré
   - Limite la [__lisibilité du projet__]{.blue2}
diff --git a/slides/applications_r/_application1.qmd b/slides/applications_r/_application1.qmd
@@ -124,7 +124,7 @@ Dans cette application, on va explorer deux manières possibles de gérer les se
 
 ## Checkpoint
 
-::: {.callout-caution .noincremental}
+::: {.callout-caution .nonincremental}
 ## Checkpoint
 
 * Le script [`script.R`](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application1/script.R)
diff --git a/slides/applications_r/_application2.qmd b/slides/applications_r/_application2.qmd
@@ -40,7 +40,7 @@
 
 ## Checkpoint
 
-::: {.callout-caution}
+::: {.callout-caution .nonincremental}
 ## Checkpoint
 
 * Le script [`script.R`](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application2/script.R)
diff --git a/slides/applications_r/_application3.qmd b/slides/applications_r/_application3.qmd
@@ -9,7 +9,6 @@
 # Partie 0 : préparation
 
 * Remplacer le contenu du script `get_data.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/get_data.R). Exécuter ce script, il importe les fichiers nécessaires pour cette application.
-* Créer un script `benchmark_parquet.R` afin de réaliser les comparaisons de performance des parties suivantes de l'application
 
 :::
 
@@ -18,8 +17,7 @@
 :::{.callout-tip .nonincremental collapse="true" icon=false}
 # Partie 0 : préparation
 
-* Remplacer le contenu du script `get_data_ls3.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/get_data_ls3.R). Exécuter ce script, il importe les fichiers nécessaires pour cette application.
-* Créer un script `benchmark_parquet.R` afin de réaliser les comparaisons de performance des parties suivantes de l'application
+* Remplacer le contenu du script `get_data.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/get_data_ls3.R). Exécuter ce script, il importe les fichiers nécessaires pour cette application.
 
 :::
 
@@ -34,7 +32,7 @@
 
 Tout au long de cette application, nous allons voir comment utiliser le format `Parquet` de manière la plus efficiente. Afin de comparer les différents formats et méthodes d'utilisation, nous allons **comparer le temps d'exécution et l'usage mémoire d'une requête standard**. Commençons par comparer les formats `CSV` et `Parquet`.
 
-* Remplacer le contenu du script `get_data.R` en copiant-collant le contenu de [ce fichier](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/get_data.R). Exécuter ce script, il importe les fichiers nécessaires dans cette application
+* Créer un script `benchmark_parquet.R` afin de réaliser les différentes comparaisons de performance de l'application
 * Pour effectuer les comparaisons de performance, on va utiliser la fonction [bench::mark](https://bench.r-lib.org/#benchmark). Analyser la documentation pour comprendre ce que la fonction attend en entrée. 
 * La requête suivante permet de calculer les données pour construire une pyramide des âges sur un département donné, à partir du fichier `CSV` du recensement. Encapsuler la requête dans une fonction `req_csv` (sans argument).
 
@@ -77,20 +75,17 @@ _❓️ Quelle méthode retenir pour lire un `Parquet` avec `Arrow` ?_
 La *lazy evaluation* et les optimisations d'`Arrow` apportent des gain de performance considérables. Mais on peut encore faire mieux ! Lorsqu'on sait qu'on va être amené à **filter régulièrement les données selon une variable d'intérêt**, on a tout intérêt à **partitionner** le fichier `Parquet` selon cette variable.
 
 * Parcourir la documentation de la fonction [arrow::write_dataset](https://arrow.apache.org/docs/r/reference/write_dataset.html) pour comprendre comment spécifier la clé de partitionnement d'un fichier `Parquet`. Plusieurs méthodes sont possibles !
-* Dans une même chaîne, importer la table individus complète du recensement `data/RPindividus.parquet` avec la fonction [arrow::open_dataset](https://arrow.apache.org/docs/r/reference/open_dataset.html) et l'exporter en une table `data/RPindividus_partitionne.parquet` partitionnée par la région (`REGION`) et le département (`DEPT`)
+* Importer la table individus complète du recensement `data/RPindividus.parquet` avec la fonction [arrow::open_dataset](https://arrow.apache.org/docs/r/reference/open_dataset.html) et l'exporter en une table `data/RPindividus_partitionne.parquet` partitionnée par la région (`REGION`) et le département (`DEPT`)
 * Observer l'arborescence de fichiers de la table exportée
 * Modifier la fonction `req_open_dataset` de la partie précédente pour partir de la table complète (non-partitionnée) `data/RPindividus.parquet` au lieu de l'échantillon
-* Construire une fonction `req_open_dataset_partitionne` sur le modèle de `req_open_dataset`, qui importe cette fois les données partitionnées `data/RPindividus_dept.parquet`. Ne pas oublier de spécifier le paramètre `hive_style = TRUE`.
+* Construire une fonction `req_open_dataset_partitionne` sur le modèle de `req_open_dataset`, qui importe cette fois les données partitionnées `data/RPindividus_partitionne.parquet`. Ne pas oublier de spécifier le paramètre `hive_style = TRUE`.
 * Comparer les performances (temps d'exécution et allocation mémoire) des deux méthodes grâce à la fonction [bench::mark](https://bench.r-lib.org/#benchmark)
 
 :::
 
 ::: {.nonincremental}
 
-_❓️ Dans le cadre d'une mise à disposition de données en `Parquet` :_
-
-* _Comment bien choisir la/les clé(s) de partitionnement ?_
-* _Quelle est la limite à garder en tête ?_
+*❓️ Dans le cadre d'une mise à disposition de données en `Parquet`, comment bien choisir la/les clé(s) de partitionnement ? Quelle est la limite à garder en tête ?*
 
 :::
 
@@ -102,18 +97,17 @@ _❓️ Dans le cadre d'une mise à disposition de données en `Parquet` :_
 
 Convaincus par ce comparatif, nous allons maintenant mettre à jour le format des données utilisées pour notre chaîne de production.
 
-* Modifier le script `script.R` pour importer les données d'entrée de votre chaîne à partir de la table `Parquet` partitionnée par département
-* Vérifier que le code tourne de A à Z et l'adapter si ce n'est pas le cas
-*
+* Modifier le script `script.R` pour importer les données d'entrée de votre chaîne à partir de la table `Parquet` partitionnée `data/RPindividus_partitionne.parquet`
+* Vérifier que le script complet s'exécute correctement et l'adapter si ce n'est pas le cas
 
 :::
 
-_❓️ Cette mise à jour des données utilisées en source de la chaîne de production vous semble-t-elle complexe ? Pourquoi ?_
+_❓️ Cette mise à jour des données utilisées en source de la chaîne de production vous a-t-elle paru compliquée ? Pourquoi ?_
 
 
 ## Checkpoint
 
-::: {.callout-caution .noincremental}
+::: {.callout-caution .nonincremental}
 ## Checkpoint
 
 * Le script [`benchmark_parquet.R`](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application3/benchmark_parquet.R)
diff --git a/slides/applications_r/_application4.qmd b/slides/applications_r/_application4.qmd
@@ -4,7 +4,7 @@
 
 ## {{< fa brands github >}}
 
-:::{.callout-tip collapse="true" icon=false .noincremental}
+:::{.callout-tip collapse="true" icon=false .nonincremental}
 ## Partie 1 : prise en main de la librairie `renv`
 
 1. Installer le package [`renv`](https://rstudio.github.io/renv/articles/renv.html)
@@ -77,7 +77,7 @@ ggplot(departements_60_plus_sf) +
 
 ## {{< fa brands gitlab >}} insee
 
-:::{.callout-tip collapse="true" icon=false .noincremental}
+:::{.callout-tip collapse="true" icon=false .nonincremental}
 ## Partie 1 : prise en main de la librairie `renv`
 
 1. Installer le package [`renv`](https://rstudio.github.io/renv/articles/renv.html)
@@ -192,7 +192,7 @@ ggplot(departements_60_plus_sf) +
 
 ## {{< fa brands github >}}
 
-::: {.callout-caution .noincremental}
+::: {.callout-caution .nonincremental}
 ## Checkpoint
 
 * Le script [`main.R`](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application4/main.R)
@@ -203,7 +203,7 @@ ggplot(departements_60_plus_sf) +
 
 ## {{< fa brands gitlab >}} insee
 
-::: {.callout-caution .noincremental}
+::: {.callout-caution .nonincremental}
 ## Checkpoint
 
 * Le script [`main.R`](https://raw.githubusercontent.com/InseeFrLab/formation-bonnes-pratiques-git-R/refs/heads/main/R/checkpoints/application4/main_ls3.R)