Skip to content

Commit 17d20f7

Browse files
committed
fix lintr checks
1 parent 1448036 commit 17d20f7

File tree

1 file changed

+18
-7
lines changed

1 file changed

+18
-7
lines changed

episodes/clean-data.Rmd

Lines changed: 18 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -232,10 +232,13 @@ Les données constantes se réfèrent principalement aux lignes et colonnes vide
232232
cleaned_df <- df %>%
233233
cleanepi::remove_constants() %>%
234234
cleanepi::remove_duplicates()
235+
```
235236

236-
#print_report(cleaned_df, "constant_data")
237+
```r
238+
print_report(cleaned_df, "constant_data")
237239
```
238240

241+
239242
- indices des doublon : aucun
240243
- colonnes vides :
241244
- premiere itération: col5
@@ -250,9 +253,12 @@ Faites remarquer aux apprenants qu'ils peuvent obtenir des résultats différent
250253
```{r}
251254
cleaned_df <- df %>%
252255
cleanepi::remove_constants(cutoff = 0.5)
256+
```
253257

254-
#print_report(cleaned_df, "constant_data")
258+
```r
259+
print_report(cleaned_df, "constant_data")
255260
```
261+
256262
:::::::::::::::
257263

258264
### Remplacer les valeurs manquantes
@@ -276,7 +282,8 @@ Chaque entrée du jeu de données représente un individu (par exemple, un patie
276282
La librairie `{cleanepi}` propose la fonction `check_subject_ids()` permettant de vérifier si les identifiants des individus sont uniques et s'ils satisfont aux critères établis par l'utilisateur.
277283

278284
```{r}
279-
# vérifier si les identifiants des individus comportent des nombres variant entre 0 et 15000
285+
# vérifier si les identifiants des individus comportent des nombres
286+
# variant entre 0 et 15000
280287
sim_ebola_data <- cleanepi::check_subject_ids(
281288
data = sim_ebola_data,
282289
target_columns = "case_id",
@@ -425,15 +432,17 @@ Pour simplifier la correction des valeurs mals orthographiées, nous avons intro
425432
orthographiées seront ainsi substituées par les vraies valeurs qui leurs sont orthographiquement plus proches.
426433
427434
```{r}
428-
# remplacer automatiquement les valeurs mals orthographiées de la colonne 'status' avec les vraies
435+
# remplacer automatiquement les valeurs mals orthographiées de la
436+
# colonne 'status' avec les vraies
429437
sim_ebola_data <- cleanepi::correct_misspelled_values(
430438
data = sim_ebola_data,
431439
target_columns = "status",
432440
wordlist = c("confirmed", "probable", "suspected", "died", "recovered"),
433441
confirm = FALSE # remplacement sans demander l'avis de l'utilisateur
434442
)
435443
436-
# remplacer les valeurs mals orthographiées de la colonne 'status' avec les vraies apres avoir demander la confirmation à l'utilisateur
444+
# remplacer les valeurs mals orthographiées de la colonne 'status' avec
445+
# les vraies apres avoir demander la confirmation à l'utilisateur
437446
sim_ebola_data <- cleanepi::correct_misspelled_values(
438447
data = sim_ebola_data,
439448
target_columns = "status",
@@ -506,7 +515,8 @@ dat_clean <- dat %>%
506515
cleanepi::standardize_dates(
507516
target_columns = c("date_of_birth", "date_first_pcr_positive_test")
508517
) %>%
509-
# replacer les chaînes de caractères représentant les données manquantes avec NA
518+
# replacer les chaînes de caractères représentant les données
519+
# manquantes avec NA
510520
cleanepi::replace_missing_values(
511521
target_columns = c("sex", "date_of_birth"),
512522
na_strings = "-99"
@@ -540,10 +550,11 @@ dat_clean %>%
540550
age_in_years
541551
) %>%
542552
# categoriser la variable age [ajouter comme indice dans le challenge]
553+
# replacer avec la valeur maximale si elle est connue
543554
dplyr::mutate(
544555
age_category = base::cut(
545556
x = age_in_years,
546-
breaks = c(0, 20, 35, 60, Inf), # replacer avec la valeur maximale si elle est connue
557+
breaks = c(0, 20, 35, 60, Inf),
547558
include.lowest = TRUE,
548559
right = FALSE
549560
)

0 commit comments

Comments
 (0)