QCBSRworkshops
diff --git a/‎book-en/06-generalization.Rmd‎
Lines changed: 2 additions & 2 deletions b/‎book-en/06-generalization.Rmd‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎book-fr/01-preparation-pour-l-atelier.Rmd‎
Lines changed: 0 additions & 1 deletion b/‎book-fr/01-preparation-pour-l-atelier.Rmd‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎book-fr/02-introduction-fr.Rmd‎
Lines changed: 7 additions & 3 deletions b/‎book-fr/02-introduction-fr.Rmd‎
Lines changed: 7 additions & 3 deletions
diff --git a/‎book-fr/03-fonctionnement.Rmd‎
Lines changed: 14 additions & 4 deletions b/‎book-fr/03-fonctionnement.Rmd‎
Lines changed: 14 additions & 4 deletions
diff --git a/‎book-fr/04-plusieurs-termes-non-lineaires.Rmd‎
Lines changed: 15 additions & 10 deletions b/‎book-fr/04-plusieurs-termes-non-lineaires.Rmd‎
Lines changed: 15 additions & 10 deletions
diff --git a/‎book-fr/05-interactions.Rmd‎
Lines changed: 90 additions & 55 deletions b/‎book-fr/05-interactions.Rmd‎
Lines changed: 90 additions & 55 deletions
diff --git a/‎book-fr/06-changer-la-fonction-de-base.Rmd‎
Lines changed: 0 additions & 101 deletions b/‎book-fr/06-changer-la-fonction-de-base.Rmd‎
Lines changed: 0 additions & 101 deletions
@@ -12,7 +12,7 @@ We will now go over these aspects.
 
 So far, we have worked with simple (Gaussian) additive models, the non-linear equivalent to a linear model. 
 
-However, ecological datasets often do not fit the assumptions rof Gaussian models. So, what can we do if the observations of the response variable do **not follow a Normal distribution**? Or if the **variance is not constant** (heteroscedasticity)?
+However, ecological datasets often do not fit the assumptions of Gaussian models. So, what can we do if the observations of the response variable do **not follow a Normal distribution**? Or if the **variance is not constant** (heteroscedasticity)?
 
 Just like generalized linear models (GLM), we can formulate **generalized** additive models to deal with these issues.
 
@@ -217,7 +217,7 @@ AIC(smooth_interact, smooth_interact_tw)
 ```
 
 :::explanation
-AIC allows us to compare models that are based on different distributions
+AIC allows us to compare models that are based on different distributions!
 :::
 
 The AIC score for `smooth_interact_tw` is _much_ smaller than the AIC score for the `smooth_interact`. Using a *Tweedie* instead of a *Normal* distribution greatly improves our model!
@@ -36,7 +36,6 @@ Tout le matériel de l'atelier se trouve sur [r.qcbs.ca/fr/workshops/r-workshop-
 Pour cet atelier, nous travaillerons avec les jeux de données suivants :
 
 * [ISIT.csv](https://r.qcbs.ca/workshop08/pres-en/data/ISIT.csv) 
-* [other_dist.csv](https://r.qcbs.ca/workshop08/pres-en/data/other_dist.csv) 
 
 Vous devriez également vous assurer que vous avez téléchargé, installé et chargé les librairies R suivants:
 
 
@@ -21,11 +21,15 @@ $$y_i = \beta_0 + \beta_1x_{1,i}+\beta_2x_{2,i}+\beta_3x_{3,i}+...+\beta_kx_{k,i
 
 Les modèles linéaires fonctionnent très bien dans certains cas spécifiques où tous ces critères sont respectés:
 
-![](images/linreg.png) 
+```{r, fig.align = 'center', out.width = '70%', echo = FALSE, purl = FALSE}
+knitr::include_graphics("images/linreg.png")
+```
 
-Dans la réalité, il est souvent impossible de respecter ces critères. Cela signifie que, dans de nombreux cas, les modèles linéaires sont inappropriés:
+En réalité, il est souvent impossible de respecter ces critères. Cela signifie que, dans de nombreux cas, les modèles linéaires sont inappropriés:
 
-![](images/linreg_bad.png)
+```{r, fig.align = 'center', out.width = '100%', echo = FALSE, purl = FALSE}
+knitr::include_graphics("images/linreg_bad.png")
+```
 
 Alors, comment résoudre ce problème ? Pour répondre à cette question, nous devons d'abord considérer ce que le modèle de régression tente de faire. Un modèle linéaire essaye d'ajuster la __meilleure droite__ qui passe au milieu des données _sans __sur-ajuster___ les données, ce qui se produirait si nous tracions simplement une ligne entre chaque point et ses voisins. 
 
 
@@ -24,19 +24,27 @@ $$y_i = \beta_0 + x_i\beta_1 +  x^2_i\beta_2 + x^3_i\beta_3 + x^4_i\beta_4 + \ep
 
 Chaque fonction de base est multipliée par un paramètre à valeur réelle, $\beta_j$, et est ensuite additionnée pour donner la <font color="orange">courbe finale $f(x)$</font>.
 
-![](images/polynomial_basis_example.png)
+```{r, fig.align = 'center', out.width='100%', echo = FALSE, purl = FALSE}
+knitr::include_graphics("images/polynomial_basis_example.png")
+```
 
 En faisant varier le coefficient $\beta_j$, on peut faire varier la forme de $f(x)$ pour produire une fonction polynomiale d'ordre 4 ou moins.
 
 ## Exemple: une base de spline cubique
 
 Un spline cubique est une courbe construite à partir de sections d'un polynôme cubique reliées entre elles de sorte qu'elles sont continues en valeur. Chaque section du spline a des coefficients différents.
 
-![](images/cubic_spline_fr.png)
+```{r, fig.align = 'center', echo = FALSE, purl = FALSE, out.width='100%'}
+knitr::include_graphics("images/cubic_spline_fr.png")
+```
+
 
 Voici une représentation d'une fonction lisse utilisant une base de régression spline cubique de rang 5 avec des nœuds situés à incréments de 0.2:
 
-![](images/graphic6.1.jpg)
+```{r, fig.align = 'center', echo = FALSE, purl = FALSE, out.width='7s0%'}
+knitr::include_graphics("images/graphic6.1.jpg")
+```
+
 
 Dans cet exemple, les nœuds sont espacés uniformément à travers la gamme des valeurs observées de x. Le choix du degré de finesse du modèle est pré-déterminé par le nombre de nœuds, qui était arbitraire.
 
@@ -65,7 +73,9 @@ $$M = 1/n \times \sum_{i=1}^n (\hat{f_i} - f_i)^2$$
 :::explanation
 __Le principe de validation croisée__
 
-![](images/illustration_of_smooth_sel.png)
+```{r, fig.align = 'center', out.width = '100%', echo = FALSE, purl = FALSE}
+knitr::include_graphics("images/illustration_of_smooth_sel.png")
+```
 
 Dans le premier panneau, la courbe correspond à un ajustement faible par
 rapport aux données et ne fait pas mieux avec le point manquant. Dans le
 
@@ -46,8 +46,9 @@ Dans notre modèle de base, les EDF de la fonction lisse `s(SampleDepth)` sont ~
 
 Traçons les termes lissés (`s(SampleDepth)`) et linéaires (`Season`) de notre modèle ajusté:
 
-```{r}
-plot(basic_model, all.terms = TRUE, page = 1)
+```{r, fig.height = 4}
+par(mfrow = c(1,2))
+plot(basic_model, all.terms = TRUE)
 ```
 
 :::puzzle
@@ -105,8 +106,9 @@ two_term_summary$s.table
 
 Regardons les relations entre les prédicteurs linéaires et non-linéaires et notre variable réponse.
 
-```{r}
-plot(two_term_model, page = 1, all.terms = TRUE)
+```{r, fig.height = 8}
+par(mfrow = c(2,2))
+plot(two_term_model, all.terms = TRUE)
 ```
 
 ## GAM à plusieurs variables
@@ -133,8 +135,9 @@ two_smooth_summary$s.table
 
 Regardons les relations entre les prédicteurs linéaires et non-linéaires et notre variable réponse.
 
-```{r}
-plot(two_smooth_model, page = 1, all.terms = TRUE)
+```{r, fig.height = 8}
+par(mfrow = c(2,2))
+plot(two_smooth_model, all.terms = TRUE)
 ```
 
 :::puzzle
@@ -187,12 +190,14 @@ __2.__ Est-ce que `Latitude` est un terme important à inclure dans le modèle?
 
 Commençons par visualiser les 4 effets qui sont maintenant inclus dans chaque modèle:
 
-```{r}
-plot(three_term_model, page = 1, all.terms = TRUE)
+```{r, fig.height = 8}
+par(mfrow = c(2,2))
+plot(three_term_model, all.terms = TRUE)
 ```
 
-```{r}
-plot(three_smooth_model, page = 1, all.terms = TRUE)
+```{r, fig.height = 8}
+par(mfrow = c(2,2))
+plot(three_smooth_model, all.terms = TRUE)
 ```
 
 Nous devrions également examiner nos tableaux de coefficients. Qu'est-ce que les EDF nous disent à propos de _l'ondulation_, ou la non-linéarité, des effets de nos prédicteurs?
 
@@ -1,55 +1,90 @@
-# Interactions
-
-Il y a deux façons de modéliser une interaction entre deux variables:
-
--   si une variable est quantitative et l'autre est qualitative, on
-    utilise l'argument `by` &#8594; `s(x, by=facteur)`,
--   si les deux variables sont quantitatives, on inclut les deux termes
-    sous une même fonction non linéaire &#8594; `s(x1, x2)`.
-
-L'argument `by` permet de faire varier un terme non linéaire selon les
-différents niveaux d'un facteur. Nous allons examiner ceci en utilisant
-notre variable qualitative `x0` et examiner si la non-linérité de
-`s(x2)` varie selon les différents niveaux de `x0`. Pour déterminer si
-les courbes diffèrent significativement entre les niveaux du facteur,
-nous allons utiliser une ANOVA sur l'interaction.
-
-```{r, echo = TRUE, eval = FALSE}
-categorical_interact <- gam(y~x0+s(x1)+s(x2,by=x0),data=gam_data)
-categorical_interact_summary <- summary(categorical_interact)
-print(categorical_interact_summary$s.table)
-plot(categorical_interact,page=1)
-# ou nous pouvons utiliser la fonction vis.gam où theta représente la rotation du plan x-y
-vis.gam(categorical_interact,view=c("x2","x0"),theta=40,n.grid=500,border=NA) 
-anova(two_smooth_model, categorical_interact,test="Chisq")
-```
-
-![](images//graphic3.1b.png){width="350"}
-
-Nous pouvons constater à partir du graphique que les formes des termes
-non linéaires sont comparables entre les quatre niveaux de `x0`.
-L'ANOVA le confirme également (déviance = 98,6, *p* = 0,2347).
-
-Ensuite, nous allons examiner l'interaction non linéaire entre deux
-termes quantitatifs, `x1` et `x2`. Cette fois-ci, l'argument `by` est
-supprimé.
-
-```{r, echo = TRUE, eval = FALSE}
-smooth_interact <- gam(y~x0+s(x1,x2),data=gam_data)
-smooth_interact_summary <- summary(smooth_interact)
-print(smooth_interact_summary$s.table)
-plot(smooth_interact,page=1,scheme=3)
-# plot(smooth_interact,page=1,scheme=1) donne un graphique comparable à vis.gam()
-vis.gam(smooth_interact,view=c("x1","x2"),theta=40,n.grid=500,border=NA) 
-anova(two_smooth_model,smooth_interact,test="Chisq")
-```
-
-![](images//graphic3.2b.png){width="350"}
-
-L'interaction entre `s(x1)` et `s(x2)` est significative et le
-graphique en deux dimensions illustre très bien cette interaction non
-linéaire. La relation entre y et x1 change en fonction de la valeur de
-`x2`. Vous pouvez changez la valeur de l'argument `theta` pour tourner
-l'axe du graphique. Si vous prévoyez exécuter un grand nombre de
-graphiques, supprimez l'argument `n.grid = 500`, car ceci fait appel à
-des calculs intensifs et ralentit R.
+# GAM avec des termes d'interaction
+
+Il y a deux façons de modéliser une interaction entre deux variables :
+
+- pour deux variables non-linéaire : `s(x1, x2)`
+- pour une variable non-linéaire et une variable linéaire (quantitative ou qualitative) : utiliser l'argument `by`, `s(x1, by = x2)`
+  - Quand `x2` est qualitative, vous avez un terme non linéaire qui varie entre les différents niveaux de `x2`
+  - Quand `x2` est quantitative, l'effet linéaire de `x2` varie avec `x1`
+  - Quand `x2` est qualitative, le facteur doit être ajouté comme effet principal dans le modèle
+
+## Interaction entre variables non-linéaire et qualitatif
+
+Nous allons examiner l'effet de l'interaction en utilisant notre variable qualitative `Season` et examiner si la non-linéarité de `s(SampleDepth)` varie selon les différents niveaux de `Season`.
+
+```{r}
+factor_interact <- gam(Sources ~ Season +
+                         s(SampleDepth,by=Season) +
+                         s(RelativeDepth),
+                       data = isit, method = "REML")
+
+summary(factor_interact)$s.table
+```
+
+```{r, fig.height = 8}
+par(mfrow = c(2,2))
+plot(factor_interact)
+```
+
+:::explanation
+Les deux premiers graphiques montrent l'effet d'interaction entre notre variable lisse `SampleDepth` et chaque niveau de notre variable factorielle, `Season`. Voyez-vous une différence entre les deux courbes ?
+:::
+
+Les graphiques montrent quelques différences entre la forme des termes lisses entre les deux niveaux de `Season`. La différence la plus notable est le pic dans le deuxième panneau, qui nous indique qu'il y a un effet de `SampleDepth` entre 1000 et 2000 qui est important dans la saison 2, mais qui ne se produit pas dans la saison 1. Cela suggère que l'effet d'interaction pourrait être important à inclure dans notre modèle.
+
+Nous pouvons également représenter l'effet d'interaction en 3D sur un seul graphique, en utilisant `vis.gam()`.
+
+```{r}
+vis.gam(factor_interact, theta = 120, n.grid = 50, lwd = .4)
+```
+> On peut changer le degré de rotation de notre plan x-y avec l'argument `theta`. 
+
+Pour vérifier notre hypothèse que cette interaction est importante, on peut faire une comparaison de modèles en utilisant l'AIC pour déterminer si le terme d'interaction améliore la performance de notre modèle.
+
+```{r}
+AIC(two_smooth_model, factor_interact)
+```
+
+L'AIC de notre modèle avec une interaction factorielle entre le lisse `SampleDepth` et le `Season` a un score AIC plus bas, ce qui nous indique que ce modèle est plus performant que `two_smooth_model`. L'inclusion de cette interaction semble améliorer les performances de notre modèle.
+
+
+## Interaction entre variables non linéaires 
+
+Finalement, nous regardons les interactions entre deux termes non linéaires, `SampleDepth` et `RelativeDepth`.
+
+```{r}
+smooth_interact <- gam(Sources ~ Season + s(SampleDepth, RelativeDepth), 
+                       data = isit, method = "REML")
+summary(smooth_interact)$s.table
+```
+
+Dans la section précédente, nous avons pu visualiser un effet d'interaction entre un terme non linéaire et un terme factoriel en dessinant une fonction lisse différente de `SampleDepth` pour chaque niveau de `Season`. 
+
+Dans ce modèle, nous avons deux termes non linéaires, donc l'effet de `SampleDepth` varie de façon linéaire avec `RelativeDepth`, et vice-versa. Lorsque nous visualisons cette interaction, nous obtenons plutôt un gradient entre deux fonctions continues lissées :
+
+```{r}
+plot(smooth_interact, page = 1, scheme = 2)
+```
+
+We can also plot this interaction on a 3D surface:
+
+```{r}
+vis.gam(smooth_interact, 
+        view = c("SampleDepth", "RelativeDepth"), 
+        theta = 50, n.grid = 50, lwd = .4)
+```
+> Rappelez-vous, ce graphique peut être réorienté en changeant la valeur de l'argument `theta`.
+
+:::explanation
+On peut changer la couleur du graphique 3D en utilisant l'argument `color`. Essayez de spécifier `color = "cm"` dans `vis.gam()` ci-dessus, et consultez `?vis.gam` pour plus d'options de couleurs.
+:::
+
+Les graphiques illustrent une interaction non linéaire, où `Sources` est plus faible à des valeurs élevées de `SampleDepth` et `RelativeDepth`, mais augmente avec `RelativeDepth` alors que `SampleDepth` est faible.
+
+Ainsi, il semble y avoir un effet d'interaction entre ces termes non linéaires. Est-ce que l'inclusion de l'interaction entre `s(SampleDepth)` et `s(RelativeDepth)` améliore notre modèle `two_smooth_model`?
+
+```{r}
+AIC(two_smooth_model, smooth_interact)
+```
+
+Le modèle avec l'interaction entre `s(SampleDepth)` et `s(RelativeDepth)` a un AIC inférieur, ce qui signifie que l'inclusion de cette interaction améliore la performance de notre modèle, et notre capacité à comprendre les déterminants de la bioluminescence.