linogaliana
diff --git a/‎_quarto.yml‎
Lines changed: 1 addition & 1 deletion b/‎_quarto.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎content/manipulation/01_numpy.qmd‎
Lines changed: 106 additions & 6 deletions b/‎content/manipulation/01_numpy.qmd‎
Lines changed: 106 additions & 6 deletions
diff --git a/‎…pulation/01_numpy_exercises/_exo6_en.qmd‎ ‎…ation/01_numpy_exercises/_exo_knn_en.qmd‎content/manipulation/01_numpy_exercises/_exo6_en.qmd renamed to content/manipulation/01_numpy_exercises/_exo_knn_en.qmd b/‎…pulation/01_numpy_exercises/_exo6_en.qmd‎ ‎…ation/01_numpy_exercises/_exo_knn_en.qmd‎content/manipulation/01_numpy_exercises/_exo6_en.qmd renamed to content/manipulation/01_numpy_exercises/_exo_knn_en.qmd
diff --git a/‎…pulation/01_numpy_exercises/_exo6_fr.qmd‎ ‎…ation/01_numpy_exercises/_exo_knn_fr.qmd‎content/manipulation/01_numpy_exercises/_exo6_fr.qmd renamed to content/manipulation/01_numpy_exercises/_exo_knn_fr.qmd b/‎…pulation/01_numpy_exercises/_exo6_fr.qmd‎ ‎…ation/01_numpy_exercises/_exo_knn_fr.qmd‎content/manipulation/01_numpy_exercises/_exo6_fr.qmd renamed to content/manipulation/01_numpy_exercises/_exo_knn_fr.qmd
diff --git a/‎…on/01_numpy_exercises/_exo6_solution.qmd‎ ‎…01_numpy_exercises/_exo_knn_solution.qmd‎content/manipulation/01_numpy_exercises/_exo6_solution.qmd renamed to content/manipulation/01_numpy_exercises/_exo_knn_solution.qmd b/‎…on/01_numpy_exercises/_exo6_solution.qmd‎ ‎…01_numpy_exercises/_exo_knn_solution.qmd‎content/manipulation/01_numpy_exercises/_exo6_solution.qmd renamed to content/manipulation/01_numpy_exercises/_exo_knn_solution.qmd
@@ -4,7 +4,7 @@ project:
     - index.qmd
     - 404.qmd
     - content/getting-started/index.qmd
-    - content/getting-started/03_revisions.qmd
+    - content/manipulation/01_numpy.qmd
 
 profile:
   default: fr
 
@@ -706,14 +706,111 @@ x = rng.normal(0, size=(3, 4))
 {{< include "01_numpy_exercises/_exo5_solution.qmd" >}}
 :::
 
+# Simulations numériques
+
+`Numpy` est incontournable dès lors qu'on effectue des simulations aléatoires, ce qui est très commun en statistiques computationnelles avec un ensemble de méthodes dites de Monte-Carlo. Le principe général est de remplacer un calcul théorique difficile (une intégrale, une probabilité, une espérance) par une approximation numérique obtenue en répétant un grand nombre de tirages aléatoires et en moyennant la quantité d’intérêt, en s’appuyant sur la loi des grands nombres et le théorème central limite pour quantifier la précision de l’estimation.
+
+Illustrons empiriquement quelques théorèmes incontournables de la statistique par une série d'exercices. Cela permettra d'explorer : 
+
+* La loi des grands nombres (@tip-exo2fr);
+* Le théorème central limite et sa version particulière dans le cas de lancer de pièce, le [théorème de Moivre-Laplace](https://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_de_Moivre-Laplace) ;
+* Les intervalles de confiance théoriques et leur contrepartie empirique à travers le _bootstrap_ ;
+* Le principe des méthodes de Monte Carlo avec l'algorithme du rejet.  
+
+Nous allons avoir besoin des éléments suivants pour initialiser notre processus générateur de données.
+
+```{python}
+#| echo: true
+import numpy as np
+
+def generate_grid(size_max=1000):
+    n_small = np.arange(3, 200, 2)
+    n_log = np.unique(np.round(np.logspace(np.log10(200), np.log10(size_max), 120)).astype(int))
+    return np.unique(np.concatenate([n_small, n_log]))
+
+N_max = 100_000
+rng = np.random.default_rng(seed=123)
+grid = generate_grid(size_max=N_max)
+```
+
+Ces éléments nous permettent de générer une série aléatoire d’observations jusqu’à une taille `N_max`, puis d’observer l’évolution des estimateurs empiriques de moments (moyenne et variance) lorsque l’on ne conserve que les `n` premières observations, pour différents `n` donnés par `grid`. L’objectif est d’illustrer la convergence des estimateurs empiriques vers leurs valeurs théoriques lorsque `n` augmente.
+
+## Loi des grands nombres
+
+Nous sommes accoutumés à faire le lien, assez intuitif, entre la théorie des probabilités et la statistique. C'est notamment possible grâce à des théorèmes comme le [théorème fondamental de la statistique (théorème de Glivenko-Cantelli)](https://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_de_Glivenko-Cantelli). Cette relation est le fondement de la science des données, et plus globalement de la statistique, dans sa dimension inférentielle comme descriptive, puisque sans des intuitions mathématiques formelles nous aurions du mal à généraliser les interprétations issues de données observées.
+
+La [loi des grands nombres](https://fr.wikipedia.org/wiki/Loi_des_grands_nombres) peut être illustrée assez facilement par le biais de simulations numériques. Nous allons simuler une suite répétée de tirages aléatoires, ce sera l'équivalent pratique de la suite i.i.d $(X)_i$ du théorème. 
+
+:::: {.content-visible when-profile="fr"}
+
+{{< include "/content/manipulation/01_numpy_exercises/_exo_lln_fr.qmd" >}}
+
+::::
+
+:::: {.content-visible when-profile="en"}
+
+{{< include "/content/manipulation/01_numpy_exercises/_exo_lln_en.qmd" >}}
+
+::::
+
+{{< include "/content/manipulation/01_numpy_exercises/_exo_lln_correction.qmd" >}}
+
+## Distribution de résultats de lancer de pièces
+
+::: {.callout-tip}
+## Exercice 6, partie 2. Moivre-Laplace (binomiale)
+
+On considère une suite i.i.d. $(X_i)_{i \ge 1}$ telle que $X_i \sim \mathcal{B}(100,1/2)$ (nombre de piles sur 100 lancers d’une pièce équilibrée).
+
+1. Représenter graphiquement la loi de $X_1$ (fonction de masse) : $k \mapsto \mathbb{P}(X_1=k)$ pour $k \in \{0,\dots,100\}$.
+2. Calculer la moyenne $\mu=\mathbb{E}[X_1]$ et la variance $\sigma^2=\mathrm{Var}(X_1)$. Donner leurs valeurs numériques.
+3. Pour une valeur $N$ (par exemple $N \in \{50,200,1000,5000\}$), générer $X_1,\dots,X_N$ i.i.d. et calculer $\bar X_N = \frac{1}{N}\sum_{i=1}^N X_i$.
+4. En répétant l’expérience un grand nombre de fois, représenter la distribution empirique de
+   $$
+   Y_N = \sqrt{N}\,(\bar X_N-\mu).
+   $$
+5. Sur la même figure, superposer la densité de la loi normale $\mathcal{N}(0,\sigma^2)$. Dans ce cas, on doit obtenir $\sigma^2=25$.
+
+:::
+
+::: {.callout-tip}
+## Exercice 6, partie 3. TCL pour d’autres lois (variance finie)
+
+Choisir une loi parmi : Poisson, exponentielle, uniforme (au choix), en précisant ses paramètres. On considère une suite i.i.d. $(X_i)_{i \ge 1}$ suivant cette loi, de moyenne $\mu$ et variance $\sigma^2$ (finies).
+
+1. Donner (ou calculer) $\mu$ et $\sigma^2$ pour la loi choisie.
+2. Pour plusieurs valeurs de $N$, en répétant l’expérience un grand nombre de fois, représenter la distribution empirique de
+   $$
+   Y_N = \sqrt{N}\,(\bar X_N-\mu)
+   $$
+   et la comparer à la densité de la loi normale $\mathcal{N}(0,\sigma^2)$.
+3. Option : étudier aussi la version standardisée
+   $$
+   Z_N = \sqrt{N}\,\frac{\bar X_N-\mu}{\sigma}
+   $$
+   et la comparer à $\mathcal{N}(0,1)$.
+
+:::
+
+::: {.callout-tip}
+## Exercice 6, partie 4. Contre-exemple : loi de Cauchy
+
+On considère maintenant une suite i.i.d. $(X_i)_{i \ge 1}$ suivant une loi de Cauchy standard.
+
+1. Générer un vecteur `X` de taille `N_max` suivant une loi de Cauchy standard.
+2. Pour chaque valeur $n$ de `grid`, calculer la moyenne empirique $\bar X_n = \frac{1}{n}\sum_{i=1}^n X_i$ et tracer $\bar X_n$ en fonction de $n$.
+3. Le comportement observé ressemble-t-il à une convergence vers une constante ? Comparer qualitativement avec la partie 1.
+4. La LGN et le TCL "classiques" s’appliquent-ils ici ? Justifier en discutant l’existence (ou non) de $\mu$ et de $\sigma^2$.
+
+:::
+
 
 ::: {.content-visible when-profile="fr"}
 
 # _Broadcasting_
 
 Le *broadcasting* désigne un ensemble de règles permettant
-d'appliquer des opérations sur des tableaux de dimensions différentes. En pratique, 
-cela consiste généralement à appliquer une seule opération à l'ensemble des membres d'un tableau `numpy`. 
+d'appliquer des opérations sur des tableaux de dimensions différentes. En pratique, cela consiste généralement à appliquer une seule opération à l'ensemble des membres d'un tableau `numpy`. 
 
 La différence peut être comprise à partir de l'exemple suivant. Le *broadcasting* permet
 de transformer le scalaire `5` en *array* de dimension 3:
@@ -762,8 +859,8 @@ lang = "fr"
 ```
 
 
-{{< include "01_numpy_exercises/_exo6_fr.qmd" >}}
-{{< include "01_numpy_exercises/_exo6_solution.qmd" >}}
+{{< include "01_numpy_exercises/_exo_knn_fr.qmd" >}}
+{{< include "01_numpy_exercises/_exo_knn_solution.qmd" >}}
 
 
 Ai-je inventé cet exercice corsé ? Pas du tout, il vient de l'ouvrage [_Python Data Science Handbook_](https://jakevdp.github.io/PythonDataScienceHandbook/02.08-sorting.html#Example:-k-Nearest-Neighbors). Mais, si je vous l'avais indiqué immédiatement, auriez-vous cherché à répondre aux questions ?
@@ -784,8 +881,8 @@ lang = "en"
 ```
 
 
-{{< include "01_numpy_exercises/_exo6_en.qmd" >}}
-{{< include "01_numpy_exercises/_exo6_solution.qmd" >}}
+{{< include "01_numpy_exercises/_exo_knn_en.qmd" >}}
+{{< include "01_numpy_exercises/_exo_knn_solution.qmd" >}}
 
 
 Did I invent this challenging exercise? Not at all, it comes from the book [_Python Data Science Handbook_](https://jakevdp.github.io/PythonDataScienceHandbook/02.08-sorting.html#Example:-k-Nearest-Neighbors). But if I had told you this immediately, would you have tried to answer the questions?
@@ -828,3 +925,6 @@ Site 1 is quite central because it is referenced twice. Site 5 is also central s
 v
 ```
 :::
+
+
+