loreti_book/source/chapter12.tex at master · cl-fontana/loreti_book · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
% $Id: chapter12.tex,v 1.3 2006/05/16 11:10:55 loreti Exp $

\chapter{La verifica delle ipotesi (I)}%
\label{ch:12.veripo}
Una volta eseguita una misura, si pu\`o voler controllare se
i nostri risultati possono confermare o rigettare una
determinata ipotesi riguardante il fenomeno fisico che li ha
prodotti; naturalmente, visto che risultati di una misura
comunque lontani dal valore vero sono sempre possibili
(anche se con probabilit\`a sempre pi\`u piccole al crescere
dello scarto), una qualunque ipotesi sulla grandezza fisica
misurata potr\`a essere confermata o rigettata dai dati solo
ad un certo livello di probabilit\`a.

Qui ci occuperemo inoltre di alcune funzioni di frequenza
collegate a quella di Gauss, ossia della distribuzione del
$\chi^2$, di quella di Student\/\footnote{``Student'' \`e lo
  pseudonimo con cui vennero pubblicati i lavori statistici
  di William Gosset, scienziato inglese vissuto dal 1876 al
  1937.  Uno dei pionieri di questo ramo della matematica,
  svolse le sue ricerche essendo dipendente (prima come
  chimico, poi come dirigente) della Guinness Brewery di
  Dublino.}%
\index{Gosset, William (``Student'')}%
\index{Student|see{Gosset, William}}
e di quella di Fisher; e dell'uso che di esse si pu\`o fare
per la verifica di ipotesi statistiche: quali ad esempio
quella che un campione di dati sperimentali provenga da una
popolazione descritta da una densit\`a di probabilit\`a nota
a priori; o quella che il valore vero della grandezza
misurata coincida con un valore determinato, noto anch'esso
a priori.

\section[La distribuzione del $\chi^2$]
{La distribuzione del
  $\boldsymbol{\chi}^{\boldsymbol{2}}$}%
\index{distribuzione!del $\chi^2$|(}
Se le $N$ variabili casuali $x_i$, tra loro statisticamente
indipendenti, sono variabili normali standardizzate
(ovverosia distribuite secondo la legge normale con media 0
e varianza 1), si pu\`o dimostrare che la nuova variabile
casuale
\begin{gather}
  X = \sum_{i=1}^N {x_i}^2 \notag \\
  \intertext{(ovviamente non negativa) \`e
    distribuita con una densit\`a di probabilit\`a
    data dalla}
  \frac{\de p}{\de X} \; = \; f(X ; N) \; = \;
    K_N \, X^{\left(\frac{N}{2}-1 \right)}
    e^{-\frac{X}{2}} \label{eq:12.denchi}
\end{gather}
(\emph{distribuzione del chi quadro}); la costante $K_N$
viene fissata dalla condizione di normalizzazione, ed il
parametro $N$ prende il nome di \emph{numero di gradi di
  libert\`a} della distribuzione.

\begin{figure}[hbtp]
  \vspace*{2ex}
  \begin{center} {
    \input{chi.pstex_t}
  } \end{center}
  \caption[La distribuzione del $\chi^2$]
    {La distribuzione del $\chi^2$ per alcuni
    valori del parametro $N$.}
\end{figure}

La funzione caratteristica della $X$ si pu\`o trovare
facilmente considerando che, se la $x$ \`e una variabile
normale standardizzata, il suo quadrato $y = x^2$ ha una
funzione caratteristica
\begin{align*}
  \phi_y(t) &= E \bigl( e^{ity} \bigr) \\[1ex]
  &= E \left( e^{itx^2} \right) \\[1ex]
  &= \int_{-\infty}^{+\infty} \! e^{itx^2}
    \frac{1}{\sqrt{2\pi}} \, e^{- \frac{x^2}{2}} \, \de
    x \\[1ex]
  &= \int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}}
    \, e^{- \frac{x^2}{2} (1-2it)} \, \de x \\[1ex]
  &= \frac{1}{\sqrt{1-2it}} \int_{-\infty}^{+\infty}
    \frac{1}{\sqrt{2\pi}} \, e^{- \frac{u^2}{2}} \, \de
    u \\[1ex]
  &= (1-2it)^{- \frac{1}{2}}
\end{align*}
(si \`e eseguita la sostituzione di variabile $u = x
\sqrt{1-2it}$; l'integrale definito \`e quello di una
distribuzione normale $N(u; 0,1)$ e vale dunque 1).  Di
conseguenza, applicando l'equazione \eqref{eq:6.fucacl}, la
funzione caratteristica della $X$ vale
\begin{equation} \label{eq:12.fucachi}
  \phi_X(t) = (1 - 2it)^{- \frac{N}{2}} \peq .
\end{equation}

Per dimostrare che la funzione di frequenza della $X$ \`e
effettivamente la \eqref{eq:12.denchi}, si parte poi
dall'espressione \eqref{eq:12.fucachi} della funzione
caratteristica e le si applica la trasformazione inversa di
Fourier%
\index{Fourier, trasformata di}
gi\`a definita nella \eqref{eq:6.trinfo}.

Con simili passaggi si potrebbe ricavare la funzione
generatrice dei momenti, che vale
\begin{equation*}
  M_X(t) = (1 - 2t)^{- \frac{N}{2}}
\end{equation*}
e, da queste, si ottiene infine che il valore medio e la
varianza di una variabile casuale distribuita come il
$\chi^2$ a $N$ gradi di libert\`a sono
\begin{gather*}
  E(X) \; = \; N \makebox[40mm]{\mbox{e}} \var(X) \; =
  \; 2N \\
  \intertext{mentre i coefficienti di asimmetria e di
    curtosi valgono}
  \gamma_1 \; = \; 2 \sqrt{\frac{2}{N}}
  \makebox[40mm]{\mbox{e}} \gamma_2 \; = \; \frac{12}{N} \peq
  .
\end{gather*}

\index{distribuzione!del $\chi^2$!e distribuzione normale|(}%
La distribuzione del $\chi^2$ tende asintoticamente ad una
distribuzione normale con la stessa media $N$ e la stessa
varianza $2N$; infatti la funzione caratteristica della
variabile standardizzata
\begin{gather*}
  y \; = \; \frac{X - N}{\sqrt{2N}} \; = \;
    \frac{X}{\sqrt{2N}} - \frac{N}{\sqrt{2N}} \\
  \intertext{vale, ricordando la \eqref{eq:6.fuccav},}
  \phi_y(t) = e^{- \frac{i N t}{\sqrt{2N}}} \left[ 1 -
    \frac{2 i t}{\sqrt{2N}} \right]^{- \frac{N}{2}} \peq . \\
  \intertext{Passando ai logaritmi naturali,}
  \ln \phi_y(t) = - \, \frac{i N t}{\sqrt{2N}} -
    \frac{N}{2} \ln \left( 1 - \frac{2 i t}{\sqrt{2N}}
    \right)
\end{gather*}
e, sviluppando in serie di McLaurin il logaritmo,
\begin{align*}
  \ln \phi_y(t) &= - \, \frac{i N t}{\sqrt{2N}} -
    \frac{N}{2} \left[ - \, \frac{2 i t}{\sqrt{2N}} -
    \frac{1}{2} \left( \frac{2 i t}{\sqrt{2N}}
    \right)^2 + \mathcal{O} \left( N^{-\frac{3}{2}} \right)
  \right] \\[1ex]
  &= - \, \frac{t^2}{2} + \mathcal{O} \left(
    N^{-\frac{1}{2}} \right)
\end{align*}
da cui
\begin{equation*}
  \lim_{N \to \infty} \phi_y(t) = e^{- \frac{t^2}{2}}
\end{equation*}
che \`e appunto la funzione caratteristica di una
distribuzione normale standardizzata.

In definitiva:
\begin{itemize}
\item Quando $N$ assume valori sufficientemente grandi, la
  distribuzione del $\chi^2$ \`e ben approssimata da una
  distribuzione normale avente la stessa media $N$ e la
  stessa varianza $2N$; tale approssimazione si pu\`o
  ritenere in pratica gi\`a buona quando $N$ \`e superiore a
  30.
\item Inoltre si potrebbe analogamente dimostrare che la
  variabile casuale $\sqrt{2 X}$, anche per valori
  relativamente piccoli di $N$, ha una distribuzione che \`e
  assai bene approssimata da una funzione normale con media
  $\sqrt{2N-1}$ e varianza 1; l'approssimazione \`e gi\`a
  buona per $N\gtrsim 8$.
\end{itemize}%
\index{distribuzione!del $\chi^2$!e distribuzione normale|)}

Dalla definizione (o dalla funzione caratteristica
\eqref{eq:12.fucachi}) discende immediatamente la cosiddetta
\emph{regola di somma del $\chi^2$}\label{th:12.resochi}:%
\index{distribuzione!del $\chi^2$!regola di somma} ossia
che, se $X$ ed $Y$ sono due variabili casuali
statisticamente indipendenti entrambe distribuite come il
$\chi^2$, con $N$ ed $M$ gradi di libert\`a rispettivamente,
la loro somma $Z=X+Y$ \`e una variabile casuale ancora
distribuita come il $\chi^2$; per\`o con $N+M$ gradi di
libert\`a.

Ovviamente, se le $x_i$ (con $i=1,\ldots,N$) sono $N$
variabili casuali statisticamente indipendenti tra loro e
provenienti da una stessa distribuzione normale con media
$\mu$ e varianza $\sigma^2$, discende da quanto detto che la
nuova variabile casuale
\begin{equation*}
  X' = \sum_{i=1}^N \left( \frac{x_i - \mu}{\sigma}
   \right)^2
\end{equation*}
\`e distribuita come il $\chi^2$ a $N$ gradi di libert\`a.
Indichiamo ora, al solito, con $\bar x$ la media aritmetica
delle $x_i$: vogliamo dimostrare che la variabile casuale
\begin{equation*}
  X'' = \sum_{i=1}^N \left( \frac{x_i - \bar x}{\sigma}
  \right)^2
\end{equation*}
\`e distribuita \emph{ancora come il $\chi^2$, ma con $N -
  1$ gradi di libert\`a}.

A questo scopo facciamo dapprima alcune considerazioni,
indipendenti dalle ipotesi prima fatte sulle $x_i$ e che
risultano quindi valide per variabili casuali qualunque:
supponiamo di definire $N$ nuove variabili $y_i$ come
generiche combinazioni lineari delle $x_j$, con coefficienti
che indicheremo col simbolo $A_{ij}$; in modo insomma che
risulti
\begin{equation*}
  y_i = \sum_{j=1}^N A_{ij} \, x_j \peq .
\end{equation*}

La somma dei quadrati delle $y_i$ \`e data da
\begin{equation*}
  \sum_{i=1}^N {y_i}^2 = \sum_{i=1}^N \left(
  \sum_{j=1}^N A_{ij} \, x_j \right) \left( \sum_{k=1}^N
  A_{ik} \, x_k \right) = \sum\nolimits_{jk} x_j \, x_k
  \sum\nolimits_i A_{ij} \, A_{ik} \peq ;
\end{equation*}
\`e possibile che questa somma risulti uguale alla somma dei
quadrati delle $x_i$ \emph{qualunque} sia il valore di
queste ultime?  Ovviamente questo avviene se e solo se vale
la
\begin{equation} \label{eq:12.conort}
  \sum\nolimits_i A_{ij} \, A_{ik} \; = \; \delta_{jk} \;
  = \;
  \begin{cases}
    0 & \text{per $j \ne k$} \\[2ex]
    1 & \text{per $j = k$}
  \end{cases}
\end{equation}
(il simbolo $\delta_{jk}$, che assume il valore 1 quando gli
indici sono uguali e 0 quando sono invece diversi, si chiama
\emph{simbolo di Kronecker} o \emph{delta di Kronecker}).%
\index{Kronecker, delta di}

Consideriamo gli $A_{ij}$ come gli elementi di una matrice
quadrata $\boldsymbol{A}$ di ordine $N$; gli $x_j$ e le
$y_i$ si possono invece considerare come le componenti di
due \emph{vettori} $\boldsymbol{X}$ ed $\boldsymbol{Y}$
definiti in uno spazio $N$-dimensionale --- ossia come gli
elementi di due matrici rettangolari con $N$ righe ed 1
colonna.

La trasformazione che muta $\boldsymbol{X}$ in
$\boldsymbol{Y}$ si pu\`o scrivere, in forma matriciale,
come $\boldsymbol{Y} = \boldsymbol{A} \boldsymbol{X}$; la
somma dei quadrati delle $x_j$ o delle $y_i$ altro non \`e
se non il prodotto scalare, di $\boldsymbol{X}$ ed
$\boldsymbol{Y}$ rispettivamente, per loro stessi: ovverosia
la loro \emph{norma}, il quadrato della loro lunghezza nello
spazio a $N$ dimensioni.  Quella che abbiamo ricavato adesso
\`e la condizione perch\'e una \emph{trasformazione lineare}
applicata ad un vettore ne conservi la lunghezza: occorre e
basta che la matrice $\boldsymbol{A}$ sia \emph{ortogonale}.
Infatti la \eqref{eq:12.conort} si pu\`o scrivere
\begin{align*}
  \boldsymbol{\widetilde A} \boldsymbol{A} &=
  \boldsymbol{1} && \text{ossia}
  & \boldsymbol{\widetilde A} &= \boldsymbol{A}^{-1}
\end{align*}
($\boldsymbol{\widetilde A}$ \`e la matrice trasposta di
$\boldsymbol{A}$, di elementi $\boldsymbol{\widetilde
  A}_{ij} = A_{ji}$; $\boldsymbol{1}$ \`e la matrice
unit\`a, di elementi $\boldsymbol{1}_{ij} = \delta_{ij}$;
$\boldsymbol{A}^{-1}$ \`e la matrice inversa di
$\boldsymbol{A}$; ed una matrice per cui
$\boldsymbol{\widetilde A} = \boldsymbol{A}^{-1}$ si dice,
appunto, ortogonale).

Consideriamo adesso una trasformazione lineare definita
dalle seguenti relazioni:
\begin{equation} \label{eq:12.hack}
  \begin{cases}
    y_1 = \displaystyle \frac{1}{\sqrt{N}} \, (x_1 +
      x_2 +\cdots+ x_N) \\[2ex]
    y_2 = \displaystyle \frac{1}{\sqrt{2}} \, (x_1 -
      x_2) \\[2ex]
    y_3 = \displaystyle \frac{1}{\sqrt{6}} \, (x_1 +
      x_2 - 2 x_3) \\[2ex]
    \cdots \\[1ex]
    y_N = \displaystyle \frac{1}{\sqrt{N(N-1)}} \,
      \bigl[ x_1 + x_2 +\cdots+ x_{N-1} - (N-1) x_N
      \bigr]
  \end{cases}
\end{equation}
e per la quale la matrice di trasformazione abbia, insomma,
elementi $A_{ij}$ definiti come
\begin{equation*}
  A_{ij} \; \equiv \;
  \begin{cases}
    \text{$i=1$:} &  \displaystyle \frac{1}{\sqrt{N}}
      \\[4ex]
    \text{$i>1$:} &
    \begin{cases}
      \text{$j<i$:} &  \displaystyle
        \frac{1}{\sqrt{i(i-1)}} \\[2ex]
      \text{$j=i$:} &  \displaystyle - \,
        \frac{i-1}{\sqrt{i(i-1)}} \\[2ex]
      \text{$j>i$:} &  \displaystyle 0
    \end{cases}
  \end{cases}
\end{equation*}
Non \`e difficile controllare che la matrice
$\boldsymbol{A}$ \`e ortogonale; inoltre la prima riga \`e
stata scelta in modo tale che
\begin{gather}
  y_1 \; = \; \sum_{i=1}^N \frac{1}{\sqrt{N}} \, x_i \;
    = \; \frac{1}{\sqrt{N}} \cdot N \bar x \; = \;
    \sqrt{N} \, \bar x \notag \\
  \intertext{e quindi}
  \sum_{i=1}^N {x_i}^2 \; = \; \sum_{i=1}^N {y_i}^2 \;
    = \; N {\bar x}^2 + \sum_{i=2}^N {y_i}^2 \peq . \notag \\
  \intertext{Inoltre risulta (per $i > 1$)}
  \sum_{j=1}^N A_{ij} \; = \; \sum_{j=1}^{i-1}
    \frac{1}{\sqrt{i(i-1)}} \, - \,
    \frac{i-1}{\sqrt{i(i-1)}} \; = \; 0
    \label{eq:12.hackmean} \\
  \intertext{e, per ogni $i$,}
  \sum_{j=1}^N {A_{ij}}^2 \; = \; \left( \boldsymbol{A}
    \boldsymbol{\widetilde A} \right)_{ii} \; = \;
    \delta_{ii} \; = \; 1 \peq . \label{eq:12.hackstd}
\end{gather}

Tornando al nostro problema, supponiamo ora che tutte le
$x_j$ siano variabili aventi distribuzione normale; che
abbiano tutte valore medio $\mu$ e varianza $\sigma^2$; ed
inoltre che siano tra loro tutte statisticamente
indipendenti.  Una qualsiasi loro combinazione lineare,
quindi anche ognuna delle $y_i$ legate alle $x_j$ da quella
particolare matrice di trasformazione \eqref{eq:12.hack} che
abbiamo prima definita, \`e anch'essa distribuita secondo la
legge normale; inoltre risulta

\begin{align*}
  \frac{1}{\sigma^2} \sum_{i=1}^N \left( x_i - \bar x
    \right)^2 &= \frac{1}{\sigma^2} \left(
    \sum_{i=1}^N {x_i}^2 - N {\bar x}^2 \right) \\[1ex]
  &= \frac{1}{\sigma^2} \left( N {\bar x}^2 +
    \sum_{i=2}^N {y_i}^2 - N {\bar x}^2  \right)
    \\[1ex]
  &= \sum_{i=2}^N \frac{{y_i}^2}{\sigma^2} \peq .
\end{align*}

Applicando alle $y_i = \sum_j A_{ij} x_j$ le formule per la
media e la varianza delle combinazioni lineari di variabili
casuali statisticamente indipendenti gi\`a ricavate nel
capitolo \ref{ch:5.varcun}, si trova facilmente (tenendo
presenti la \eqref{eq:12.hackmean} e la
\eqref{eq:12.hackstd}) che la varianza di ognuna di esse \`e
ancora $\sigma^2$; e che, per $i \ne 1$, il loro valore
medio \`e 0.  Di conseguenza, per $i \geq 2$ le $y_i /
\sigma$ sono variabili casuali normali aventi media 0 e
varianza 1: e questo implica che
\begin{equation} \label{eq:12.xii}
  X'' = \sum_{i=1}^N \left( \frac{x_i - \bar x}{\sigma}
    \right)^2
\end{equation}
sia effettivamente distribuita come il $\chi^2$ a
$N - 1$ gradi di libert\`a.

\`E interessante confrontare questo risultato con quello
precedentemente ricavato, e riguardante la stessa
espressione --- in cui per\`o gli scarti erano calcolati
rispetto alla media della popolazione $\mu$.  Nel primo caso
la distribuzione era ancora quella del $\chi^2$, ma con $N$
gradi di libert\`a: riferendoci invece alla media aritmetica
del campione, i gradi di libert\`a diminuiscono di una
unit\`a.  Questo \`e conseguenza di una legge generale,
secondo la quale il numero di gradi di libert\`a da
associare a variabili che seguono la distribuzione del
$\chi^2$ \`e dato dal numero di contributi
\emph{indipendenti}: ovvero il numero di termini con
distribuzione normale sommati in quadratura (qui $N$, uno
per ogni determinazione $x_i$) diminuito del numero di
parametri che compaiono nella formula e che sono stati
stimati dai dati stessi (qui uno: appunto la media della
popolazione, stimata usando la media aritmetica delle
misure).

Un'ultima notevole conseguenza del fatto che la variabile
casuale $X''$ definita dalla \eqref{eq:12.xii} sia
distribuita come il $\chi^2$ a $N - 1$ gradi di libert\`a
\`e la seguente: la stima della varianza della popolazione
ottenuta dal campione, $s^2$, vale
\begin{equation} \label{eq:12.xiis2}
  s^2 = X'' \, \frac{\sigma^2}{N-1}
\end{equation}
e, essendo proporzionale a $X''$, \`e anch'essa distribuita
come il $\chi^2$ a $N - 1$ gradi di libert\`a; quindi la sua
densit\`a di probabilit\`a \`e data dalla
\eqref{eq:12.denchi} e dipende solamente da $N$; non
dipende, in particolare, dalla media del campione $\bar x$.
Quindi:
\begin{quote}
  \index{media!aritmetica!e varianza|emidx}%
  \index{varianza!e media aritmetica|emidx}%
  \label{th:12.inmest}
  \textit{Il valore medio $\bar x$ e la varianza campionaria
    $s^2$, calcolati su valori estratti a caso da una stessa
    popolazione normale, sono due variabili casuali
    \textbf{statisticamente indipendenti} tra loro.}
\end{quote}%
\index{distribuzione!del $\chi^2$|)}

Questo risulta anche intuitivamente comprensibile; se
infatti ci \`e noto che un certo campione di dati ha una
dispersione pi\`u o meno grande, questo non deve alterare la
probabilit\`a che il suo valore medio abbia un valore
piuttosto che un altro; n\'e, viceversa, il fatto che il
campione sia centrato attorno ad un certo valore deve
permetterci di prevedere in qualche modo la sua dispersione.

\section[Verifiche basate sulla distribuzione del $\chi^2$]
{Verifiche basate sulla distribuzione del
  $\boldsymbol{\chi}^{\boldsymbol{2}}$}
\subsection{Compatibilit\`a dei dati con una distribuzione}%
\index{compatibilit\`a!con una distribuzione|(}%
\label{ch:12.comdadis}
Supponiamo di avere dei dati raccolti in un istogramma, e di
voler verificare l'ipotesi che i dati provengano da una
certa distribuzione; ad esempio, dalla distribuzione
normale.  Ora, per una misura, la probabilit\`a $p_i$ di
cadere nell'intervallo $i$-esimo (di ampiezza prefissata
$\Delta x$ e corrispondente alla generica classe di
frequenza usata per la realizzazione dell'istogramma) \`e
data dal valore medio della funzione densit\`a di
probabilit\`a nell'intervallo stesso moltiplicato per
$\Delta x$.

Il numero di misure effettivamente ottenute in una classe di
frequenza su $N$ prove deve obbedire poi alla distribuzione
binomiale: il loro valore medio \`e quindi $N p_i$, e la
loro varianza $N \, p_i \, (1 - p_i)$; quest'ultimo termine
si pu\`o approssimare ancora con $N p_i$ se si ammette che
le classi di frequenza%
\index{classi di frequenza|(}
siano sufficientemente ristrette da poter trascurare i
termini in ${p_i}^2$ rispetto a quelli in $p_i$ (cio\`e se
$p_i \ll 1$).

In questo caso il numero di misure in ciascuna classe segue
approssimativamente la distribuzione di Poisson; questa \`e
infatti la funzione di frequenza che governa il presentarsi,
su un grande numero di osservazioni, di eventi aventi
probabilit\`a trascurabile di verificarsi singolarmente in
ognuna: distribuzione nella quale l'errore quadratico medio
\`e effettivamente dato dalla radice quadrata del valore
medio, $\sigma = \sqrt{N \, p_i \, (1 - p_i)} \simeq \sqrt{N
  p_i}$.

Nei limiti in cui il numero di misure attese in una classe
\`e sufficientemente elevato da poter confondere la relativa
funzione di distribuzione con la funzione normale, la
quantit\`a
\begin{equation} \label{eq:12.chi2fit}
  X \; = \;\sum_{i=1}^M
    \frac{(n_i - N p_i)^2}{N p_i} \; = \; \sum_{i=1}^M
    \frac{(O_i - A_i)^2}{A_i}
\end{equation}
cio\`e la somma, su tutte le classi di frequenza (il cui
numero abbiamo supposto sia $M$), del quadrato della
differenza tra il numero di misure ivi \emph{attese} ($A_i =
N p_i$) ed ivi \emph{effettivamente osservate} ($O_i =
n_i$), diviso per la varianza del numero di misure attese
(approssimata da $N p_i = A_i$), ha
\emph{approssimativamente} la distribuzione del $\chi^2$,
con $M - 1$ gradi di libert\`a; il motivo di quest'ultima
affermazione \`e che esiste un vincolo sulle $O_i$, quello
di avere per somma il numero totale di misure effettuate $N$
(che viene usato nella formula \eqref{eq:12.chi2fit},
mediante la quale abbiamo definito $X$, per calcolare il
numero $A_i$ di misure attese in ogni intervallo).

La condizione enunciata si pu\`o in pratica supporre
verificata se le $A_i$ in ogni intervallo sono almeno pari a
5; o, meglio, se il numero di classi di frequenza%
\index{classi di frequenza|)}
in cui ci si aspetta un numero di misure minore di 5 \`e
trascurabile rispetto al totale (meno del 10\%).  In
realt\`a, se le classi di frequenza si possono scegliere
arbitrariamente, la cosa migliore consiste nel definirle di
ampiezze differenti: in modo tale che quegli intervalli dove
cadono poche misure vengano riuniti assieme in un'unica
classe pi\`u ampia, ove $n_i$ valga almeno 5 (ma nemmeno
troppo ampia, per soddisfare al vincolo di avere ${p_i}^2
\ll p_i$; in genere si cerca di riunire assieme pi\`u classi
in modo da avere degli $n_i \sim 5\div 10$).

Tornando al problema iniziale, per la verifica dell'ipotesi
statistica che i dati vengano dalla distribuzione usata per
il calcolo delle $A_i$ basta:
\begin{itemize}
\item fissare arbitrariamente un livello di probabilit\`a
  che rappresenti il confine tra eventi ammissibili
  nell'ipotesi della pura casualit\`a ed eventi invece tanto
  improbabili da far supporre che il loro verificarsi sia
  dovuto non a fluttuazioni statistiche, ma al non essere
  verificate le ipotesi fatte in partenza (il provenire i
  dati dalla distribuzione nota a priori): ad esempio il
  95\% o il 99\%.
\item Cercare nelle apposite tabelle\/\footnote{Alcuni
    valori numerici di questo tipo sono tabulati
    nell'appendice \ref{ch:f.tabelle}.  \`E bene anche
    ricordare che quando il numero di gradi di libert\`a $N$
    \`e superiore a 30 si pu\`o far riferimento alla
    distribuzione normale con media $N$ ed errore quadratico
    medio $\sqrt{2N}$; e che, gi\`a per piccoli $N$,
    $\sqrt{2\chi^2}$ \`e approssimativamente normale con
    media $\sqrt{2N-1}$ e varianza 1.} il valore di taglio
  corrispondente alla coda superiore della distribuzione del
  $\chi^2$ ad $M - 1$ gradi di libert\`a avente area pari al
  livello di confidenza desiderato; ossia quell'ascissa
  $\xi$ che lascia alla propria sinistra, sotto la curva
  della distribuzione del $\chi^2$ ad $M - 1$ gradi di
  libert\`a, un'area pari a tale valore.
\item Calcolare $X$; ed infine rigettare l'ipotesi (al
  livello di confidenza prescelto) perch\'e incompatibile
  con i dati raccolti, se $X$ risultasse superiore a $\xi$
  (o, altrimenti, considerare l'ipotesi compatibile con i
  dati al livello di confidenza prescelto e quindi
  accettarla).
\end{itemize}

Quanto detto a proposito della particolare distribuzione del
$\chi^2$ da usare per il la verifica della nostra ipotesi,
per\`o, \`e valido solo se le caratteristiche della
distribuzione teorica con cui confrontare i nostri dati sono
note a priori; se, invece, $R$ parametri da cui essa dipende
fossero stati stimati a partire dai dati, il numero di gradi
di libert\`a sarebbe inferiore e pari ad $M - R - 1$.

Cos\`\i\ se le $p_i$ sono state ricavate integrando sulle
classi di frequenza una distribuzione normale la cui media e
la cui varianza siano state a loro volta ottenute dal
campione istogrammato, il numero di gradi di libert\`a,
essendo $R=2$, sarebbe pari a $M - 3$.

\begin{figure}[hbtp]
  \vspace*{2ex}
  \begin{center} {
    \input{chicdf.pstex_t}
  } \end{center}
  \caption[La funzione di distribuzione del $\chi^2$]
  {L'integrale da $x$ a $+\infty$ della funzione di
    frequenza del $\chi^2$, per alcuni valori del parametro
    $N$.}
  \label{fig:chicdf}
\end{figure}

\begin{figure}[hbtp]
  \vspace*{2ex}
  \begin{center} {
    \input{chirid.pstex_t}
  } \end{center}
  \caption[La funzione di distribuzione del $\chi^2$
  ridotto]
  {I valori del $\chi^2$ ridotto ($\chi^2/N$) che
    corrispondono, per differenti gradi di libert\`a $N$, ad
    un certo livello di confidenza.}
  \label{fig:chirid}
\end{figure}

Per dare un'idea dei valori del $\chi^2$ che corrispondono
al rigetto di una ipotesi (ad un certo livello di
confidenza), e senza ricorrere alle tabelle numeriche, nella
figura \ref{fig:chicdf} sono riportati in grafico i valori
$P$ dell'integrale da $x$ a $+\infty$ della funzione di
frequenza del $\chi^2$ (ovvero il complemento ad uno della
funzione di distribuzione), per alcuni valori del parametro
$N$.

Le curve della figura \ref{fig:chirid} permettono invece di
identificare (per differenti scelte del livello di
confidenza $\varepsilon$) i corrispondenti valori di taglio
del $\chi^2$ \emph{ridotto} --- ovvero del rapporto
$\chi^2/N$ tra esso ed il numero di gradi di libert\`a $N$.
Insomma, ogni punto di queste curve al di sopra di
un'ascissa (intera) $N$ ha come ordinata un numero $X/N$
tale che l'integrale da $X$ a $+\infty$ della funzione di
frequenza del $\chi^2$ ad $N$ gradi di libert\`a sia uguale
ad $\varepsilon$.%
\index{compatibilit\`a!con una distribuzione|)}

\subsection[Il metodo del minimo $\chi^2$]{Il metodo
  del minimo $\boldsymbol{\chi}^{\boldsymbol{2}}$}%
\index{metodo!del minimo $\chi^2$|(}
Supponiamo di sapere a priori che i nostri dati istogrammati
debbano seguire una data distribuzione, ma che essa dipenda
da $R$ parametri incogniti che dobbiamo stimare a partire
dai dati stessi; visto che l'accordo tra i dati e la
distribuzione \`e dato dalla $X$ definita nella
\eqref{eq:12.chi2fit}, ed \`e tanto migliore quanto pi\`u il
valore ottenuto per essa \`e basso, un metodo plausibile di
stima potrebbe essere quello di trovare per quali valori dei
parametri stessi la $X$ \`e minima (\emph{metodo del minimo}
$\chi^2$).

Indicando con $\alpha_k$ ($k=1,\ldots,R$) i parametri da
stimare, ognuna delle $p_i$ sar\`a esprimibile in funzione
delle $\alpha_k$; ed imponendo che le derivate prime della
$X$ rispetto ad ognuna delle $\alpha_k$ siano tutte nulle
contemporaneamente, otteniamo
\begin{gather}
  \frac{\partial X}{\partial \alpha_k} \; = \;
    \sum_{i=1}^M \frac{-2 \left(n_i - N p_i \right) N^2
    p_i - N \left( n_i - N p_i \right)^2}{N^2 {p_i}^2}
    \, \frac{\partial p_i}{\partial \alpha_k}
    \; = \; 0 \peq , \notag \\
  \intertext{ossia}
  - \frac{1}{2} \, \frac{\partial X}{\partial \alpha_k}
    \; = \; \sum_{i=1}^M \left[ \frac{n_i - N p_i}{p_i}
    + \frac{\left( n_i - N p_i \right)^2}{2 N {p_i}^2}
    \right] \frac{\partial p_i}{\partial \alpha_k} \; =
    \; 0 \peq . \label{eq:12.michi1}
\end{gather}

L'insieme delle \eqref{eq:12.michi1} costituisce un sistema
di $R$ equazioni, nelle $R$ incognite $\alpha_k$, che ci
permetter\`a di stimarne i valori (salvo poi, nel caso il
sistema delle \eqref{eq:12.michi1} abbia pi\`u di una
soluzione, controllare quali di esse corrispondono in
effetti ad un minimo e quale tra queste ultime corrisponde
al minimo assoluto); le condizioni sotto le quali il metodo
\`e applicabile sono quelle gi\`a enunciate in
precedenza\/\footnote{Se la prima di esse non si pu\`o
  ritenere accettabile, delle equazioni ancora valide ma
  pi\`u complesse si possono ottenere dalla
  \eqref{eq:12.chi2fit} sostituendo $N p_i (1 - p_i)$ al
  posto di $N p_i$ nel denominatore.}, ossia ${p_i}^2 \ll
p_i$ e $n_i \gtrsim 5$.

In genere per\`o si preferisce servirsi, in luogo delle
equazioni \eqref{eq:12.michi1}, di una forma semplificata,
ottenuta trascurando il secondo termine nella parentesi
quadra: che, si pu\`o dimostrare, \`e molto inferiore al
primo per grandi $N$ (infatti il rapporto tra i due termini
vale
\begin{equation*}
  \frac{ \left( n_i - N p_i \right)^2 }{ 2 N {p_i}^2 } \,
    \frac{ p_i }{ n_i - N p_i } \; = \; \frac{ n_i - N p_i
    }{ 2 N p_i } \; = \; \frac{1}{2 p_i} \left(
    \frac{n_i}{N} - p_i \right)
\end{equation*}
e converge ovviamente a zero all'aumentare di $N$); e
risolvere, insomma, il sistema delle
\begin{equation} \label{eq:12.michi2}
  \sum_{i=1}^M \left( \frac{n_i - N p_i}{p_i} \right)
    \frac{\partial p_i}{\partial \alpha_k} = 0
\end{equation}
(metodo \emph{semplificato} del minimo $\chi^2$).

Si pu\`o dimostrare che le soluzioni $\bar \alpha_k$ del
sistema delle \eqref{eq:12.michi2} tendono stocasticamente
ai valori veri $\alpha_k^*$ (in assenza di errori
sistematici) al crescere di $N$; inoltre il valore di $X$
calcolato in corrispondenza dei valori ricavati
$\bar \alpha_k$ d\`a, se rapportato alla distribuzione del
$\chi^2$ con $M - R - 1$ gradi di libert\`a, una misura
della bont\`a della soluzione stessa.

Ora, le equazioni \eqref{eq:12.michi2} si possono scrivere
anche
\begin{gather*}
  \sum_{i=1}^M \left( \frac{n_i - N p_i}{p_i} \right)
    \frac{\partial p_i}{\partial \alpha_k} =
    \sum_{i=1}^M \frac{n_i}{p_i} \, \frac{\partial
    p_i}{\partial \alpha_k} - N \sum_{i=1}^M
    \frac{\partial p_i}{\partial \alpha_k} \\
  \intertext{e si possono ulteriormente semplificare,
    visto che l'ultimo termine si annulla, essendo}
  \sum_{i=1}^M \frac{\partial p_i}{\partial \alpha_k}
    \; = \; \frac{\partial}{\partial \alpha_k}
    \sum_{i=1}^M p_i \; = \; \frac{\partial}{\partial
    \alpha_k} \, 1 \; \equiv \; 0
\end{gather*}
se si fa l'ulteriore ipotesi che l'intervallo dei valori
indagati copra, anche approssimativamente, tutti quelli in
pratica permessi; per cui il sistema di equazioni da
risolvere \`e in questo caso quello delle
\begin{equation} \label{eq:12.michi4}
  \sum_{i=1}^M \frac{n_i}{p_i} \, \frac{\partial
    p_i}{\partial \alpha_k} = 0 \peq .
\end{equation}

\index{massima verosimiglianza, metodo della|(}%
Per la stima di parametri incogniti a partire da dati
misurati abbiamo gi\`a affermato che teoricamente \`e da
preferire il metodo della massima verosimiglianza, le cui
soluzioni sono quelle affette, come sappiamo, dal minimo
errore casuale (almeno asintoticamente); in questo caso
particolare (dati in istogramma), come lo si dovrebbe
applicare?  Se le misure sono indipendenti, la probabilit\`a
di avere $n_i$ eventi nella generica classe di frequenza \`e
data da $p_i^{n_i}$; la funzione di
verosimiglianza\/\footnote{Per essere precisi, la
  probabilit\`a che $n_1$ misure si trovino nella prima
  classe di frequenza, $n_2$ nella seconda e cos\`\i\ via,
  \`e dato dalla espressione \eqref{eq:12.michi3}
  moltiplicata per il numero di modi differenti in cui $N$
  oggetti possono essere suddivisi in $M$ gruppi composti da
  $n_1, n_2,\ldots,n_M$ oggetti rispettivamente (numero
  delle \emph{partizioni ordinate});%
  \index{partizioni ordinate}
  questo vale, come mostrato nel paragrafo
  \ref{ch:a.parord}, $N! / (n_1!\, n_2!\cdots n_M!)$, e
  rappresenta un fattore costante che non incide nella
  ricerca del massimo della \eqref{eq:12.michi3}.}  da
\begin{gather}
  \mathcal{L}(\alpha_1,\ldots,\alpha_R) = \prod_{i=1}^M
    p_i^{n_i} \label{eq:12.michi3} \\
  \intertext{ed il suo logaritmo da}
  \ln \mathcal{L} = \sum_{i=1}^M \left( n_i \cdot \ln
    p_i \right) \peq . \notag
\end{gather}

La soluzione di massima verosimiglianza (e quindi di minima
varianza) si trova cercando il massimo di $\ln \mathcal{L}$:
e risolvendo quindi il sistema delle
\begin{equation*}
  \frac{\partial}{\partial \alpha_k} \, \ln \mathcal{L}
    \; = \; \sum_{i=1}^M n_i \, \frac{1}{p_i} \,
    \frac{\partial p_i}{\partial \alpha_k} \; = \; 0 \peq ;
\end{equation*}
in questo caso, vista l'equazione \eqref{eq:12.michi4} in
precedenza ricavata, i due metodi (della massima
verosimiglianza e del minimo $\chi^2$ semplificato)
conducono dunque \emph{alla stessa soluzione}.%
\index{massima verosimiglianza, metodo della|)}%
\index{metodo!del minimo $\chi^2$|)}

\subsection{Test di omogeneit\`a per dati raggruppati}%
\index{compatibilit\`a!tra dati sperimentali|(}%
\index{omogeneit\`a, test di|see{compatibilit\`a tra dati sperimentali}}
Supponiamo di avere a disposizione $Q$ campioni di dati,
indipendenti l'uno dall'altro e composti da $n_1,
n_2,\ldots, n_Q$ elementi rispettivamente; e, all'interno di
ognuno di tali campioni, i dati siano suddivisi nei medesimi
$P$ gruppi: indichiamo infine col simbolo $\nu_{ij}$ il
numero di dati appartenenti al gruppo $i$-esimo all'interno
del campione $j$-esimo.

Per fare un esempio, i campioni si potrebbero riferire alle
regioni italiane e i gruppi al livello di istruzione
(licenza elementare, media, superiore, laurea): cos\`\i\ che
i $\nu_{ij}$ rappresentino il numero di persone, per ogni
livello di istruzione, residenti in ogni data regione;
oppure (e questo \`e un caso che si presenta frequentemente
nelle analisi fisiche) si abbiano vari istogrammi
all'interno di ognuno dei quali i dati siano stati
raggruppati secondo le medesime classi di frequenza:%
\index{classi di frequenza} allora i $\nu_{ij}$ saranno il
numero di osservazioni che cadono in una determinata classe
in ogni istogramma.

Il problema che ci poniamo \`e quello di verificare
l'ipotesi che tutti i campioni provengano dalla stessa
popolazione e siano perci\`o compatibili tra loro
(\emph{test di omogeneit\`a}).  Indichiamo con il simbolo
$N$ il numero totale di dati a disposizione; e con $m_i$
(con $i=1,\ldots,P$) il numero totale di dati che cadono
nell'$i$-esimo gruppo in tutti i campioni a disposizione.

\begin{table}[htbp]
  \vspace*{2ex}
  \begin{center}
    \begin{tabular}{|r|ccccc|c|}
      \cline{2-6}
      \multicolumn{1}{c}{\tabtop\tabbot} &
        \multicolumn{5}{|c|}{Campioni} \\
      \hline
      & $\nu_{11}$ & $\nu_{12}$ & $\nu_{13}$ & $\cdots$
        & $\nu_{1Q}$ & $m_1$\tabtop \\
      & $\nu_{21}$ & $\nu_{22}$ & $\cdots$ & $\cdots$ &
        $\nu_{2Q}$ & $m_2$ \\
      Gruppi & $\nu_{31}$ & $\cdots$ & $\cdots$ &
        $\cdots$ & $\cdots$ & $m_3$ \\
      & $\cdots$ & $\cdots$ & $\cdots$ & $\cdots$ &
        $\cdots$ & $\cdots$ \\
      & $\nu_{P1}$ & $\nu_{P2}$ & $\cdots$ & $\cdots$ &
        $\nu_{PQ}$ & $m_P$\tabbot \\
      \hline
      \multicolumn{1}{c|}{} & $n_1$ & $n_2$ & $n_3$ &
        $\cdots$ & $n_Q$ & $N$\tabtop\tabbot \\
      \cline{2-7}
    \end{tabular}
  \end{center}
  \caption{Un esempio delle cosiddette \emph{tabelle
    delle contingenze}.}
  \label{tab:12.contin}
\end{table}

\`E consuetudine che dati di questo genere siano
rappresentati in una tabella del tipo della
\ref{tab:12.contin}, che si chiama \emph{tabella delle
  contingenze};%
\index{contingenze, tabella delle}
e risulta ovviamente
\begin{align*}
  n_j &= \sum_{i=1}^P \nu_{ij} && \qquad \qquad
    (j=1,2,\ldots,Q) \peq ; \\[1ex]
  m_i &= \sum_{j=1}^Q \nu_{ij} && \qquad \qquad
    (i=1,2,\ldots,P) \peq ; \\[1ex]
  N &= \sum_{j=1}^Q n_j = \sum_{i=1}^P m_i = \sum_{i,j}
    \nu_{ij} \peq .
\end{align*}

Vogliamo ora dimostrare che la variabile casuale
\begin{equation} \label{eq:12.chiomo}
  X = N \left[ \sum_{i,j} \frac{\left( \nu_{ij}
  \right)^2}{m_i \, n_j} - 1 \right]
\end{equation}
\`e distribuita come il $\chi^2$ a $(P-1)(Q-1)$ gradi di
libert\`a: a questo scopo supponiamo innanzi tutto sia
valida l'ipotesi che i dati provengano tutti dalla medesima
popolazione, ed indichiamo con i simboli $p_i$ e $q_j$ le
probabilit\`a che un componente di tale popolazione scelto a
caso cada rispettivamente nel gruppo $i$-esimo o nel
campione $j$-esimo; e sappiamo inoltre che (ammessa per\`o
vera l'ipotesi che \emph{tutti} i campioni provengano dalla
stessa distribuzione) questi due eventi sono statisticamente
indipendenti: per cui ognuno dei dati ha probabilit\`a
complessiva $p_i q_j$ di cadere in una delle caselle della
tabella delle contingenze.

Possiamo stimare i $P$ valori $p_i$ a partire dai dati
sperimentali: si tratta in realt\`a solo di $P-1$ stime
\emph{indipendenti}, perch\'e, una volta ricavate le prime
$P-1$ probabilit\`a, l'ultima di esse risulter\`a
univocamente determinata dalla condizione che la somma
complessiva valga 1.  Analogamente possiamo anche stimare i
$Q$ valori $q_j$ dai dati sperimentali, e si tratter\`a in
questo caso di effettuare $Q-1$ stime indipendenti.

Le stime di cui abbiamo parlato sono ovviamente
\begin{align} \label{eq:12.piqj}
  p_i &= \frac{m_i}{N} &&\text{e} & q_j &=
    \frac{n_j}{N}
\end{align}
e, applicando le conclusioni del paragrafo precedente
(l'equazione \eqref{eq:12.chi2fit}), la variabile
\begin{align*}
  X &= \sum_{i,j} \frac{\left( \nu_{ij} - N p_i q_j
    \right)^2}{N p_i q_j} \\[1ex]
  &= \sum_{i,j} \left[ \frac{\left( \nu_{ij}
    \right)^2}{N p_i q_j} - 2 \nu_{ij} + N p_i q_j
    \right] \\[1ex]
  &= \sum_{i,j} \frac{\left( \nu_{ij} \right)^2}{N p_i
    q_j} -2N + N \\[1ex]
  &= \sum_{i,j} \frac{\left( \nu_{ij} \right)^2}{N p_i
    q_j} - N
\end{align*}
deve essere distribuita come il $\chi^2$.

Sostituendo in quest'ultima espressione i valori
\eqref{eq:12.piqj} per $p_i$ e $q_j$, essa si riduce alla
\eqref{eq:12.chiomo}; il numero di gradi di libert\`a \`e
pari al numero di contributi sperimentali indipendenti, $PQ
- 1$ (c'\`e il vincolo che la somma totale sia $N$),
diminuito del numero $(P-1) + (Q-1)$ di parametri stimato
sulla base dei dati: ovverosia proprio $(P-1) (Q-1)$ come
anticipato.%
\index{compatibilit\`a!tra dati sperimentali|)}

\subsection{Un esempio: diffusione elastica protone-protone}
\begin{figure}[hbtp]
  \vspace*{2ex}
  \begin{center} {
    \input{scat.pstex_t}
  } \end{center}
  \caption{Urto elastico protone-protone.}
  \label{fig:12.scat}
\end{figure}
Nella figura \ref{fig:12.scat} \`e schematicamente
rappresentato un processo di urto elastico tra due
particelle, una delle quali sia inizialmente ferma; dopo
l'urto esse si muoveranno lungo traiettorie rettilinee ad
angoli $\vartheta_1$ e $\vartheta_2$ rispetto alla direzione
originale della particella urtante.

Gli angoli $\vartheta_i$ vengono misurati; supponendo che il
processo di misura introduca errori che seguono la
distribuzione normale ed abbiano una entit\`a che (per
semplificare le cose) assumiamo sia costante, nota ed
indipendente dall'ampiezza dell'angolo, vogliamo verificare
l'ipotesi che le due particelle coinvolte nel processo
d'urto siano di massa uguale (ad esempio che siano entrambe
dei protoni).

La prima cosa da fare \`e quella di ricavare dai dati
misurati $\vartheta_i$, che per ipotesi hanno una funzione
di frequenza
\begin{equation*}
  f(\vartheta; \vartheta^*, \sigma) \; = \; \frac{1}{\sigma
    \sqrt{2 \pi}} \, e^{- \frac{1}{2} \left( \frac{\vartheta
        - \vartheta^*}{\sigma} \right)^2}
\end{equation*}
una stima dei valori veri $\vartheta^*$.  Il logaritmo della
funzione di verosimiglianza \`e dato da
\begin{equation*}
  \ln \mathcal{L} \; = \; - 2 \ln \left( \sigma \sqrt{2 \pi}
    \right) - \frac{1}{2} \left( \frac{\vartheta_1 -
        \vartheta_1^*}{\sigma} \right)^2  - \frac{1}{2}
    \left( \frac{\vartheta_2 - \vartheta_2^*}{\sigma}
    \right)^2 \peq ;
\end{equation*}
ma le variabili $\vartheta_1$ e $\vartheta_2$ \emph{non sono
  indipendenti}, visto che il processo deve conservare sia
energia che quantit\`a di moto.  Ammessa vera l'ipotesi che
le due particelle abbiano uguale massa (e restando nel
limite non-relativistico), le leggi di conservazione
impongono il vincolo che l'angolo tra le due particelle dopo
l'urto sia di 90\gra (o, in radianti, $\pi / 2$); usando il
metodo dei moltiplicatori di Lagrange, la funzione da
massimizzare \`e
\begin{equation*}
  \varphi( \vartheta_1^*, \vartheta_2^*, \lambda) \; =
  \; - \frac{1}{2} \left( \frac{\vartheta_1 -
      \vartheta_1^*}{\sigma} \right)^2 - \frac{1}{2}
  \left( \frac{\vartheta_2 - \vartheta_2^*}{\sigma}
  \right)^2 + \lambda \left( \vartheta_1^* +
    \vartheta_2^* - \frac{\pi}{2} \right)
\end{equation*}
e, annullando contemporaneamente le sue derivate rispetto
alle tre variabili, si giunge al sistema
\begin{equation*}
  \left\{
    \begin{array}{cclcc}
      \dfrac{\partial \varphi}{\partial \lambda} & = &
      \vartheta_1^* + \vartheta_2^* - \dfrac{\pi}{2} & = &
      0 \\[2.5ex]
      \dfrac{\partial \varphi}{\partial \vartheta_1^*} & = &
      \dfrac{1}{\sigma^2} \left( \vartheta_1 - \vartheta_1^*
      \right) + \lambda & = & 0 \\[2.5ex]
      \dfrac{\partial \varphi}{\partial \vartheta_2^*} & = &
      \dfrac{1}{\sigma^2} \left( \vartheta_2 - \vartheta_2^*
      \right) + \lambda & = & 0
    \end{array}
  \right.
\end{equation*}
Eliminando $\lambda$ dalle ultime due equazioni otteniamo
\begin{gather*}
  \vartheta_1 - \vartheta_1^* \; = \; \vartheta_2 -
  \vartheta_2^* \\
  \intertext{e, sostituendo l'espressione per
    $\vartheta_2^*$ ricavata dalla prima equazione,}
  \vartheta_1 - \vartheta_1^* \; = \; \vartheta_2 - \left(
    \frac{\pi}{2} - \vartheta_1^* \right)
\end{gather*}
per cui le due stime di massima verosimiglianza sono
\begin{equation*}
  \left\{
    \begin{array}{ccl}
      \hat \vartheta_1^* & = & \vartheta_1 + \dfrac{1}{2}
      \left( \dfrac{\pi}{2} - \vartheta_1 - \vartheta_2
      \right) \\[2.5ex]
      \hat \vartheta_2^* & = & \vartheta_2 + \dfrac{1}{2}
      \left( \dfrac{\pi}{2} - \vartheta_1 - \vartheta_2
      \right)
    \end{array}
  \right.
\end{equation*}

Ammesso che queste soluzioni siano buone stime dei valori
veri, la variabile casuale
\begin{equation*}
  X \; = \; \left( \frac{ \vartheta_1 -
      \vartheta_1^*}{\sigma} \right)^2 + \left( \frac{
      \vartheta_2 - \vartheta_2^*}{\sigma} \right)^2 \;
  = \; \frac{1}{2 \sigma^2} \left( \frac{\pi}{2} -
    \vartheta_1 - \vartheta_2 \right)^2
\end{equation*}
\`e distribuita come il $\chi^2$ ad un grado di libert\`a
(due contributi, un vincolo); ed il valore di $X$
confrontato con le tabelle del $\chi^2$ pu\`o essere usato
per la verifica dell'ipotesi.

\section{Compatibilit\`a con un valore prefissato}%
\index{compatibilit\`a!con un valore|(}
Un altro caso che frequentemente si presenta \`e il
seguente: si vuole controllare se un determinato valore
numerico, a priori attribuibile alla grandezza fisica in
esame, \`e o non \`e confermato dai risultati della misura;
cio\`e se quel valore \`e o non \`e \emph{compatibile} con i
nostri risultati --- pi\`u precisamente, a che livello di
probabilit\`a (o, per usare la terminologia statistica, a
che \emph{livello di confidenza}) \`e con essi compatibile.

Ammettiamo che gli errori di misura seguano la legge
normale; sappiamo che la probabilit\`a per il risultato di
cadere in un qualunque intervallo prefissato dell'asse reale
si pu\`o calcolare integrando la funzione di Gauss fra gli
estremi dell'intervallo stesso.  Riferiamoci per comodit\`a
alla variabile \emph{scarto normalizzato}
\begin{equation*}
  t = \frac{x - E(x)}{\sigma}
\end{equation*}
che sappiamo gi\`a dal paragrafo \ref{ch:9.scanor} essere
distribuita secondo una legge che \`e indipendente
dall'entit\`a degli errori di misura.

Se fissiamo arbitrariamente un numero positivo $\tau$,
possiamo calcolare la probabilit\`a che si verifichi