\documentclass{pbsheet}
\TITRE{Feuille de TP n°8 \\ Tests non paramétriques du chi-deux en modélisation}
\FORMATION{Épreuve de modélisation - Agrégation Externe de Mathématiques}
\ETABLISSEMENT{Université Paul Sabatier Toulouse III}
\ANNEE{2004}
\MEL{chafai@math.ups-tlse.fr}
\AUTEUR{B. Bercu \& D. Chafaï}
\WEB{http://www.lsp.ups-tlse.fr/Chafai/agregation.html}
\DATE{Février 2004}

\begin{document}

%%
\section{Test d'ajustement}
%%

Soit $(X_1,\ldots,X_n)$ un $n$-échantillon de loi inconnue $f_X$.  On suppose
que $X$ prend ses valeurs dans $k$ classes $(I_1,,\ldots,I_k)$. La démarche
est similaire dans le cas discret en remplaçant les classes par les valeurs
prises par $X$. Pour $i=1,\ldots,k$, soit $n_i$ l'effectif associé à la classe
$I_i$. Pour une loi de probabilité $f=\BRA{f_1,\ldots,f_k}$ donnée, on veut
tester $\rH_0$: «$X$ a pour loi $f$», contre $\rH_1$: «$X$ n'a pas pour loi
$f$». Le test d'ajustement est basé sur la statistique
$$
D_n=\sum_{i=1}^k\frac{(d_i-n_i)^2}{d_i}
$$
avec $d_i=nf_i$.

\begin{thm}[Khi-deux d'ajustement] 
  Sous $\rH_0$, $D_n$ converge en loi vers un khi-deux $\chi^2(k-1)$.
\end{thm}

En pratique, pour $n$ assez grand, on peut sous $\rH_0$ approcher la loi de
$D_n$ par un $\chi^2(k-1)$. De plus, on peut montrer que sous $\rH_1$, $D_n$
tend vers l'infini. On a donc une région d'acceptation $\cA=[0,a]$ avec, pour
un niveau de confiance $1-\al$ donné, $\dP(D_n\leq a)=1-\al$.

\begin{rem} 
  Il peut arriver que la loi $f$ ne soit pas entièrement connue.  Pour chaque
  paramètre estimé de $f$, on perd un degré de liberté.
\end{rem}

\begin{exo}[Générateurs pseudo-aléatoires] 
  Un ordinateur possède un générateur pseudo-aléatoire de
  nombres choisis au hasard dans l'ensemble des dix premiers entiers. Les mille
  premiers résultats sont répartis dans le tableau suivant.
  \par\medskip
  \begin{center}
    \begin{tabular}{|c||c|c|c|c|c|c|c|c|c|c|}\hline
      Chiffres & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 \\ 
      \hline
      Observations & 120 & 87 & 115 & 103 & 91 & 109 & 92 & 112 & 94 & 77 \\
      \hline
    \end{tabular}
  \end{center}
  \par\medskip
  Peut-on accepter l'hypothèse d'équiprobabilité pour chacun des chiffres ?
  % La réponse est non pour 4% et est oui pour 5% et plus.
  Faites de même en remplaçant la table précédente par une table générée à
  partir de la fonction \texttt{rand} de Matlab. 
  % Ne pas oublier que la p-value est aléatoire...
\end{exo}

%%
\section{Test d'homogénéité}
%%

Le test d'homogénéité est une version élaborée du test d'ajustement. Soit
$(X_1,\ldots,X_n)$ un $n$-échantillon de loi inconnue $f_X$ et soit
$(Y_1,,\ldots,Y_p)$ un $p$-échantillon de loi inconnue $f_Y$. On suppose que
les deux échantillons sont indépendants et que $X$ et $Y$ prennent
respectivement leurs valeurs dans $k$ classes $(I_1,\ldots,I_k)$ et
$(J_1,\ldots,J_k)$. Pour $i=1,\ldots,k$, soient $n_i$ et $p_i$ les effectifs
associés aux classes $I_i$ et $J_i$. On veut tester $\rH_0$: «$X$ et $Y$ ont
la même loi», contre $\rH_1$: «$X$ et $Y$ n'ont pas la même loi». Sous
l'hypothèse $\rH_0$, soit $f$ la loi commune à $X$ et $Y$. Il est naturel
d'estimer $f$ par $\WH{f}=\BRA{\WH{f}_1,\ldots,\WH{f}_k}$ avec
$\WH{f}_i=(n_i+p_i)/(n+p)$. Le test d'homogénéité repose sur la statistique
$D_n^p=D_n^X+D_p^Y$ avec
$$
D_n^X=\sum_{i=1}^k\frac{(d_i^X-n_i)^2}{d_i^X}
\text{\quad et \quad}
D_n^Y=\sum_{i=1}^k\frac{(d_i^Y-p_i)^2}{d_i^Y},
$$
où $d_i^X=n\WH{f}_i$ et $d_i^Y=p\WH{f}_i$.

\begin{thm}[Khi-deux d'homogénéité] 
  Sous $\rH_0$, $D_n^p$ converge en loi vers un khi-deux $\chi^2(k-1)$.
\end{thm}

En pratique, pour $n$ et $p$ assez grand, on peut sous $\rH_0$ approcher la
loi de $D_n^p$ par un $\chi^2(k-1)$. De plus, on peut montrer que sous
$\rH_1$, $D_n^p$ tend vers l'infini. On a donc une région d'acceptation
$\cA=[0,a]$ avec, pour un niveau de confiance $1-\al$ donné, $\dP(D_n^p\leq
a)=1-\al$.

\begin{exo} Créer un code Matlab permettant de générer deux échantillons
  de même loi, par exemple uniforme, normale, exponentielle ou binomiale et de
  tailles différentes $n=1000$ et $p=10000$. Tester ensuite l'homogénéité de
  ces deux échantillons.  Faire de même avec deux échantillons de lois
  distinctes mais de même support.
\end{exo}

%%
\section{Test d'indépendance}
%%

Soient $(X_1,\ldots,X_n)$ et $(Y_1,\ldots,Y_n)$ deux $n$-échantillons dont la
loi du couple $f_{(X,Y)}$ est inconnue. On suppose que $X$ et $Y$ prennent
respectivement leurs valeurs dans $k$ classes $(I_1,,\ldots,I_k)$ et $l$
classes $(J_1,\ldots,J_l)$.  Pour $i=1,\ldots,k$ et $j=1,\ldots,l$, soit
$n_{ij}$ l'effectif associé aux classes $I_i$ et $J_j$. On pose $n_{i
  \ast}=\sum_{j=1}^l n_{ij}$ et $n_{\ast j}=\sum_{i=1}^k n_{ij}$. On veut
tester $\rH_0$: «$X$ et $Y$ sont indépendantes», contre $\rH_1$: «$X$ et $Y$
ne sont pas indépendantes». Sous l'hypothèse $\rH_0$, il est naturel d'estimer
$f_{(X,Y)}$ par $\WH{f}=\BRA{\WH{f}_{ij}=f_{i\ast}f_{\ast j} \text{ avec }
  1\leq i \leq k, 1\leq j \leq l}$ où $\WH{f}_{i\ast}=n_{i\ast}/n$,
$\WH{f}_{\ast j}=n_{\ast j}/n$ . Le test d'indépendance est basé sur la
statistique
$$
D_n=\sum_{i=1}^k\sum_{j=1}^l\frac{(d_{ij}-n_{ij})^2}{d_{ij}}
$$
où $d_{ij}=n\WH{f}_{ij}=n_{i\ast}n_{\ast j}/n$.

\begin{thm}[Khi-deux d'indépendance]
  Sous $H_0$, $D_n$ converge en loi vers un khi-deux $\chi^2(k-1)(l-1)$.
\end{thm}

En pratique, pour $n$ assez grand, on peut sous $\rH_0$ approcher la loi de
$D_n$ par un $\chi^2(k-1)(l-1)$. De plus, on peut montrer que sous $\rH_1$,
$D_n$ tend vers l'infini. On a donc une région d'acceptation $\cA=[0,a]$ avec,
pour un niveau de confiance $1-\al$ donné,
$\dP(D_n\leq a)=1-\al$.

\begin{exo}[Mathématiques philosophiques] 
  Afin de savoir si les \emph{Mathématiciens sont Philosophes},
  on a relevé, sur $100$ bacheliers, les notes obtenues en Mathématiques $X$
  et en Philosophie $Y$.
  \begin{center}
    \begin{tabular}{|l||c|c|c|c|c|}\hline
      $X\setminus Y$ 
      & [0,4[&[4,8[&[8,12[&[12,16[&[16,20]\\ \hline\hline
      [0,4[&3&4&2&0&0\\ \hline
      [4,8[&6&10&8&2&0\\ \hline
      [8,12[&1&8&20&12&3\\ \hline
      [12,16[&0&0&8&7&3\\ \hline
      [16,20]&0&0&1&0&2\\ \hline
    \end{tabular} 
  \end{center}
  Tester l'hypothèse d'indépendance entre les notes obtenues en Mathématiques
  et en Philosophie.
\end{exo}

\begin{exo}[Visions de gauche et de droite] 
  Les scores de vision aux deux yeux de $7477$ femmes, âgées
  de 30 à 40 ans, ont été classés en quatre groupes notés de 1 à 4 par ordre
  décroissant.
  \begin{center}
    \begin{tabular}{|l||c|c|c|c|}\hline
      $D \setminus G$& 1 & 2 & 3 & 4 \\ \hline\hline
      1 &1520&266&124&66\\ \hline
      2 &234&1512&432&78\\ \hline
      3 &117&362&1772&205\\ \hline
      4 &36&82&179&492\\ \hline
    \end{tabular} 
  \end{center}
  Tester l'hypothèse d'indépendance puis de symétrie entre les deux yeux.
\end{exo}

\end{document}








%%% Local Variables: 
%%% mode: latex
%%% TeX-master: t
%%% End: