\documentclass{pbsheet}
\TITRE{Feuille de TP n°8 \\ 
  Tests non paramétriques du chi-deux en modélisation}
\FORMATION{Épreuve de modélisation - Agrégation Externe de Mathématiques}
\ETABLISSEMENT{Université Paul Sabatier Toulouse III}
\ANNEE{2005}
\MEL{chafai@math.ups-tlse.fr}
\AUTEUR{B. Bercu \& D. Chafaï}
\WEB{http://www.lsp.ups-tlse.fr/Chafai/agregation.html}
\DATE{Novembre 2004}

\begin{document}

%%
\section{Test d'ajustement}
%%

Soit $(X_1,\ldots,X_n)$ un $n$-échantillon de loi inconnue $\mu$. On veut
tester $\rH_0$: «$\mu=\nu$», contre $\rH_1$: «$\mu\neq\nu$», où $\nu$ est une
loi de probabilité fixée et connue. On considère une partition en $k$ classes
$(I_1,,\ldots,I_k)$ du support de $\nu$. On note $\nu_1,\ldots,\nu_k$ les
poids associés, que l'on supposera toujours strictement positifs. Lorsque
$\nu$ est une loi discrète finie, les classes sont des singletons typiquement.
Pour $i=1,\ldots,k$, soit $n_i$ l'effectif associé à la classe $I_i$. La
statistique de test d'ajustement est
\begin{equation*}
  D_n=\sum_{i=1}^k\frac{(d_i-n_i)^2}{d_i} 
\end{equation*}
avec $d_i=n\nu_i$. La LGN et le TCL ont pour conséquence le théorème suivant.

\begin{thm}[Khi-deux d'ajustement] 
  Lorsque $n$ tend vers $+\infty$, la statistique $D_n$ converge en loi vers
  $\chi^2(k-1)$ sous $\rH_0$, et presque sûrement vers $+\infty$ sous $\rH_1$.
\end{thm}

En pratique, pour $n$ assez grand ($\inf_i d_i>5$), on approche sous $\rH_0$
la loi de $D_n$ par $\chi^2(k-1)$. On en déduit alors un test qui consiste à
rejeter $\rH_0$ si $D_n>\chi^2_\al(k-1)$, où $\chi^2_\al(k-1)$ est le quantile
$1-\al$ de la loi $\chi^2(k-1)$. Ce test est asymptotiquement de niveau $\al$
et de puissance $1$ (i.e. convergent). En effet, on a
$\dP(D_n>\chi^2_\al(k-1))\limn{n}\al$ sous $\rH_0$, tandis que sous $\rH_1$,
$\dP(D_n>\chi^2_\al(k-1))\limn{n}1$. Lorsque la loi $\nu$ n'est pas
entièrement connue, on perd un degré de liberté pour chaque paramètre estimé,
cf. \cite[Chap. 15]{saporta}.

\begin{exo}[Générateurs pseudo-aléatoires] 
  Un ordinateur possède un générateur pseudo-aléatoire de
  nombres choisis au hasard dans l'ensemble des dix premiers entiers. Les mille
  premiers résultats sont répartis dans le tableau suivant.
  \par\medskip
  \begin{center}
    \begin{tabular}{|c||c|c|c|c|c|c|c|c|c|c|}\hline
      Chiffres & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 \\ 
      \hline
      Observations & 120 & 87 & 115 & 103 & 91 & 109 & 92 & 112 & 94 & 77 \\
      \hline
    \end{tabular}
  \end{center}
  \par\medskip
  Peut-on accepter l'hypothèse d'équiprobabilité pour chacun des chiffres ?
  % La réponse est non pour 4% et est oui pour 5% et plus.
  Faites de même en remplaçant la table précédente par une table générée à
  partir de la fonction \texttt{rand} de Matlab. 
  % Ne pas oublier que la p-value est aléatoire...
\end{exo}

%%
\section{Test d'homogénéité}
%%

Le test d'homogénéité est une version élaborée du test d'ajustement.
Considérons deux échantillons indépendants $(X_1,\ldots,X_n)$ et
$(Y_1,\ldots,Y_p)$ de lois respectives $\mu_X$ et $\mu_Y$. On suppose que
chacun des supports de $\mu_X$ et $\mu_Y$ sont partitionnés en $k$ classes
$(I_1,\ldots,I_k)$ et $(J_1,\ldots,J_k)$ respectivement. Pour $i=1,\ldots,k$,
soient $n_i$ et $p_i$ les effectifs associés aux classes $I_i$ et $J_i$. On
veut tester $\rH_0$: «$\mu_X=\mu_Y$», contre $\rH_1$: «$\mu_X\neq\mu_Y$». Sous
$\rH_0$, il est naturel d'estimer la loi commune $\mu$ par
$\WH{\mu}=\BRA{\WH{\mu}_1,\ldots,\WH{\mu}_k}$ avec
$\WH{\mu}_i=(n_i+p_i)/(n+p)$. Le test d'homogénéïté repose sur la statistique
$D_{n,p}:=D_n^X+D_p^Y$ avec
\begin{equation*}
  D_n^X=\sum_{i=1}^k\frac{(d_i^X-n_i)^2}{d_i^X}
  \text{\quad et \quad} D_p^Y=\sum_{i=1}^k\frac{(d_i^Y-p_i)^2}{d_i^Y}, 
\end{equation*}
où
$d_i^X=n\WH{\mu}_i$ et $d_i^Y=p\WH{\mu}_i$.

\begin{thm}[Khi-deux d'homogénéité] 
  Lorsque $n$ et $p$ tendent vers $+\infty$, la statistique $D_{n,p}$ converge
  en loi vers $\chi^2(k-1)$ sous $\rH_0$, et converge presque sûrement vers
  $+\infty$ sous $\rH_1$.
\end{thm}

En pratique, pour $n$ et $p$ assez grands, on peut sous $\rH_0$ approcher la
loi de $D_{n,p}$ par $\chi^2(k-1)$. Ici encore, le test consistant à rejeter
$\rH_0$ dès que $D_{n,p}>\chi^2_\al(k-1)$ est asymptotiquement de niveau $\al$
et de puissance $1$.

\begin{exo} Écrire un programme permettant de générer deux échantillons de
  même loi, par exemple uniforme, normale, exponentielle ou binomiale et de
  tailles différentes $n=1000$ et $p=10000$. Tester ensuite l'homogénéïté de
  ces deux échantillons. Faire de même avec deux échantillons de lois
  distinctes mais de même support.
\end{exo}

%%
\section{Test d'indépendance}
%%

Soient $(X_1,\ldots,X_n)$ et $(Y_1,\ldots,Y_n)$ deux $n$-échantillons dont la
loi du couple $\mu_{(X,Y)}$ est inconnue. On note $\mu_X$ et $\mu_Y$ les lois
marginales associées. On veut tester $\rH_0$:
«$\mu_{(X,Y)}=\mu_X\otimes\mu_Y$», contre $\rH_1$:
«$\mu_{(X,Y)}\neq\mu_X\otimes\mu_Y$». On suppose que les supports de $\mu_X$
et $\mu_Y$ sont partitionnés en $k$ classes $(I_1,,\ldots,I_k)$ et $l$ classes
$(J_1,\ldots,J_l)$ respectivement. Pour $i=1,\ldots,k$ et $j=1,\ldots,l$, soit
$n_{i,j}$ l'effectif associé aux classes $I_i$ et $J_j$. On pose $n_{i
  \ast}=\sum_{j=1}^l n_{i,j}$ et $n_{\ast j}=\sum_{i=1}^k n_{i,j}$ les
effectifs «marginaux». Sous l'hypothèse $\rH_0$, il est naturel d'estimer
$\mu_{(X,Y)}$ par $\WH{\mu}=\BRA{\WH{\mu}_{i,j} :=
  \frac{n_{i\ast}}{n}\frac{n_{\ast j}}{n}, 1\leq i \leq k, 1\leq j \leq l}$.
La statistique de test d'indépendance est
\begin{equation*}
  D_n=\sum_{i=1}^k\sum_{j=1}^l\frac{(d_{i,j}-n_{i,j})^2}{d_{i,j}} 
\end{equation*}
où $d_{i,j}=n\WH{\mu}_{i,j}=n_{i\ast}n_{\ast j}/n$.
\begin{thm}[Khi-deux d'indépendance]
  Lorsque $n$ tend vers $+\infty$, la statistique de test $D_n$ converge en
  loi vers un $\chi^2((k-1)(l-1))$ sous $H_0$ et converge presque sûrement
  vers $+\infty$ sous $\rH_1$.
\end{thm}

En pratique, pour $n$ grand, on peut sous $\rH_0$ approcher la loi de $D_{n}$
par $\chi^2((k-1)(l-1))$. Ici encore, le test consistant à rejeter $\rH_0$ dès
que $D_n>\chi^2_\al((k-1)(l-1))$ est asymptotiquement de niveau $\al$ et de
puissance $1$.

\begin{exo}[Mathématiques philosophiques] 
  Afin de savoir si les \emph{Mathématiciens sont Philosophes},
  on a relevé, sur $100$ bacheliers, les notes obtenues en Mathématiques $X$
  et en Philosophie $Y$.
  \begin{center}
    \begin{tabular}{|l||c|c|c|c|c|}\hline
      $X\setminus Y$ 
      & [0,4[&[4,8[&[8,12[&[12,16[&[16,20]\\ \hline\hline
      [0,4[&3&4&2&0&0\\ \hline
      [4,8[&6&10&8&2&0\\ \hline
      [8,12[&1&8&20&12&3\\ \hline
      [12,16[&0&0&8&7&3\\ \hline
      [16,20]&0&0&1&0&2\\ \hline
    \end{tabular} 
  \end{center}
  Tester l'hypothèse d'indépendance entre les notes obtenues en Mathématiques
  et en Philosophie.
\end{exo}

\begin{exo}[Visions de gauche et de droite] 
  Les scores de vision aux deux yeux de $7477$ femmes, âgées
  de 30 à 40 ans, ont été classés en quatre groupes notés de 1 à 4 par ordre
  décroissant.
  \begin{center}
    \begin{tabular}{|l||c|c|c|c|}\hline
      $D \setminus G$& 1 & 2 & 3 & 4 \\ \hline\hline
      1 &1520&266&124&66\\ \hline
      2 &234&1512&432&78\\ \hline
      3 &117&362&1772&205\\ \hline
      4 &36&82&179&492\\ \hline
    \end{tabular} 
  \end{center}
  Tester l'hypothèse d'indépendance puis de symétrie entre les deux yeux.
\end{exo}

\nocite{paul-toulouse}
\nocite{dacunha-castelle-duflo}

{\tiny
\bibliographystyle{smfplain}
\bibliography{biblio}
}

\end{document}








%%% Local Variables: 
%%% mode: latex
%%% TeX-master: t
%%% End: