\documentclass{pbsheet}
\TITRE{Feuille de TP n°10 \\ Fonction de répartition empirique}
\FORMATION{Épreuve de modélisation - Agrégation Externe de Mathématiques}
\ETABLISSEMENT{Université Paul Sabatier Toulouse III}
\ANNEE{2004}
\MEL{chafai@math.ups-tlse.fr}
\AUTEUR{B. Bercu \& D. Chafaï}
\WEB{http://www.lsp.ups-tlse.fr/Chafai/agregation.html}
\DATE{Mars 2004}

\begin{document}

%%
\section{Fonction de répartition empirique.}
%%

\begin{defi}\label{def:fonc-rep-emp}
  Soit $(X_n)_{n\in\dN^*}$ une suite de v.a.r i.i.d. de fonction de
  répartition $F$.  On appelle \emph{fonction de répartition empirique}
  associée à $(X_1,\ldots,X_n)$, la fonction aléatoire $F_n$ définie pour tout
  $x\in \dR$ par
  $$
  F_n(x):=\frac{1}{n}\,\sum_{k=1}^n\rI_\BRA{X_k\leq x}.
  $$
\end{defi}

\begin{thm}[Glivenko-Cantelli]
  Pour tout $x\in\dR$, on a $F_n(x)\limPS{n}F(x)$, et cette convergence est
  uniforme sur $\dR$
  $$
  \sup_{x\in \dR}|F_n(x)-F(x)| \limPS{n} 0.
  $$
\end{thm}

\begin{defi}[Pont brownien] On dit que $(P_t)_{0\leq t \leq 1}$
  est un pont brownien si, pour tout $0\leq t \leq 1$, $P_t=B_t-tB_1$ où
  $(B_t)_{t \geq 0}$ est un mouvement brownien standard issu de zéro.  Le pont
  brownien doit son nom au fait que chacune de ses trajectoires browniennes
  passe de $0$ à l'instant $0$ à $0$ à l'instant $1$ car $P_0=P_1=0$.
\end{defi}

\begin{thm}[Kolmogorov-Smirnov]\label{th:KS} 
  Soit $(X_n)_{n\in\dN^*}$ une suite de v.a.r.  i.i.d. de fonction de
  répartition $F$ est continue, alors
  $$
  \sqrt{n}\,\sup_{x\in\dR}(F_n(x)-F(x))\limL{n}\cL(\sup_{0\leq t \leq 1}P_t)
  \text{\quad et \quad}
  \sqrt{n}\,\sup_{x\in\dR}|F_n(x)-F(x)|\limL{n}\cL(\sup_{0\leq t \leq 1}|P_t|),
  $$
  où $(P_t)_{0\leq t \leq 1}$ est un pont brownien.
\end{thm}
  
Les lois limites qui apparaissent dans le théorème \ref{th:KS} sont bien
connues et sont appelées \emph{lois de Kolmogorov-Smirnov}. Elle sont portées
par $\dR_+$ et leur fonction de répartition est donnée pour tout $u\geq0$ par:
\begin{eqnarray*}
  \dP\PAR{\sup_{0\leq t \leq 1} P_t \leq u}
  &=& 1-\exp(-2u^2)\\
  \dP\PAR{\sup_{0\leq t \leq 1} |P_t| \leq u}
  &=& 1+2\sum_{k=1}^\infty(-1)^k\exp(-2k^2u^2).
\end{eqnarray*}



%%
\section{Utilisation en modélisation.}
%%

\begin{exo}[Glivenko-Cantelli]
  Créer un code Matlab permettant d'illustrer le théorème de Glivenko-Cantelli
  sur un $N$-échantillon de loi binomiale $\cB(n,p)$, de loi de Poisson
  $\cP(\la)$, de loi exponentielle $\cE(\la)$ et de loi normale $\cN(m,\si^2)$
  où les paramètres sont affectés par l'utilisateur.
\end{exo}

\begin{exo}[Test de Kolmogorov-Smirnov pour l'adéquation à la loi normale]
  Créer un code Matlab permettant de générer, avec l'algorithme de Box-Muller
  ou l'algorithme polaire, un $N$-échantillon de loi normale $\cN(m,\si^2)$ où
  $N$, $m$ et $\si^2$ sont affectés par l'utilisateur.  Effectuer ensuite un
  test de Kolmogorov-Smirnov d'adéquation à la loi normale $\cN(m,\si^2)$ en
  utilisant la fonction Matlab \texttt{pks}.  Essayer d'autres lois comme la
  loi uniforme $\cU([0,1])$, la loi exponentielle $\cE(\la)$ et la loi de
  Cauchy $\cC(\la)$ avec $\la>0$.
\end{exo}

\begin{exo}[Google!]
  Google! cherche à évaluer l'attirance des toulousains vers son moteur de
  recherches.  Son service marketing a comptabilisé, sur cent journées
  choisies au hasard, le nombre de connexions sur Google! via Toulouse, dans
  le tableau suivant:
  \begin{center}
    {\small
    \begin{tabular}{l|ccccc}
      Milliers de connexions 
      &[3.9\ ;\ 6.0[ 
      &[6.0\ ;\ 7.6[ 
      &[7.6\ ;\ 8.4[ 
      &[8.4\ ;\ 10.0[ 
      &[10.0\ ;\ 12.0[\\ \hline
      Effectis associés & 4 & 35 & 37 & 21 & 3     
    \end{tabular}
    }
  \end{center}
  Effectuer un test de Kolmogorov-Smirnov d'adéquation de ces observations à
  la loi $\cN(8,1)$, avec un niveau de confiance de $95\%$ puis de $99\%$, en
  utilisant la fonction \texttt{kstest} de Matlab. Effectuer également un test
  du $\chi^2$ d'ajustement et comparer vos résultats.
\end{exo}

\begin{exo}[Test d'homogénéité de Kolmogorov-Smirnov]
  Soit $(X_1,\ldots,X_n)$ un $n$-échantillon de fonction de répartition $F$ et
  soit $(Y_1,\ldots,Y_m)$ un $m$-échantillon de fonction de répartition $G$.
  On suppose que ces deux échantillons sont indépendants et que $F$ et $G$
  sont continues.  On veut tester $H_0$: «$F=G$» contre $H_1$: «$F\neq G$».
  Soient $F_n$ et $G_m$ les fonctions de répartition empirique associées à
  $(X_1,\ldots,X_n)$ et $(Y_1,\ldots,Y_m)$.  Alors, sous $H_0$
  $$
  \sqrt{\frac{nm}{n+m}}\,\sup_{x\in\dR}|F_n(x)-G_m(x)|\limL{n}%
  \sup_{0\leq t\leq 1} |P_t|
  $$
  où $(P_t)_{0\leq t\leq 1}$ est un pont brownien. Effectuer un test
  d'homogénéité de Kolmogorov-Smirnov sur deux échantillons indépendants de
  loi uniforme $\cU([0,1])$ et de tailles respectives $n=100$ et $m=1000$.
  Essayer d'autres lois.
\end{exo}

\begin{exo}[Grosses boites]
  Les deux tableaux suivant représentent le revenu net en milliards d'Euros
  pour l'année 2002 de vingt groupes français et de vingt-quatre groupes
  allemands de l'industrie et des services.
  \begin{center}
    Groupes Français\\\medskip
    \begin{tabular}{|cccccccccc|}\hline
      0.2&3.8&7.6&4.0&4.1&-2.8&4.7&3.6&5.4&-0.2\\
      1.6&5.6&-0.6&0.8&-5.0&0.1&2.9&3.7&3.9&1.1\\\hline
    \end{tabular}\\
    \medskip Groupes Allemands\\\medskip
    \begin{tabular}{|cccccccccccc|}\hline
      1.8&4.0&1.4&1.9&1.9&1.8&1.4&1.9&1.4&4.5&2.2&2.4\\
      3.1&0.3&-1.4&0.4&2.3&0.2&1.5&4.8&0.6&1.0&1.5&5.5\\\hline
    \end{tabular}
  \end{center}
  Effectuer un test d'homogénéité de Kolmogorov-Smirnov sur ces observations
  en utilisant la fonction \texttt{kstest2} de Matlab.
\end{exo}

\begin{exo}[Estimation non paramétrique à noyau d'une densité] 
  Soit $(X_n)_{n\in\dN}$ une suite de v.a. indépendantes et de même loi, de
  densité de probabilité $f$. On suppose que $f\in\cC^1(\dR)$ et que $f'$ est
  bornée.  Soit $K:\dR\to\dR_+$ une fonction bornée appelée noyau, telle que
  $$
  \int_{\dR}\!\!K(x)\,dx=1 %
  \text{\quad et\quad} %
  \int_{\dR}\!\!K^2(x)\,dx=\si^2.
  $$
  On peut par exemple choisir le noyau uniforme
  $K(x)=(2a)^{-1}\,\rI_{[-a,a]}(x)$ avec $a>0$ ou encore le noyau gaussien
  $K(x)=(2\pi)^{-n/2}\,\exp(-x^2/2)$. On estime $f$ par l'estimateur à noyau
  $\WH{f}_n$ défini $\forall x \in \dR$ par
  $$
  \WH{f}_n(x)=\frac{1}{n}\sum_{i=1}^n\frac{1}{h_i}K\PAR{\frac{X_i-x}{h_i}}
  $$
  où $h_n:=n^{-\al}$ avec $0<\al<1$. Montrer que $\WH{f}_n(x)\limPS{n}f(x)$
  et que si $1/3<\al<1$,
  $$
  \sqrt{nh_n}\,\PAR{\WH{f}_n(x)-f(x)}%
  \limL{n}\cN\PAR{0,\frac{\si^2f(x)}{1+\al}}.
  $$
  Créer un code Matlab permettant d'illustrer cette méthode d'estimation de
  la densité par noyaux sur la loi normale $\cN(m,\si^2)$ et sur la loi
  exponentielle $\cE(\la)$, où les paramètres $m$, $\si^2$ et $\la>0$ sont
  affectés par l'utilisateur.
\end{exo}

\end{document}







