\documentclass{pbsheet}
\TITRE{Feuille de TP n°10 \\ Fonction de répartition empirique}
\FORMATION{Épreuve de modélisation - Agrégation Externe de Mathématiques}
\ETABLISSEMENT{Université Paul Sabatier Toulouse III}
\ANNEE{2005}
\MEL{chafai@math.ups-tlse.fr}
\AUTEUR{B. Bercu \& D. Chafaï}
\WEB{http://www.lsp.ups-tlse.fr/Chafai/agregation.html}
\DATE{Novembre-Décembre 2004}

\begin{document}

FIXME: biblio précise !

%%
\section{Fonction de répartition empirique.}
%%

\begin{defi}\label{def:fonc-rep-emp}
  Soit $(X_1,\ldots,X_n)$ un échantillon de loi $\mu$ sur $\dR$, de fonction
  de répartition $F$. On appelle \emph{fonction de répartition empirique}
  associée à $(X_1,\ldots,X_n)$, la fonction aléatoire $F_n:\dR\to[0,1]$
  définie pour tout $x\in \dR$ par $F_n(x):=\frac{1}{n}\#\BRA{X_k\leq x; 1\leq
    k \leq n}$. On peut également écrire de manière équivalente
  \begin{equation*}
    F_n(x) = \frac{1}{n}\,\sum_{k=1}^n\rI_\BRA{X_k\leq x}.
  \end{equation*}
\end{defi}
C'est la fonction de répartition de la \emph{mesure empirique}
$\dP_n:=\frac{1}{n}(\de_{X_1}+\cdots+\de_{X_n})$ de l'échantillon : pour tout
$x\in\dR$, on a $\dP_n(]-\infty,x])=F_n(x)$. Pour tout $p\in]0,1[$, le
\emph{quantile empirique} d'ordre $p$ de l'échantillon est par définition
$X_{([np])}$ où $[np]$ est la partie entière de $np$ et où
$X_{(1)},\ldots,X_{(n)}$ sont les statistiques d'ordre de l'échantillon. On a
$F_n(X_{([np])})=\frac{1}{n}[np]\in[p,p+\frac{1}{n}[$. Ainsi, $X_{([np])}$ est
bien le quantile d'ordre $p$ de $\dP_n$.

\begin{thm}[Convergence des quantiles empiriques]
  Soit $(X_1,\ldots,X_n)$ un échantillon de loi $\mu$ sur $\dR$, de fonction
  de répartition $F$. Si $F$ est continue, d'inverse généralisée $F^{-1}$,
  alors pour tout $p\in]0,1[$, en notant $Q_n(p):=X_{([np])}$ et
  $Q(p):=F^{-1}(p)$, on a
  \begin{equation*}
    Q_n(p)\limPS{n}Q(p).
  \end{equation*}
  De plus, si $F$ est dérivable en $Q(p)$ de dérivée $f(Q(p))$, on a
  \begin{equation*}
    \sqrt{n}\PAR{Q_n(p)-Q(p)}\limL{n}\cN\PAR{0,\frac{p(1-p)}{f(Q(p))^2}}.
  \end{equation*}
  %FIXME: Cf. Van der Vaart, Asymptotic Statistics, chapitre 21.
\end{thm}

\begin{thm}[Glivenko-Cantelli]
  Soit $(X_1,\ldots,X_n)$ un échantillon de loi $\mu$ sur $\dR$, de fonction
  de répartition $F$. Pour tout $x\in\dR$, on a $F_n(x)\limPS{n}F(x)$, et
  cette convergence est uniforme sur $\dR$
  \begin{equation*}
    \NRM{F_n-F}_\infty:=\sup_{x\in \dR}|F_n(x)-F(x)| \limPS{n} 0.
  \end{equation*}
  De plus, si $X_{(1)},\ldots,X_{(n)}$ désigne les statistiques d'ordre de
  $X_1,\ldots,X_n$, on a\footnote{Cette formule permet de calculer
    $\NRM{F_n-F}_{\infty}$ et montre que sa loi ne dépend pas de la loi de
    l'échantillon (statistique libre). Comme $F$ est croissante,
    $F(X_{(1)}),\ldots,F(X_{(n)})$ est une statistique d'ordre de la loi
    uniforme.}
  \begin{equation*}
    \NRM{F_n-F}_\infty = \max_{1\leq i\leq n}
    \SBRA{\max\PAR{\ABS{\frac{i}{n}-F\PAR{X_{(i)}}},
        \ABS{\frac{i-1}{n}-F\PAR{X_{(i)}}}}}.
  \end{equation*}
\end{thm}

\begin{thm}[Kolmogorov-Smirnov]
  Soit $(X_1,\ldots,X_n)$ un échantillon de loi $\mu$ sur $\dR$, de fonction
  de répartition $F$. Si $F$ est continue, alors
  $\sqrt{n}\,\NRM{F_n-F}_\infty\limL{n} \mu_\text{KS}$, où la loi
  $\mu_\text{KS}$ est universelle et ne dépend pas de $F$ en particulier. Elle
  est portée par $\dR_+$ et a pour fonction de répartion pour $t\geq0$
  \begin{equation*}
    F_\text{KS}(t)
    := \mu_\text{KS}(]-\infty,t])
    = 1+2\sum_{k=1}^\infty(-1)^k\exp(-2k^2t^2).
  \end{equation*}  
\end{thm}

\begin{cor}[Test d'adéquation de Kolmogorov-Smirnov]
  Soit $(X_1,\ldots,X_n)$ un échantillon de loi inconnue $\mu$ sur $\dR$, de
  fonction de répartition $F$ continue. On note $F_n$ la fonction de
  répartition empirique associée. Soit $\nu$ une loi connue de fonction de
  répartition $G$. Posons $\cH_0$:=«$\mu=\nu$» et $\cH_1$:=«$\mu\neq\nu$».
  Soit $\al\in[0,1]$ et $k_{1-\al}$ le quantile $1-\al$ de la loi de
  Kolmogorov-Smirnov $\mu_\text{KS}$. Le test qui consiste à rejeter $\cH_0$
  si $\sqrt{n}\,\NRM{F_n-G}_\infty>k_{1-\al}$ et à accepter $\cH_0$ sinon est
  asymptotiquement de niveau $\al$ et sa puissance converge vers $1$. Cf.
  \cite[Chap. 15.4.2.B]{saporta}.
\end{cor}

\begin{rem}[Forme équivalente]
  Si $F_\text{KS}$ est la fonction de répartition de la distribution de
  Kolmogorov-Smirnov $\mu_\text{KS}$, alors le test
  $\sqrt{n}\,\NRM{F_n-G}_\infty>k_{1-\al}$ est équivalent au test
  $F_\text{KS}(\sqrt{n}\,\NRM{F_n-G}_\infty)> 1-\al$. La fonction \texttt{pks}
  de Stixbox implémente $F_\text{KS}$.
\end{rem}

\FIG{dks}{0.25}{htbp}{Densité de probabilité de la loi de Kolmogorov-Smirnov
  $\mu_\text{KS}$.}

\begin{rem}[Test d'adéquation de Cramer-von Mises]
  Soit $(X_1,\ldots,X_n)$ un échantillon de loi $\mu$ sur $\dR$, de fonction
  de répartition $F$. Soit $F_n$ la fonction de répartition empirique. La
  statistique de Cramer-von Mises $C_n$ est définie par
  \begin{equation*}
    nC_n := n\int_{-\infty}^{+\infty} (F_n(x)-F(x))^2\,dF(x).
  \end{equation*}
  Cette statistique s'exprime simplement en terme des statistiques d'ordre de
  l'échantillon
  \begin{equation*}
    nC_n 
    = \frac{1}{12n}+\sum_{k=1}^n \PAR{\frac{2k-1}{2n}-F(X_{(k)})}^2.
  \end{equation*}
  Le thérème de Glivenko-Cantelli assure que $C_n\limPS{n}0$. D'autre part,
  lorsque $F$ est continue, on peut montrer que $nC_n\limL{n}\mu_{CM}$ où la
  loi $\mu_{CM}$ est universelle et ne dépend pas de $F$ en particulier. On
  peut montrer que c'est la loi de $\sum_{k=1}^{+\infty} (\pi k)^{-2}Z_k$ où
  $(Z_k)_{k\in\dN^*}$ est une suite i.i.d. de loi $\chi^2(1)$. On construit
  avec $nC_n$ un test d'adéquation similaire au test de Kolmogorov-Smirnov.
  Cf. \cite[Chap. 15.4.2.C]{saporta}.
\end{rem}

%%
\section{Utilisation en modélisation.}
%%

\begin{exo}[Glivenko-Cantelli]
  Créer un code Matlab permettant d'illustrer le théorème de Glivenko-Cantelli
  sur un $N$-échantillon de loi binomiale $\cB(n,p)$, de loi de Poisson
  $\cP(\la)$, de loi exponentielle $\cE(\la)$ et de loi normale $\cN(m,\si^2)$
  où les paramètres sont affectés par l'utilisateur.
\end{exo}

\begin{exo}[Test de Kolmogorov-Smirnov pour l'adéquation à la loi normale]
  Créer un code Matlab permettant de générer, avec l'algorithme de Box-Muller
  ou l'algorithme polaire, un $N$-échantillon de loi normale $\cN(m,\si^2)$ où
  $N$, $m$ et $\si^2$ sont affectés par l'utilisateur.  Effectuer ensuite un
  test de Kolmogorov-Smirnov d'adéquation à la loi normale $\cN(m,\si^2)$ en
  utilisant la fonction Matlab \texttt{pks}.  Essayer d'autres lois comme la
  loi uniforme $\cU([0,1])$, la loi exponentielle $\cE(\la)$ et la loi de
  Cauchy $\cC(\la)$ avec $\la>0$.
\end{exo}

%\begin{exo}[Google!]
%  Google! cherche à évaluer l'attirance des toulousains vers son moteur de
%  recherches.  Son service marketing a comptabilisé, sur cent journées
%  choisies au hasard, le nombre de connexions sur Google! via Toulouse, dans
%  le tableau suivant:
%  \begin{center}
%    {\small
%    \begin{tabular}{l|ccccc}
%      Milliers de connexions 
%      &[3.9\ ;\ 6.0[ 
%      &[6.0\ ;\ 7.6[ 
%      &[7.6\ ;\ 8.4[ 
%      &[8.4\ ;\ 10.0[ 
%      &[10.0\ ;\ 12.0[\\ \hline
%      Effectis associés & 4 & 35 & 37 & 21 & 3     
%    \end{tabular}
%    }
%  \end{center}
%  Effectuer un test de Kolmogorov-Smirnov d'adéquation de ces observations à
%  la loi $\cN(8,1)$, avec un niveau de confiance de $95\%$ puis de $99\%$, en
%  utilisant la fonction \texttt{kstest} de Matlab. Effectuer également un test
%  du $\chi^2$ d'ajustement et comparer vos résultats.
%\end{exo}

\begin{exo}[Test d'homogénéité de Kolmogorov-Smirnov]
  Soit $(X_1,\ldots,X_n)$ un $n$-échantillon de fonction de répartition $F$ et
  soit $(Y_1,\ldots,Y_m)$ un $m$-échantillon de fonction de répartition $G$.
  On suppose que ces deux échantillons sont indépendants et que $F$ et $G$
  sont continues.  On veut tester $H_0$: «$F=G$» contre $H_1$: «$F\neq G$».
  Soient $F_n$ et $G_m$ les fonctions de répartition empirique associées à
  $(X_1,\ldots,X_n)$ et $(Y_1,\ldots,Y_m)$.  Alors, sous $H_0$
  \begin{equation*}
  \sqrt{\frac{nm}{n+m}}\,\sup_{x\in\dR}|F_n(x)-G_m(x)|\limL{n}\mu_\text{KS}.
  \end{equation*}
  Effectuer un test d'homogénéité de Kolmogorov-Smirnov sur deux échantillons
  indépendants de loi uniforme $\cU([0,1])$ et de tailles respectives $n=100$
  et $m=1000$. Essayer d'autres lois.
\end{exo}

\begin{exo}[Grosses boites]
  Les deux tableaux suivant représentent le revenu net en milliards d'Euros
  pour l'année 2002 de vingt groupes français et de vingt-quatre groupes
  allemands de l'industrie et des services.
  \begin{center}
    Groupes Français\\\medskip
    \begin{tabular}{|cccccccccc|}\hline
      0.2&3.8&7.6&4.0&4.1&-2.8&4.7&3.6&5.4&-0.2\\
      1.6&5.6&-0.6&0.8&-5.0&0.1&2.9&3.7&3.9&1.1\\\hline
    \end{tabular}\\
    \medskip Groupes Allemands\\\medskip
    \begin{tabular}{|cccccccccccc|}\hline
      1.8&4.0&1.4&1.9&1.9&1.8&1.4&1.9&1.4&4.5&2.2&2.4\\
      3.1&0.3&-1.4&0.4&2.3&0.2&1.5&4.8&0.6&1.0&1.5&5.5\\\hline
    \end{tabular}
  \end{center}
  Effectuer un test d'homogénéité de Kolmogorov-Smirnov sur ces observations
  en utilisant la fonction \texttt{kstest2} de Matlab.
\end{exo}

\begin{exo}[Estimation non paramétrique à noyau d'une densité] 
  Soit $(X_1,\ldots,X_n)$ un échantillon de loi de densité de probabilité $f$.
  On suppose que $f\in\cC^1(\dR)$ et que $f'$ est bornée. Soit $K:\dR\to\dR_+$
  une fonction bornée appelée noyau, telle que $$
  \int_{\dR}\!\!K(x)\,dx=1 %
  \text{\quad et\quad} %
  \int_{\dR}\!\!K^2(x)\,dx=\si^2. $$
  On peut par exemple choisir le noyau
  uniforme $K(x)=(2a)^{-1}\,\rI_{[-a,a]}(x)$ avec $a>0$ ou encore le noyau
  gaussien $K(x)=(2\pi)^{-n/2}\,\exp(-x^2/2)$. On estime $f$ par l'estimateur
  à noyau $\WH{f}_n$ défini $\forall x \in \dR$ par $$
  \WH{f}_n(x)=\frac{1}{n}\sum_{i=1}^n\frac{1}{h_i}K\PAR{\frac{X_i-x}{h_i}} $$
  où $h_n:=n^{-\al}$ avec $0<\al<1$. Montrer que $\WH{f}_n(x)\limPS{n}f(x)$ et
  que si $1/3<\al<1$, $$
  \sqrt{nh_n}\,\PAR{\WH{f}_n(x)-f(x)}%
  \limL{n}\cN\PAR{0,\frac{\si^2f(x)}{1+\al}}. $$
  Créer un code Matlab
  permettant d'illustrer cette méthode d'estimation de la densité par noyaux
  sur la loi normale $\cN(m,\si^2)$ et sur la loi exponentielle $\cE(\la)$, où
  les paramètres $m$, $\si^2$ et $\la>0$ sont affectés par l'utilisateur.
\end{exo}

\nocite{paul-toulouse}
\nocite{dacunha-castelle-duflo}
\nocite{saporta}

% {\tiny
\bibliographystyle{smfplain}
\bibliography{biblio}
% }

\end{document}