\documentclass{pbsheet}
\TITRE{Feuille de TP n°9 \\ Régions de confiance en modélisation}
\FORMATION{Épreuve de modélisation - Agrégation Externe de Mathématiques}
\ETABLISSEMENT{Université Paul Sabatier Toulouse III}
\ANNEE{2005}
\MEL{chafai@math.ups-tlse.fr}
\AUTEUR{B. Bercu \& D. Chafaï}
\WEB{http://www.lsp.ups-tlse.fr/Chafai/agregation.html}
\DATE{Novembre 2004}

\begin{document}

%%
\section{Estimation et région de confiance}
%%

On cherche à estimer un paramètre inconnu $\te$ d'une loi de probabilité
$\rP_\te$ sur un espace de probabilité $(\Om, \cA, \dP)$. On se place dans le
cadre paramétrique avec $\te\in\Te$ où $\Te \subset \dR^d$. Une idée naturelle
est d'estimer $\te$ à partir d'un $n$-échantillon $(X_1,\ldots,X_n)$ de loi
$\rP_\te$, à valeurs dans un espace mesurable
$(E, \cE)$.

\begin{defi}[Estimateurs]
  On appelle \emph{estimateur} de $\te$, basé sur les observations
  $(X_1,\ldots,X_n)$, tout vecteur aléatoire $\WH{\te}_n$ défini sur $(\Om,
  \cA, \dP)$ à valeurs dans $(\dR^d,\cB(\dR^d))$, de la forme $ \WH{\te}_n =
  h(X_1,\ldots,X_n) $ où $h$ est une application mesurable définie sur $(E,
  \cE)$ et à valeurs dans $(\dR^d,\cB(\dR^d))$.
\end{defi}

\begin{rem}
  $\WH{\te}_n$ ne dépend que des observations $(X_1,\ldots,X_n)$. À partir de
  $(X_1,\ldots,X_n)$, on peut construire plusieurs estimateurs de $\te$. Des
  «critères de qualité» permettent de comparer les différents estimateurs de
  $\te$.
\end{rem}

\begin{defi}[Propriétés des estimateurs]
  Soit $\WH{\te}_n$ un estimateur de $\te$. On appelle \emph{biais} et
  \emph{risque quadratique} de $\WH{\te}_n$ les quantités
  $$
  B_n(\te):=\dE_{\te}\PAR{\WH{\te}_n -\te\,}
  \text{\quad et \quad}
  R_n(\te):=\dE_{\te}\PAR{\parallel\WH{\te}_n -\te\parallel^2}.
  $$
  On dit que $\WH{\te}_n$ est un \emph{estimateur sans biais} de $\te$ si
  $B_n(\te)=0$ donc $\dE_{\te}(\WH{\te}_n) =\te$ pour tout $\te \in \Te$.
  $\WH{\te}_n$ est un \emph{estimateur consistant} de $\te$ si $\WH{\te}_n
  \rightarrow \te$ en probabilité, pour tout $\te \in \Te$ et $\WH{\te}_n$ est
  un \emph{estimateur fortement consistant} de $\te$ si $\WH{\te}_n
  \rightarrow \te$ p.s. pour tout $\te \in \Te$.
\end{defi}

\begin{defi}[Région de confiance]
  Pour un paramètre inconnu $\te\in\Te$, on appelle \emph{région de confiance}
  pour $\te$, de \emph{niveau de confiance} $1-\al$ avec $0<\al<1$, tout
  sous-ensemble mesurable aléatoire $\cC=\cC(X_1,\ldots,X_n)$ de $\dR^d$,
  dépendant des observations $(X_1,\ldots,X_n)$, telle que $\dP(\te\in\cC)
  \geq 1-\al$. Si $d=1$, on parle alors d'\emph{intervalle de confiance}.
\end{defi}

%%
\section{Intervalle de confiance d'une moyenne}
%%

Soit $(X_1,\ldots,X_n)$ un $n$-échantillon de moyenne $m$ et de variance
$\si^2$. On cherche à construire un intervalle de confiance pour $m$ en
utilisant la moyenne empirique et la variance empirique définies par 
\begin{equation*}
  \OL{X}_n:=\frac{1}{n}\sum_{k=1}^nX_k \text{\quad et \quad}
  \si_n^2:=\frac{1}{n-1}\sum_{k=1}^n(X_k-\OL{X}_n)^2. 
\end{equation*}

%
\subsection{Variance connue}
%

On suppose que la variance $\si^2$ est connue alors que la variance $\si^2$
est connue.  La moyenne empirique $\OL{X}_n$ est un estimateur sans biais et
fortement consistant de $m$. De plus, on a
$$
\sqrt{n}\PAR{\frac{\OL{X}_n - m}{\si}} \limL{n} \cN(0,1)
$$
En raison de la symétrie de la loi normale, on a l'intervalle de confiance 
symétrique de niveau de confiance asymptotique $1-\al$ suivant
$$
I=\SBRA{
  \OL{X}_n - q_{1-\al/2}\frac{\si}{\sqrt{n}}
  \,,\,
  \OL{X}_n + q_{1-\al/2}\frac{\si}{\sqrt{n}}},
$$
où $q_{1-\al/2}$ est le quantile $1-\al/2$ de $\cN(0,1)$. Faire un dessin !
Cet intervalle de confiance devient exact (et non plus seulement asymptotique)
lorsque l'échantillon suit la loi $\cN(m,\si^2)$.

%
\subsection{Variance inconnue}
%

On suppose que la variance $\si^2$ est inconnue alors que la moyenne $m$ est
connue. La quantité $\si_n^2$ est un estimateur sans biais et fortement
consistant de $\si^2$. De plus, on a 
\begin{equation*}
  \sqrt{n}\PAR{\frac{\OL{X}_n -
      m}{\si_n}}\limL{n} \cN(0,1). 
\end{equation*}
On a donc un intervalle de confiance symétrique de niveau de confiance
asymptotique $1-\al$ suivant 
\begin{equation*}
  I=\SBRA{\OL{X}_n - q_{1-\al/2}\frac{\si_n}{\sqrt{n}} 
    \,,\, 
    \OL{X}_n + q_{1-\al/2}\frac{\si_n}{\sqrt{n}}}, 
\end{equation*}
où $q_{1-\al/2}$ est le quantile $1-\al/2$ de $\cN(0,1)$. Lorsque
l'échantillon est de loi normale $\cN(m,\si^2)$, on peut faire mieux que
l'intervalle de confiance ci-dessus car on a alors $(n-1)\si^{-2}\si_n^2 \sim
\chi^2(n-1)$ et $$
\sqrt{n}\PAR{\frac{\OL{X}_n - m}{\si_n}}\sim t(n-1). $$
Comme la loi de Student est symétrique, on a un intervalle de confiance
symétrique de niveau de confiance asymptotique $1-\al$ suivant
\begin{equation*}
  I=\SBRA{\OL{X}_n - q_{1-\al/2}\frac{S_n}{\sqrt{n}}
    \,,\,
    \OL{X}_n + q_{1-\al/2}\frac{S_n}{\sqrt{n}}}
\end{equation*}
où $q_{1-\al/2}$ est le quantile $1-\al/2$ de la loi $t(n-1)$.

%%
\section{Intervalle de confiance d'une proportion}
%%

On considère une population contenant deux types d'individus $A$ et $B$. On
cherche à construire un intervalle de confiance de la proportion $p$
d'individus de type $A$. Pour ce faire, on effectue un sondage sur un
échantillon de $n$ individus. Pour $1\leq k \leq n$, soit $X_k$ la v.a.
prenant la valeur $1$ si le $k\ieme$ individu répond qu'il est de type $A$ et
la valeur $0$ sinon. La suite $(X_1,\ldots,X_n)$ est donc un $n$-échantillon
de loi de Bernoulli $\cB(p)$. Ici, $p$ joue le rôle de $\te$, $\Te=[0,1]$ et
$\rP_\te=\cB(p)$. La moyenne empirique $\OL{X}_n$ est un estimateur sans biais
et fortement consistant de $p$. De plus, on a 
\begin{equation*}
  \sqrt{n}\frac{\OL{X}_n -
    p}{\sqrt{\OL{X}_n (1-\OL{X}_n)}} \limL{n} \cN(0,1).
\end{equation*}
On a l'intervalle de confiance symétrique de niveau asymptotique $1-\al$
suivant
\begin{equation*}
  I=\SBRA{%
    \OL{X}_n - q_{1-\al/2}\sqrt{\frac{\OL{X}_n (1-\OL{X}_n)}{n}} %
    \,,\,%
    \OL{X}_n + q_{1-\al/2}\sqrt{\frac{\OL{X}_n (1-\OL{X}_n)}{n}}},
\end{equation*}
où $q_{1-\al/2}$ est le quantile $1-\al/2$ de $\cN(0,1)$.

%%
\section{Intervalle de confiance d'une variance -- cas gaussien}
%%

On suppose maintenant que $(X_1,\ldots,X_n)$ est un $n$-échantillon de loi
normale $\cN(m,\si^2)$. On cherche à construire un intervalle de confiance
pour $\si^2$.

%
\subsection{Moyenne connue}
%

On suppose que la moyenne $m$ est connue. On utilise alors
\begin{equation*}
  V_n=\frac{1}{\si^2}\sum_{k=1}^n(X_k-m)^2.
\end{equation*}
Comme $V_n \sim \chi^2(n)$ et que la loi du khi-deux n'est pas symétrique, on
l'intervalle de confiance de niveau $1-\al$
\begin{equation*}
  I=\SBRA{\frac{1}{b}\sum_{k=1}^n(X_k-m)^2, \frac{1}{a}\sum_{k=1}^n(X_k-m)^2}
\end{equation*}
où $a$ et $b$ sont les quantiles de $\chi^2(n)$ choisis de sorte que
$\dP(a\leq Z \leq b)=1-\al$ si $Z\sim\chi^2(n)$. On peut par exemple prendre
pour $a$ le quantile $\al/2$ et pour $b$ le quantile $1-\al/2$.

%
\subsection{Moyenne inconnue}
%

Si la moyenne $m$ est inconnue, on a déjà vu que $(n-1)\si^{-2}\si_n^2 \sim
\chi^2(n-1)$. On a donc l'intervalle de confiance de niveau de confiance
$1-\al$
\begin{equation*}
  I=\SBRA{\PAR{\frac{n-1}{b}}\si_n^2\,,\,\PAR{\frac{n-1}{a}}\si_n^2},
\end{equation*}
où $a$ et $b$ sont les quantiles de $\chi^2(n-1)$ choisis de sorte que
$\dP(a\leq Z \leq b)=1-\al$ si $Z\sim \chi^2(n-1)$. On peut par exemple
prendre pour $a$ le quantile $\al/2$ et pour $b$ le quantile $1-\al/2$.

%%
\section{Région de confiance pour la moyenne et la variance -- cas gaussien}
%%

On suppose encore que $(X_1,\ldots,X_n)$ est un $n$-échantillon de loi normale
$\cN(m,\si^2)$. On cherche à construire une région de confiance pour le couple
$(m,\si^2)$. Si 
\begin{equation*}
  Z_n=\sqrt{n}\PAR{\frac{\OL{X}_n - m}{\si}} \text{\quad et
    \quad} T_n=\PAR{\frac{n-1}{\si^2}}\si_n^2 
\end{equation*}
alors, par le théorème de
Cochran, $(Z_n,T_n)\sim \cN(0,1)\otimes \chi^2(n-1)$. On a donc une région de
confiance de niveau $1-\al$
\begin{equation*}
  \cC=\BRA{\OL{X}_n -c\frac{\si}{\sqrt{n}}\leq m \leq \OL{X}_n
    +c\frac{\si}{\sqrt{n}} \text{\quad et \quad}
    \PAR{\frac{n-1}{b}}\si_n^2\leq \si^2 \leq 
    \PAR{\frac{n-1}{a}}\si_n^2}
\end{equation*}
avec $\al=\be+\ga-\be\ga$ et $\dP(|Z|\leq c)=1-\be$ où $Z\sim\cN(0,1)$ et
$\dP(a\leq T \leq b)=1-\ga$ où $T\sim \chi^2(n-1)$. Cette région de confiance
est délimitée par une parabole et deux droites (faites donc un dessin !).

\begin{exo} 
  Écrire un programme permettant de générer un $n$-échantillon de loi de
  Bernoulli $\cB(p)$ où le nombre de réalisations $n$ et le paramètre $p$ sont
  affectés par l'utilisateur. Donner un intervalle de confiance à $95\%$ pour
  $p$. Reproduire $N$ fois la simulation précédente et déterminer le nombre de
  fois où l'intervalle de confiance proposé contient bien le véritable
  paramètre $p$.
\end{exo}

\begin{exo}
  Écrire un programme permettant de générer un $n$-échantillon de loi normale
  $\cN(m,\si^2)$ où le nombre de réalisations $n$, la moyenne $m$ et la
  variance $\si^2>0$ sont affectés par l'utilisateur. Déterminer des
  intervalles de confiance à $95\%$ pour $m$ et $\si^2$. Tracer dans le plan
  une région de confiance à $95\%$ pour le couple $(m,\si^2)$. Reproduire $N$
  fois la simulation précédente et déterminer le nombre de fois où la région
  de confiance proposée contient bien le couple $(m,\si^2)$.
\end{exo}

\begin{exo}
  La durée du processus d'atterrissage d'un avion est le temps, mesuré en
  secondes, qui s'écoule entre la prise en charge par la tour de contrôle
  jusqu'à l'immobilisation totale de l'appareil sur la piste. Afin de faire
  face au flux croissant des avions se posant à l'aéroport de
  Toulouse-Blagnac, une restructuration des services de la tour de contrôle,
  visant à diminuer la durée du processus d'atterrissage est réalisée.
  Auparavant, cette durée s'élevait en moyenne à $160$ secondes. À la suite de
  la restructuration, une enquête, effectuée sur un échantillon de $1000$
  avions, a produit les résultats suivants:
  \begin{center}
    \begin{tabular}{|c|c|c|c|c|c|c|}\hline
      Durée de l'atterrissage & %
      [60,120[ & [120,140[ & [140,160[ & [160,180[ & [180,200[ & [200,260[\\
      \hline
      Nombre d'avions & 112 & 176 & 247 & 214 & 157& 94 \\
      \hline
    \end{tabular}
  \end{center}
  En supposant les données gaussiennes, déterminer un intervalle de confiance
  à $95\%$ pour la moyenne de la durée du processus d'atterrissage ainsi que
  pour la variance associée. Peut-on affirmer, avec un niveau de confiance de
  $95\%$, que la durée du processus d'atterrissage a été diminuée par la
  restructuration ?
\end{exo}

\begin{exo}
  Une tablette de chocolat sera qualifiée de qualité supérieure si elle
  contient une teneur en cacao supérieure à 430 grammes par kilogramme. On
  effectue un contrôle de qualité sur un échantillon de $10$ tablettes de
  chocolat et on obtient les teneurs en cacao suivantes.
  \begin{center}
    \begin{tabular}{|c|c|c|c|c|c|c|c|c|c|}\hline
      505,1 & 423,5 & 462,0 & 391,9& 
      412,1& 487,2 & 439,0 & 434,1 & 441,1 & 474,2 \\
      \hline
    \end{tabular}
  \end{center}
  Dans le cadre gaussien, déterminer un intervalle de confiance à $95\%$ pour
  la moyenne de la teneur en cacao. Le chocolat est-il de qualité supérieure ?
\end{exo}

\begin{exo}
  Sur un échantillon de $1000$ amateurs de café, $300$ individus interrogés
  préfèrent le robusta à l'arabica.  Donner un intervalle de confiance à
  $99\%$ de la proportion d'individus préférant le robusta à l'arabica.
\end{exo}

\begin{exo}
  On désire estimer le nombre $N$ d'individus d'une espèce animale vivant sur
  une île. Pour ce faire, on capture $800$ individus. Ces individus sont
  marqués, puis relâchés.  Ensuite, on recapture ultérieurement $1000$ animaux
  parmi lesquels on dénombre $250$ animaux marqués. En déduire un intervalle
  de confiance à $95\%$ pour $N$.
\end{exo}

\begin{exo}
  Vous pouvez consulter plus d'une vingtaine de bases de données fournies par
  Stixbox de Matlab. Pour les utiliser, il suffit de taper la commande Matlab
  \texttt{getdata} fournie par la bibliothèque Stixbox. Déterminer des
  intervalles de confiance pour les moyennes et variances associées à ces
  bases de données, par exemple les bases 8, 18, 23, en utilisant la commande
  \texttt{test1n}.
\end{exo}

%

\nocite{saporta}
\nocite{dacunha-castelle-duflo}

% {\tiny
\bibliographystyle{smfplain}
\bibliography{biblio}
% }

\end{document} %

%