\documentclass{pbsheet}

\TITRE{Feuille de TP n°7 \\ Vecteurs aléatoires et modèles linéaires gaussiens}
\FORMATION{Épreuve de modélisation - Agrégation Externe de Mathématiques}
\ETABLISSEMENT{Université Paul Sabatier Toulouse III}
\ANNEE{2004}
\MEL{chafai@math.ups-tlse.fr}
\AUTEUR{B. Bercu \& D. Chafaï}
\WEB{http://www.lsp.ups-tlse.fr/Chafai/agregation.html}
\DATE{Février 2004}

\begin{document}

%%
\section{Vecteurs aléatoires gaussiens}
%%

\begin{defi}
  Soit $X$ un vecteur aléatoire défini sur un espace de probabilité $(\Om,
  \cA, \dP)$, à valeurs dans $\dR^d$ avec $d\geq 1$.  $X$ est dit gaussien si
  toute combinaison linéaire de ses composantes est une v.a. gaussienne.
\end{defi}

\begin{rem}
\end{rem}

\begin{thm} 
  La loi d'un vecteur aléatoire gaussien est entièrement déterminée par son
  espérance $m=\dE(X)\in\dR^d$ et sa matrice de covariance
  $\Ga=\dE((X-m)(X-m)^\top)\in\dS_d^+$ où $\dS_d^+$ est le cône convexe des
  matrices carrées $d\times d$ symétriques positives (pas forécment
  inversibles).  Soit $X\sim \cN_d(m,\Ga)$.  Alors, pour tout $u\in \dR^d$, on
  a
  $$
  \Phi_X(u)=\dE\PAR{\exp(i\DP{u,X}}=\exp\PAR{i\DP{u,m}-\frac{1}{2}\DP{u,\Ga u}}
  $$
  où $i:=\sqrt{-1}$.
\end{thm}

\begin{thm}
  Soit $X\sim \cN_d(m,\Ga)$.  $X$ admet une densité $f_X$ par rapport à la
  mesure de Lebesgue de $\dR^d$ si et seulement si $\Ga$ est inversible et
  l'on a
  $$
  f_X(x)=((2\pi)^d\det\Ga)^{-1/2}\exp\PAR{-\frac{1}{2}\DP{x-m,\Ga^{-1}(x-m)}}.
  $$
\end{thm}

La loi particulière $\cN(0,I)$ où $I$ est la matrice identité de $\dR^d$ est
appelée \emph{gaussienne standard}. Dans tout ce texte, si $x$ et $y$ sont
dans $\dR^d$, alors $x^\top y:=\DP{x,y}:=x_1y_1+\cdots+x_dy_d$. Si
$X:=(X_1,\ldots,X_d)$ est un vecteur aléatoire de $\dR^d$, alors
$\dE(X):=(\dE(X_1),\ldots,\dE(X_d))$, idem pour l'espérence des matrices
aléatoires comme $XX^\top$ qui sont à prendre composante par composante. Voici
des propriétés fondamentales des vecteurs gaussiens.

\begin{enumerate}
\item[\textbf{P1.}]  Soit $X=(X_1,\ldots,X_d)$ un vecteur gaussien de
  matrice de covariance $\Ga$. On a les équivalences suivantes.
  \begin{enumerate}
  \item $(X_1,\ldots,X_d)$ sont deux à deux indépendantes.
  \item $(X_1,\ldots,X_d)$ sont indépendantes dans leur ensemble.
  \item La matrice $\Ga$ est diagonale.
  \end{enumerate}
\item[\textbf{P2.}] Soit $m \in \dR^d$ et $\Ga$ une matrice réelle, carrée
  d'ordre $d$, symétrique et semi-définie positive. Soit $A$ une matrice
  réelle, carrée d'ordre $d$, telle que $A^\top A=\Ga$.  Si $X\sim\cN_d(O,I)$
  et $Y=AX+m$, alors $Y\sim\cN_d(m,\Ga)$. Réciproquement, étant donnée une loi
  gaussienne $\cN(m,\Ga)$ et une matrice carrée $A$ telle que $\Ga=A^\top A$,
  alors si $X\sim\cN(m,I)$, on a $AX+m\sim\cN(m,\Ga)$. La matrice $A$ n'est
  pas unique, et peut être calculée par exemple par la méthode de Choleski
  (rapide) ou encore en considérant la racine carrée matricielle de $\Ga$
  obtenue par diagonalisation en base orthonormée (lent).
\item[\textbf{P3.}] Soit $Z=(X,Y)$ un vecteur gaussien de $\dR^{d+1}$ avec
  $X=(X_1,\ldots,X_d)$ d'espérance $m$ et de matrice de covariance inversible
  $\Ga$. Alors, la loi conditionnelle de $Y$ sachant $X$ est gaussienne
  d'espérance affine en $X$ $\dE(Y|X)=a+\DP{b,X}=\dE(Y)+\DP{b,X-m}$ et de
  variance $\var{}{Y|X}=\var{}{Y}-\DP{b,\Ga b}$ avec $a=\dE(Y)-\DP{b,m}$ et
  $b=\Ga^{-1}\cov{}{X}{Y}$. De plus, $\veps=Y-\dE(Y|X)$ est indépendante de $X$.
\end{enumerate}

\begin{exo}[Algorithme de Box-Muller]\label{exo:bm}
  Soit $(X,Y)$ un vecteur aléatoire de $\dR^2$.  Montrer que $(X,Y)$ suit la
  loi normale $\cN_2(0,I)$ si et seulement si $X=r\cos\te$ et $Y=r\sin\te$ où
  $r$ et $\te$ sont deux variables aléatoires indépendantes avec $r^2$ de loi
  exponentielle $\cE(1/2)$ et $\te$ de loi uniforme $\cU([0,2\pi])$. En
  déduire un code Matlab permettant de générer $N$ réalisations de variables
  aléatoires indépendantes et de loi normale $\cN(m,\si^2)$ où le nombre de
  réalisations $N$, la moyenne $m\in\dR$ et la variance $\si^2>0$ sont
  affectées par l'utilisateur.  Tracer l'histogramme associé à vos
  réalisations et le comparer à la fonction \texttt{dnorm} de Matlab.
\end{exo}

\begin{exo}
Soit $(X,Y)$ un vecteur aléatoire de $\dR^2$, de loi
uniforme sur le disque unité 
$$
\cD=\BRA{(x,y)\in\dR^2,\,x^2+y^2<1}.
$$
Soit $(r,\te)$ le couple de coordonnées polaires associé à $(X,Y)$,
$X=r\cos\te$ et $Y=r\sin\te$. Si $R=2\sqrt{-\log r}/r$, montrer que $(RX,RY)$
suit la loi normale $\cN_2(0,I)$. Reprendre l'exercice \ref{exo:bm} avec le
code Matlab suivant.
%
\begin{lstlisting}[language=Matlab]{}
N=input('Entrez la taille de l'échantillon N : '); 
max=round(3*N/2);
m=input('Précisez la valeur de la moyenne m : ');
sigma=input('Précisez la valeur de écart type : ');
X=2*rand(max,1)-ones(max,1); Y=2*rand(max,1)-ones(max,1);
S=X.^2+Y.^2; X=X(find(S<1)); Y=Y(find(S<1));
r=sqrt(X.^2+Y.^2); R=2*sqrt(-log(r))./r; Z=R(1:N).*X(1:N); 
T=m*ones(N,1)+sqrt(sigma^2)*Z;
\end{lstlisting}
%
\end{exo}

%%
\section{Modèles linéaires gaussiens}
%%

\begin{exo} On considère le modèle de régression 
linéaire gaussienne multiple défini, pour $p \geq 1$ et $n>p+1$,
par
$$
Y_i=a+b_1x_{i,1}+b_2x_{i,2}+\ldots+b_px_{i,p}+\veps_i,\,i=1,\ldots,n
$$
où pour $j=1,\ldots,p$, $(x_{i,j})_{i,j}$ est une suite de nombres réels
connus et où $(\veps_i)_i$ est une suite i.i.d. de loi $\cN(0,\si^2)$. Montrer
que le modèle peut s'écrire sous la forme matricielle $Y=X\te+\veps$ où $X$
est une matrice rectangulaire de dimension $n\times(p+1)$ à déterminer. On
suppose dans toute la suite que le modèle est identifiable i.e. la matrice $X$
est de rang plein égale à $p+1$. Déterminer les estimateurs des moindres
carrés $\WH{\te}=(\WH{a},\WH{b})$ et $\WH{\si}^2$ de $\te=(a,b)$ et $\si^2$.
Montrer que $\WH{\te}$ et $\WH{\si}^2$ sont indépendants,
$\WH{\te}\sim\cN(\te,\si^2(XX^\top)^{-1})$ et
$(n-p-1)\WH{\si}^2\sim\si^2\chi^2(n-p-1)$. En déduire que, pour $j=1,\ldots,p$
$$
\frac{\WH{a}-a}{\WH{\si}(\WH{a})}\sim t(n-p-1)
\text{\quad et \quad}
\frac{\WH{b}_j-b_j}{\WH{\si}(\WH{b}_j)}\sim t(n-p-1)
$$
avec $\WH{\si}^2(\WH{a})=\WH{\si}^2(XX^\top)^{-1}_{1,1}$ et
$\WH{\si}^2(\WH{b_j})=\WH{\si}^2(XX^\top)^{-1}_{j+1,j+1}$. On peut ainsi
effectuer des tests sur les valeurs $a$, $b_j$ et $\si^2$ et obtenir des
intervalles de confiance pour $a$, $b_j$ et $\si^2$. Montrer que, si $b=0$,
$\sum_{i=1}^n (\WH{a}+\WH{b}_1x_{i,1}+\cdots+\WH{b}_px_{i,p}-\OL{Y})^2/
p\WH{\si}^2\sim F(p,n-p-1)$. On peut ainsi tester $\rH_0\,$: «$b=0$» contre
$\rH_1\,$: «$b\neq0$» donc vérifier la significativité des variables
explicatives $(x_{ij})_{i,j}$ avec $j=1,\ldots,p$.
\end{exo}

\begin{exo}
  Créer un code Matlab permettant de générer une régression linéaire
  gaussienne multiple où les valeurs $n$, $p$, $a$, $b$ et $\si^2$ sont
  affectées par l'utilisateur et où, pour $j=1,\ldots,p$, $(x_{ij})_{i,j}$ est
  une réalisation d'un $n$-échantillon de loi uniforme sur $[0,1]$. Calculer
  les estimateurs des moindres carrés $\WH{\te}=(\WH{a},\WH{b})$ et
  $\WH{\si}^2$. Donner pour chaque paramètre $a$, $b$ et $\si^2$ un intervalle
  de confiance de risque $\al=5\%$.  Représenter graphiquement les $Y_i$ ainsi
  que les $\WH{Y}_i=\WH{a}+\WH{b}_1x_{i,1}+\cdots+\WH{b}_px_{i,p}$.  Reprendre
  cet exercice en faisant varier $n$, $p$, $a$, $b$ et $\si^2$ ainsi que la
  loi associée à $(x_{ij})_{i,j}$.
\end{exo}

\begin{exo}
  On souhaite étudier la variation du taux d'hémoglobine dans le sang au cours
  d'une opération chirurgicale en fonction de la durée de l'opération et du
  volume de sang perdu pendant l'opération. On dispose des résultats suivants
  où $y_i$ représente la valeur observée en pourcentage de la variation du
  taux d'hémoglobine, $x_{i,1}$ est la durée de l'opération en heures
  décimales et $x_{i,2}$ est le volume en litres de sang perdu.
\par\medskip
\begin{tabular}{|c|cccccccc|}\hline
  $y_i$ & -1.70 & -4.61 & -5.82 & -1.17 & -4.23 & -3.31 & +0.42 & -2.98\\
  $x_{i,1}$ & 1.75 & 1.33 & 1.43 & 1.86 & 1.81 & 1.66 & 1.60 & 2.00\\
  $x_{i,2}$ & 0.52 & 0.59 & 0.61 & 0.50 & 0.54 & 0.49 & 0.27 & 0.47\\
  \hline
\end{tabular}
\par\medskip
On suppose que $y_i$ est une réalisation d'une variable aléatoire $Y_i$ de loi
$\cN(a+b_1x_{i,1}+b_2x_{i,2},\si^2)$.  Etudier cette régression linéaire
multiple grâce à \texttt{lsfit} de Matlab. Tester l'hypothèse suivant laquelle
la variation du taux d'hémoglobine ne dépend ni de la durée de l'opération ni
du volume de sang perdu ou encore l'hypothèse suivant laquelle la variation du
taux d'hémoglobine ne dépend pas de la durée de l'opération.
\end{exo}

\end{document}