Le contexte et les notations de cette partie sont ceux des parties I et II. De plus, on suppose dans cette partie que pour tout $i$ de $[\![1,n]\!]$, la variable aléatoire $U_i$ suit une loi normale ${\cal N}(0,\sigma^2)$.
On pose $Y=\begin{pmatrix}Y_1\\ \vdots\\ Y_n\end{pmatrix}$ et $U=\begin{pmatrix}U_1\\ \vdots\\ U_n\end{pmatrix}$. Le modèle (1) de la partie II s'écrit alors matriciellement : $Y=M\theta+U$.
Soit $W_1,W_2,\dots,W_q$ ($q\in\mathbb N^*$), $q$ variables aléatoires réelles définies sur $(\Omega,{\cal A},P)$. On définit le vecteur aléatoire $(W_1,W_2,\dots,W_q)$ à valeurs dans $\mathbb R^q$, en associant à tout $\omega$ de $\Omega$ le vecteur $(W_1(\omega),W_2(\omega),\dots,W_q(\omega))$ de $\mathbb R^q$.
On dit que le vecteur aléatoire $(W_1,W_2,\dots,W_q)$ est normal si pour tout $q$-uplet $(\rho_1,\rho_2,\dots,\rho_q)$ de nombres réels, différent de $(0,0,\dots,0)$, la variable aléatoire $\sum_{i=1}^q\rho_iW_i$ suit une loi normale de variance non nulle.
Dans le cas où $(W_1,W_2,\dots,W_q)$ est normal, on admet que les variables aléatoires $W_1,W_2,\dots,W_q$ sont mutuellement indépendantes si et seulement si pour tout $(i,j)$ de $[\![1,q]\!]^2$ avec $i\neq j$, $Cov(W_i,W_j)=0$.
7.a) Montrer que le vecteur aléatoire $(Y_1,Y_2,\dots,Y_n)$ est normal mais que le vecteur $(Y_1-\bar Y_n,Y_2-\bar Y_n,\dots,Y_n-\bar Y_n)$ ne l'est pas.
On rappelle que la somme de variables aléatoires normales indépendantes est encore une variable aléatoire normale. Ici, on a que $$\sum_{i=1}^n\rho_iY_i=\sum_{i=1}^n\rho_i(ax_i+b+U_i)=\sum_{i/\rho_i\neq 0}(ax_i+b+U_i)$$ Comme les $U_i$ sont des lois normales, pour les $i$ tels que $\rho_i\neq 0$ les $\rho_i(ax_i+b+U_i)$ sont également des lois normales indépendantes. Par indépendance $\sum_{i/\rho_i\neq 0}\rho_i(ax_i+b+U_i)$ est également une loi normale. Donc $Y$ est normal.
Par contre $\sum_{i=1}^n(Y_i-\bar Y_n)=0$ n'est pas une loi normale donc $(Y_1-\bar Y_n,Y_2-\bar Y_n,\dots,Y_n-\bar Y_n)$ n'est pas normal.
b) Déterminer la loi de chacune des variables aléatoires $A_n$ et $B_n$. Le vecteur aléatoire $(A_n,B_n)$ est-il normal?
Comme $Y$ est normal et que les $\alpha_i$ sont non tous nuls (car les $x_i$ ne sont pas tous égaux), on en déduit que $A_n$ suit une loi normale.
Pour $B_n$ on a que $$B_n=\bar Y_n-A_n\bar x=\sum_{i=1}^nY_i\left(\frac{1}{n}-\bar x\sigma_i\right)$$ Là encore les $x_i$ n'étant pas tous égaux, les $\sigma_i$ non plus et donc les $\frac{1}{n}-\bar x\sigma_i$ ne sont pas tous égaux à $0$. $Y$ étant normal, on en déduit que $B_n$ suit une loi normale.
8. Soit $S$ une matrice inversible de ${\cal M}_n(\mathbb R)$. On note $T$ la matrice colonne des composantes du vecteur aléatoire $(T_1,T_2,\dots,T_n)$ telle que $T=SU$.
a) Montrer que le vecteur $(T_1,T_2,\dots,T_n)$ est normal.
Posons $s_{i,j}$ les composantes de la matrice $S$. Rappellons que si $S$ est inversible, $^t\!S$ aussi. En particulier si $(\rho_1,\dots,\rho_n)$ est différent de $(0,\dots,0)$ alors $^t\!S\begin{pmatrix}\rho_1\\ \vdots\\ \rho_n\end{pmatrix}$ est un vecteur non nul de composantes (non toutes nulles donc) $\sum_{i=1}^ns_{j,i}\rho_j$. Un fois observé cela on a que pour $(\rho_1,\dots,\rho_n)$ différent de $(0,\dots,0)$ : $$\sum_i\rho_iT_i=\sum_i\rho_i\sum_js_{i,j}U_j=\sum_i\sum_js_{i,j}\rho_iU_j$$ Il suit par normalité des $U_i$, le fait que $\sum_js_{i,j}$ ne soient pas tous nuls et l'indépendance des $U_i$ que $\sum_i\rho_iT_i$ suit une loi normale. Donc $(T_1,T_2,\dots,T_n)$ est normal.
b) On suppose que la matrice $S$ est orthogonale. Montrer que $T_1,T_2,\dots,T_n$ sont mutuellement indépendantes.
Observons que comme $S$ est orthogonale, on a la relation suivante $$(S^t\!S)_{i,j}=0\ si\ i\neq j.$$ Comme en préambule il est supposée que la covariance vérifie les règles classiques, on a que pour $i\neq j$ $$\begin{align} Cov(T_i,T_j)&=Cov((SU)_i,(SU)_j)\\ &=Cov(\sum_ks_{i,k}U_k,\sum_ls_{j,l}U_l)\\ &=\sum_ks_{i,k}\sum_ls_{j,l}Cov(U_k,U_l) \end{align}$$ Mais par indépendance des $U_i$ pour $k\neq l$, $Cov(U_k,U_l)$ et on a aussi $Cov(U_k,U_k)=V(U_k)=\sigma^2$ donc $$Cov(T_i,T_j)\sum_ks_{i,k}s_{k,j}\sigma^2=\sigma^2(S^t\!S)_{i,j}=0$$ Or pour des variable aléatoires normale, la covariance nulle implique l'indépendance donc les $T_i$ sont indépendantes.
9. Soit $\hat U_1,\hat U_2,\dots,\hat U_n$ les variables aléatoires qui ont été définies dans la question 6.
On note $\hat U$ la matrice colonne de composantes $\hat U_1,\hat U_2,\dots,\hat U_n$ définie par $\hat U=Y-M\begin{pmatrix}A_n\\ B_n\end{pmatrix}$.
a) Montrer que $\hat U=GU$, où la matrice $G$ a été définie dans la question 3.
C'est une réécriture de 3.d).
b) Justifier l'existence d'une matrice orthogonale $R$ de ${\cal M}_n(\mathbb R)$ et d'une matrice diagonale $D$ de ${\cal M}_n(\mathbb R)$, telles que $G=RD\ ^t\!R$. Quels sont les éléments diagonaux de $D$?
$G$ représente une projection orthogonale par rapport au produit scalaire canonique donc $G$ est diagonalisable avec des matrices de passages orthogonale, d'où l'existence de $R$. D'autre part $G$ représentant une projection su un espace de dimension $n-2$, ses valeurs propres sont $0$ ou $1$ donc sur la diagonale de $D$ il y a deux $0$ et $n-1$ $1$.
c) Soit $Z$ la matrice colonne de composantes $Z_1,Z_2,\dots,Z_n$ définie par $Z=\ ^t\!RU$. Quelle est la loi de $\sum_{i=1}^{n-2}Z_i^2$?
$^t\!R$ étant orthogonale, les composante de $^t\! RU$ sont des lois normales indépendantes d'après 8.a). D'autre part comme les $U_i$ sont d'espérance nulle, on vérifie également que c'est la cas pour $Z_i$ et comme $U_i$ est de variance $\sigma^2$ et que les lignes de $^t\!R$ sont de norme $1$, on a $$V(Z_i)=V(\sum_jr_{j,i}U_j)=\sum_jr_{j,i}^2\sigma^2=\sigma^2.$$ En résumé $Z_i\sim{\cal N}(0,\sigma^2)$ et par conséquent $Z_i^2\sim{\cal N}(2\sigma^2,\frac{1}{2})$. Enfin d'après 8.a), on sait que les $Z_i$ sont indépendantes donc par propriété de la loi Gamma $$\sum_{i=1}^{n-2}Z_i^2\sim\Gamma\left(2\sigma^2,\frac{n-2}{2}\right).$$
d) En déduire que la variable aléatoire $\sum_{i=1}^n\hat U_i^2$ suit la loi $\Gamma\left(2\sigma^2,\frac{n-2}{2}\right)$.
D'après 3.d) et 9.b) $$\sum_{i=1}^n\hat U_i^2=^t\!\hat UG\hat U=^t\!\hat URD^t\!R\hat U=^t\!(^t\!RU)D(^t\!RU)=^t\!ZDZ.$$ Or $D$ est une matrice diagonale avec $(n-2)$ valeures $1$ sur la diagonale et deux $0$, par conséquent $^t\!ZDZ$ a même loi que $\sum_{i=1}^{n-2}Z_i^2$. Donc d'après c) $\sum_{i=1}^n\hat U_i^2\sim \Gamma\left(2\sigma^2,\frac{n-2}{2}\right)$.
e) Soit $p$ un réel donné vérifiant $0<\!p<\!1$. Etablir l'existence d'un réel $c_n$ ne dépendant pas des paramètres inconnus $a$, $b$ et $\sigma^2$, tel que $P\left(\left[\sum_{i=1}^n\hat U_i^2\geq c_n\sigma^2\right]\right)=p$.
Posons $f$ une densité continue de la loi $\Gamma\left(2\sigma^2,\frac{n-2}{2}\right)$ qui ne dépend par conséquent que de $\sigma$ et $n$. Soit $x\geq 0$, considérons la fonction $$x\mapsto P\left(\left[\sum_{i=1}^n\hat U_i^2\geq x\sigma^2\right]\right)=\int_{x\sigma^2}^{+\infty}f(t)dt$$ On montre facilement que cette fonction est continue à valeurs dans $[0,1[$. Par le théorème des valeurs intermédiaires on en déduit l'existence de $c_n$ où $c_n$ ne dépendra que de $n$ et $\sigma$.
Dans les question 10 et 11, on suppose qu'une $(n+1)$-ième valeur de $\cal X$, notée $x_{n+1}$ est choisie mais que la valeur correspondante $y_{n+1}$ de ${\cal Y}$ est inconnue. On suppose que $y_{n+1}$ est la réalisation d'une variable aléatoire $Y_{n+1}$ qui vérifie $Y_{n+1}=ax_{n+1}+b+U_{n+1}$, où les variables aléatoires $U_1,U_2,\dots,U_{n+1}$ sont mutuellement indépendantes et de même loi ${\cal N}(0,\sigma^2)$.
10. On pose pour tout $n$-uplet $r=(r_1,r_2,\dots,r_n)$ de $\mathbb R^n$ : $\hat Y_{n+1}^{(r)}=\sum_{i=1}^nr_iY_i$.
L'ensemble $\{\hat Y_{n+1}^{(r)};r\in\mathbb R^n\}$ est l'ensemble des "prédicteurs linéaires" de $Y_{n+1}$.
a) Soit $g$ la fonction définie sur $\mathbb R^n$ à valeurs réelles, telle que pour tout $r=(r_1,r_2,\dots,r_n)$ de $\mathbb R^n$, $g(r_1,r_2,\dots,r_n)=\sum_{i=1}^nr_i^2$. On rappelle que pour tout $i$ de $[\![1,n]\!]$ : $\alpha_i=\frac{(x_i-\bar x)}{ns_x^2}$.
Montrer que la fonction $g$ admet un minimum absolu sous les contraintes $\sum_{i=1}^nr_i=1$ et $\sum_{i=1}^nx_ir_i=x_{n+1}$, atteint en l'unique point $r^*=(r_1^*,r_2^*,\dots,r_n^*)$, où pour tout $i$ de $[\![1,n]\!]$, $r_i^*=\frac{1}{n}+(x_{n+1}-\bar x)\alpha_i$.
On montre facilement à l'aide de 1.c) que les $r_i^*$ vérifient les contraintes. D'autre part comme la Hessienne de $g$ est une matrice diagonale avec diagonale positive $H=2I$, on en déduit que $$g(r_1^*+h_1,\dots,r_n^*+h_n)\geq g(r_1^*,\dots,r_2^*)+\nabla g(r_1^*,\dots,r_2^*).\begin{pmatrix}h_1\\ \vdots\\ h_n\end{pmatrix}=g(r_1^*,\dots,r_2^*)+\sum_{i=1}^nr_i^*h_i.$$ De plus les $r_i+h_i^*$ doivent vérifier les contraintes, la condition $\sum_{i=1}^nr_i=1$ implique que $\sum_{i=1}^nh_i=0$ et la condition $\sum_{i=1}^nx_ir_i=x_{n+1}$ implique que $\sum_{i=1}^nx_ih_i=0$. Il suit alors que $$\begin{align} \sum_{i=1}^nr_i^*h_i&=\frac{1}{n}\sum_{i=1}^nh_i+(x_{n+1}-\bar x)\sum_{i=1}^n\alpha_ih_i\\ &=\frac{(x_{n+1}-\bar x)}{ns_x^2}\sum_{i=1}^n(x_i-\bar x)h_i\\ &=\frac{(x_{n+1}-\bar x)}{ns_x^2}\left(\sum_{i=1}^nx_ih_i-\bar x\sum_{i=1}^n\bar x h_i\right)\\ &=0 \end{align}$$ Par conséquent $g(r_1^*+h_1,\dots,r_n^*+h_n)\geq g(r_1^*,\dots,r_2^*)$ ce qu'il fallait démontrer.
b) Montrer que parmi les prédicteurs linéaires $\hat Y_{n+1}^{(r)}$ de $Y_{n+1}$, qui vérifient $E(\hat Y_{n+1}^{(r)})=E(Y_{n+1})$ pour tout $(a,b)$ de $\mathbb R^2$, $\hat Y_{n+1}^{(r^*)}$ est celui de la plus petite variance.
On observe d'éjà que $E(Y_{n+1})=ax_{n+1}+b$ et que $$E(\hat Y_{n+1}^(r))=\sum_{i=1}^n$r_iE(Y_i)=a\sum_{i=1}^nr_ix_i+b\sum_{i=1}^nr_i$$ Comme on veut que $E(Y_{n+1})=E(\hat Y_{n+1}^(r))$ pour tout $(a,b)$, en posant $a=1$ et $b=0$ on retrouve la contrainte $\sum_{i=1}^nr_ix_i=1$ et en posant $a=0$ et $b=1$ on retrouve la contrainte $\sum_{i=1}^nr_i=x_{n+1}$. D'autre part par indépendance des $Y_i$, on a que $$V(\hat Y_{n+1}^(r))=\sum_{i=1}^nr_i^2V(Y_i)=\sigma^2g(r_1,\dots,r_n).$$ Minimiser la variance sous la contrainte $E(Y_{n+1})=E(\hat Y_{n+1}^(r))$ revient donc à minimiser $g$ sous les contraintes de la question 10.a).
Vérifier que $\hat Y_{n+1}^{(r^*)}=A_nx_{n+1}+B_n$.
Il suffit de remplacer les $r_i^*$ et cela vient tout seul!
11.a) déterminer la loi de la variable aléatoire $Y_{n+1}-(A_nx_{n+1}+B_n)$.
Grâce à 10.b), on a que $$Y_{n+1}-(A_nx_{n+1}+B_n)=Y_{n+1}-\hat Y_{n+1}^{(r^*)}=Y_{n+1}-\sum_{i=1}^nr_i^*Y_i.$$ Les $Y_i$ suivent des lois normales ${\cal N}(ax_i+b,\sigma^2)$ indépendantes, on en déduit alors que $$Y_{n+1}-(A_nx_{n+1}+B_n)\sim{\cal N}\left(ax_{n+1}+b-(ar_i^*x_i+b\sum_{i=1}^nr_i^*),\sigma^2+\sigma^2\sum_{i=1}^nr_i^2\right).$$ Mais grâce aux contraintes vérifiées par $r_i^*$ on a aussi que $$Y_{n+1}-(A_nx_{n+1}+B_n)\sim{\cal N}\left(0,\sigma^2+\sigma^2\sum_{i=1}^n(r_i^*)^2\right)={\cal N}\left(0,\sigma^2(1+g(r_1^*,\dots,r_n^*))\right)$$
b) On note $\Phi$ la fonction de répartition de la loi ${\cal N}(0,1)$. Soit $p$ un réel donné vérifiant $\frac{1}{2}<\!p<\!1$.
Justifier l'existence d'un réel $d_n$, que l'on exprimera à l'aide de $\Phi^{-1}$, ne dépendant pas de $a$, $b$ et $\sigma^2$, tel que $P([|Y_{n+1}-(A_nx_{n+1}+B)|\leq d_n\sigma])=p$.
D'après a) on sait que $\frac{Y_{n+1}-(A_nx_{n+1}+B_n)}{\sigma\sqrt{1+g(r_1^*,\dots,r_n^*)}}\sim{\cal N}(0,1)$. Don si on note $g$ la densité d'une loi Gaussienne centrée réduite, pour $x\geq 0$ $$\begin{align} P([|Y_{n+1}-(A_nx_{n+1}+B)|\leq x\sigma])&=P\left(\left[\frac{1}{\sigma\sqrt{1+g(r_1^*,\dots,r_n^*)}}|Y_{n+1}-(A_nx_{n+1}+B)|\leq \frac{x}{\sqrt{1+g(r_1^*,\dots,r_n^*)}}\right]\right)\\ &=\int_{-\frac{x}{\sqrt{1+g(r_1^*,\dots,r_n^*)}}}^{\frac{x}{\sqrt{1+g(r_1^*,\dots,r_n^*)}}}g(t)dt\\ &=2\int_{0}^{\frac{x}{\sqrt{1+g(r_1^*,\dots,r_n^*)}}}g(t)dt\\ &=2\int_{-\infty}^{\frac{x}{\sqrt{1+g(r_1^*,\dots,r_n^*)}}}g(t)dt-1\\ &=2\Phi\left(\frac{x}{\sqrt{1+g(r_1^*,\dots,r_n^*)}}\right)-1. \end{align}$$ On en déduit alors que $$d_n=\Phi^{-1}\left(\frac{p+1}{2}\right)\sqrt{1+g(r_1^*,\dots,r_n^*)}.$$
c) En déduire, à l'aide de la question 9.e), un intervalle dont les bornes ne dépendent que des $(Y_i)_{1\leq i\leq n}$, des $(x_i)_{1\leq i\leq n+1}$, de $c_n$ et $d_n$, qui contienne $Y_{n+1}$ avec une probabilité supérieure ou égale à $2p-1$.
L'encadrement recherché doit probablement être $$|Y_{n+1}-(A_nx_{n+1}+B)|\leq \frac{d_n}{\sqrt{c_n}}\sqrt{\sum_{i=1}^n\hat U_i^2}$$ mais j'avous ne pas savoir montrer pourquoi diable cela fait une proba de $2p-1$...
S'agit-il d'un intervalle de confiance au sens usuel du terme?
Un intervalle de confiance dans le sens usuel permet d'évaluer la valeur d'un paramètre fixe (déterministe) au cours du temps tel que l'espérance ou la variance. Ici l'intervalle de confiance concerne une variable aléatoire (donc non-déterministe), il a donc une valeur prédictive sur un objet fluctuant.
Pour afficher le fil des commentaires : Commentaires.
Pour poster un commentaire ou obtenir de l'aide : c'est ici!
L'insertion de formules suit la syntaxe LATEX. Toute formule doit être encadrée par des dollars : $\bf{\$formule\$}$. Par exemple $\bf{\$ u\_n \$}$ sera interprétée comme une formule et donnera $\bf{u_n}$. Voici quelques exemples pour ceux qui ne sont pas habitués :
Contacter l'auteur du site : frederic.millet @ math-sup.fr