Corrigé HEC math II 2012
Toutes les variables aléatoires qui interviennent dans ce problème sont réelles et définies sur un meême espace probabilisé , où P peut dépendre de paramètres réels inconnus a,b,\sigma etc; elles admettent toutes une espérance et une variance : si J désigne l'une de ces variables aléatoires, on note E(J) son espérance et V(J) sa variance.
Si J_1,J_2 et J_1+J_2 sont des variables aléatoires à densité, on admet alors l'existence de la covariance de J_1 et J_2, notée Cov(J_1,J_2), qui est définie par la formule : Cov(J_1,J_2)=\frac{1}{2}\left(V(J_1+J_2)-V(J_1)-V(J_2)\right).
On admet que les covariances de variables aléatoires à densité vérifient les même règles de calcul que celles des variables aléatoires discrètes.
Pour tout (k,l) de (\mathbb N^*)^2, on note {\cal M}_{k,l}(\mathbb R) l'ensemble des matrices à k lignes et l colonnes à coefficients réels; on note {\cal M}_k(\mathbb R) l'ensemble des matrices carrées d'ordre k.
On note ^t\!Q la transposée d'une matrice Q.
Dans tout le problème, n désigne un entier supérieur ou égal à 3.
L'objet du problème est l'étude de quelques propriétés du modèle de régression linéaire élémentaire.
PARTIE I. Quelques résultats statistiques et algébriques.
On considère une population d'individus statistiques dans laquelle on étudie deux caractères quantitatifs \cal X et \cal Y. On extrait de cette population un échantillon de n individus sélectionnés selon des valeurs choisies du caractère \cal X et numérotés de 1 à n.
Pour tout i de [\![1,n]\!], les réels x_i et y_i sont les observations respectives de \cal X et de \cal Y pour l'individu i de l'échantillon. On suppose que les réels x_1,x_2,\dots,x_n ne sont pas tous égaux.
Soit a et b deux paramètres réels. On pose pour tout i de [\![1,n]\!] : u_i=y_i-(ax_i+b). (\star)
1. On note \bar x (resp. \bar y) et s_x^2 (resp. s_y^2) la moyenne empirique et la variance empirique de la série statistique (x_i)_{1\leq i\leq n} (resp. (y_i)_{1\leq i\leq n}); on rappelle que : \bar x=\frac{1}{n}\sum_{i=1}^nx_i et s_x^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2.
a) Montrer que s_x^2>0.
Afficher
Puisque tous les x_i ne sont pas identique, il existe forcément un x_i qui soit différent de \bar x et par conséquent s_x^2>0.
b) Etablir les formules : \sum_{i=1}^n(x_i-\bar x)y_i=\sum_{i=1}^n(x_iy_i)-n\bar x\bar y et \sum_{i=1}^n(x_i-\bar x)^2=\sum_{i=1}^n(x_i^2)-n\bar x^2.
Afficher
On utilise à fond la linéarité des sommes finies. Pour la première somme :
\begin{align}
\sum_{i=1}^n(x_i-\bar x)y_i&=\sum_{i=1}^nx_iy_i-\bar x\sum_{i=1}^ny_i\\
&=\sum_{i=1}^nx_iy_i-\bar x\frac{n}{n}\sum_{i=1}^ny_i\\
&=\sum_{i=1}^n(x_iy_i)-n\bar x\bar y.
\end{align}
et pour la seconde somme
\begin{align}
\sum_{i=1}^n(x_i-\bar x)^2&=\sum_{i=1}^n(x_i^2-2x_i\bar x+\bar x^2)\\
&=\sum_{i=1}^nx_i^2-2\bar x\sum_{i=1}^nx_i+n\bar x^2\\
&=\sum_{i=1}^nx_i^2-2n\bar x^2+n\bar x^2\\
&=\sum_{i=1}^nx_i^2-n\bar x^2.
\end{align}
c) On pose pour tout i de [\![1,n]\!] : \alpha_i=\frac{(x_i-\bar x)}{ns_x^2}. Montrer que : \sum_{i=1}^n\alpha_i=0, \sum_{i=1}^n\alpha_ix_i=1 et \sum_{i=1}^n\alpha_i^2=\frac{1}{ns_x^2}.
Afficher
Pour la première
\begin{align}
\sum_{i=1}^n\alpha_i&=\sum_{i=1}^n\frac{(x_i-\bar x)}{ns_x^2}\\
&=\frac{1}{ns_x^2}\sum_{i=1}^n(x_i-\bar x)\\
&=\frac{1}{ns_x^2}\left(\sum_{i=1}^nx_i-n\bar x\right)\\
&=\frac{1}{ns_x^2}\left(n\bar x-n\bar x\right)\\
&=0.
\end{align}
pour la seconde
\begin{align}
\sum_{i=1}^n\alpha_ix_i&=\sum_{i=1}^n\alpha_i(x_i-\bar x+\bar x)\\
&=\sum_{i=1}^n\alpha_i(x_i-\bar x)+\bar x\sum_{i=1}^n\alpha_i\\
&=\sum_{i=1}^n\alpha_i(x_i-\bar x)\\
&=\frac{1}{ns_x^2}\sum_{i=1}^n(x_i-\bar x)^2\\
&=\frac{ns_x^2}{ns_x^2}\\
&=1
\end{align}
et pour la troisième
\sum_{i=1}^n\alpha_i^2=\frac{1}{(ns_x^2)^2}\sum_{i=1}^n(x_i-\bar x)^2=\frac{ns_x^2}{(ns_x^2)^2}=\frac{1}{(ns_x^2)^2}.
2. On pose : y=\begin{pmatrix}y_1\\ \vdots\\ y_n\end{pmatrix}\in{\cal M}_{n,1}(\mathbb R), u=\begin{pmatrix}u_1\\ \vdots\\ u_n\end{pmatrix}\in{\cal M}_{n,1}(\mathbb R), \theta=\begin{pmatrix}a\\ b\end{pmatrix}\in{\cal M}_{2,1}(\mathbb R) et M=\begin{pmatrix}x_1 & 1\\ \vdots & \vdots\\ x_n & 1\end{pmatrix}\in{\cal M}_{n,2}(\mathbb R).
Les n relations (\star) s'écrivent sous la forme matricielle suivante : y=M\theta+u.
a) Quel est le rang de la matrice M?
Afficher
Puisque les x_i ne sont pas tous identiques, les deux colonnes de M ne sont pas colinéaires. Par conséquent M est de rang 2.
b) Calculer la matrice ^t\!MM et justifier son inversibilité.
Afficher
En utilisant 1.b), on a que
^t\!MM=\begin{pmatrix}\sum_{i=1}^nx_i^2 & \sum_{i=1}^nx_i\\ \sum_{i=1}^nx_i & n\end{pmatrix}=\begin{pmatrix}s_x^2+n\bar x^2 & n\bar x\\ n\bar x & n\end{pmatrix}
mais cette matrice 2\times 2 est inversible si la quantité suivante est non nulle
(s_x^2+n\bar x^2)n-(n\bar x)^2=ns_x^2.
Or cette dernière quantité est non nulle d'après 1.a).
3. L'espace vectoriel \mathbb R^n est muni de sa structure Euclidienne canonique. Soit \cal F le sous-espace vectoriel engendré par les vecteurs (x_1,x_2,\dots,x_n) et (1,1,\dots,1) de \mathbb R^n. On note K la matrice du projecteur orthogonal de \mathbb R^n sur \cal F dans la base canonique de \mathbb R^n et G=I-K, où I désigne la matrice identité de {\cal M}_n(\mathbb R).
a) On cherche les matrices \theta=\begin{pmatrix}a\\ b\end{pmatrix} de {\cal M}_{2,1}(\mathbb R) qui minimisent \sum_{i=1}^nu_i^2=\sum_{i=1}^n(y_i-(ax_i+b))^2.
Montrer que ce problème admet une unique solution \hat\theta=\begin{pmatrix}\hat a\\ \hat b\end{pmatrix} et qu'elle vérifie la relation : ^t\!MM\hat\theta=^t\!My.
Afficher
On remarque que minimiser la fonction revient à chercher la distance entre y et l'espace vectoriel \cal F. On sait que ce minimum est atteint en un unique point de \cal F qui est la projection orthogonale de y sur \cal F. En écrivant cette idée avec les notation données, cela revient à dire que y-M\hat\theta est orthogonal à \cal F, \cal F qui est en fait Im M. On doit donc avoir pour tout X\in{\cal M}_{2,1}(\mathbb R)
<\ y-M\hat\theta,MX>=0\Longleftrightarrow <\ ^t\!My-^t\!MM\hat\theta,X>=0\Longleftrightarrow ^t\!MM\hat\theta-^t\!My=0
et la relation recherchée suit.
b) Montrer que : \hat a=\sum_{i=1}^n\alpha_iy_i et \hat b=\bar y-\hat a\bar x.
Afficher
On peut soit inverser l'équation ^t\!MM\hat\theta=^t\!My ou, ce qui est probablement le plus simple, de se rappeler que \hat\theta est un point critique de la fonction \psi(a,b)=\sum_{i=1}^n(y_i-(ax_i+b))^2.
c) Exprimer K en fonction de M et ^t\!M.
Afficher
On sait que \hat \theta vérifie la relation ^t\!MM\hat\theta=^t\!My et que ^t\!MM est inversible donc \hat\theta=(^t\!MM)^{-1}\ ^t\!My. Mais M\hat\theta est le projeté orthogonal de y sur \cal F, par conséquant on en déduit que
K=M(^t\!MM)^{-1}\ ^t\!M.
d) Soit \hat u la matrice colonne de {\cal M}_{n,1}(\mathbb R) de composantes \hat u_1,\hat u_2,\dots,\hat u_n définie par \hat u=y-M\hat\theta. Montrer que : \hat u=Gy=Gu.
Afficher
D'après la discussion faite en c)
\hat u=y-M(^t\!MM)^{-1}\ ^t\!My=y-Ky=(I-K)y=Gy
d'autre part comme u=y-ax-b\begin{pmatrix}1\\ \vdots\\ 1\end{pmatrix} et que G représente le projecteur sur l'espace orthogonal à \cal F, on a que Gu=Gy.
En déduire les égalités : ^t\!\hat u\hat u=\sum_{i=1}^n\hat u_i^2=^t\!yGy=^t\!uGu.
Afficher
On a ^t\!\hat u\hat u=^t\!(Gu)Gu=^t\!u^t\!GGu. Mais G représente une projection pour le produit scalaire canonique donc ^tG=G et GG=G. Par conséquent ^t\!\hat u\hat u=^t\!uGu.
PARTIE II. Le modèle de régression linéaire
Le contexte et les notations sont ceux de la partie I. Dans cette partie, on cherche à modéliser les fluctuations aléatoires du caractère \cal Y sur l'échantillon.
Les hypothèses du modèle de régression linéaire élémentaire sont les suivantes :
- les réels a et b sont des paramètres inconnus;
- pour tout i de [\![1,n]\!], la valeur x_i du caractère \cal X est connue et la valeu y_i du caractère y_i du caractère \cal Y est la réalisation d'une variable aléatoire Y_i;
- pour tout i de [\![1,n]\!], Y_i est la somme d'une composante déterministe ax_i+b, la fonction affine de la valeur choisie x_i et d'une composante aléatoire U_i.
- les variables aléatoires U_1,U_2,\dots,U_n sont mutuellement indépendantes, de même loi, possède une densité, et pour tout i de [\![1,n]\!] : E(U_i)=0 et V(U_i)=\sigma^2, où le paramètre inconnu \sigma est strictement positif.
Le modèle de régression linéaire s'écrit alors : pour tout i de [\![1,n]\!], Y_i=ax_i+b+U_i (1).
L'objectif consiste à estimer les paramètres inconnus a, b et \sigma^2 du modèle (1).
On pose pour tout n\geq 3 : \bar Y_n=\frac{1}{n}\sum_{i=1}^nY_i et \bar U_n=\frac{1}{n}\sum_{i=1}^nU_i.
4. On note A_n et B_n les deux variables aléatoires définies par : A_n=\sum_{i=1}^n\alpha_i Y_i et B_n=\bar Y_n-A_n\bar x, où le réel \alpha_i a été défini dans la question 1.c).
a) Montrer que A_n et B_n sont des estimateurs sans biais de a et b respectivement.
Afficher
En utilisant la linéarité de l'espérance et les égalités de 1.c) on a
\begin{align}
E(A_n)&=\sum_{i=1}^n\alpha_iE(Y_i)\\
&=\sum_{i=1}^n\alpha_i(ax_i+b+0)\\
&=a\sum_{i=1}^n\alpha_ix_i+b\sum_{i=1}^n\alpha_i\\
&=a,
\end{align}
donc A_n est bien un estimateur de a. D'autre part pour B_n
\begin{align}
E(B_n)&=E(\bar Y_n)-\bar xE(A_n)\\
&=\frac{1}{n}\sum_{i=1}^nE(Y_i)-a\bar x\\
&=\frac{1}{n}\sum_{i=1}^n(ax_i+b)-a\bar x\\
&=a\frac{1}{n}\sum_{i=1}^nx_i+b\frac{1}{n}\sum_{i=1}^n1-a\bar x\\
&=a\bar x+b-a\bar x\\
&=b
\end{align}
donc B_n est aussi un estimateur sans biais de b.
b) Etablir les formules suivantes : V(A_n)=\frac{\sigma^2}{ns_x^2} et V(B_n)=\left(1+\frac{\bar x^2}{s_x^2}\right)\frac{\sigma^2}{n}.
Afficher
On observe que les Y_i car les U_i le sont. Par conséquent on peut faire les manipulations suivantes sur la variance de A_n
\begin{align}
V(A_n)&=\sum_{i=1}^nV(\alpha_iY_i)\text{ (par indépendance)}\\
&=\sum_{i=1}^n\alpha_i^2V(Y_i)\\
&=\sum_{i=1}^n\alpha_i^2V(U_i)\\
&=\sum_{i=1}^n\alpha_i^2\sigma^2\\
&=\frac{\sigma^2}{ns_x^2}\text{ (d'après 1.c))}
\end{align}
Pour V(B_n) on procède comme suit
\begin{align}
V(B_n)&=V\left(\sum_{i=1}^nY_i\left(\frac{1}{n}-\bar x\alpha_i\right)\right)\\
&=\sum_{i=1}^nV\left(Y_i\left(\frac{1}{n}-\bar x\alpha_i\right)\right)\text{ (par indépendance)}\\
&=\sum_{i=1}^n\left(\frac{1}{n}-\bar x\alpha_i\right)^2V(Y_i)\\
&=\sum_{i=1}^n\left(\frac{1}{n}-\bar x\alpha_i\right)^2\sigma^2\\
&=\left(\frac{1}{n}\sum_{i=1}^n1-\frac{2\bar x}{n}\sum_{i=1}^n\alpha_i-\bar x^2\sum_{i=1}^n\alpha_i^2\right)\sigma^2\\
&=\left(1+\frac{\bar x^2}{s_x^2}\right)\frac{\sigma^2}{n}\text{ (en utilisant les formules de 1.c))}
\end{align}
Calculer Cov(A_n,B_n).
Afficher
En procédant à des manipulations semblables à précédemment, on trouve ceci
Cov(A_n,B_n)=-\frac{\sigma^2\bar x}{ns_x^2}.
5. Dans cette question uniquement, l'entier n n'est plus fixé. On suppose l'existence de \lambda=\lim_{n\to+\infty}\frac{1}{n}\sum_{i=1}^nx_i et \mu^2=\lim_{n\to+\infty}\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2, avec (\lambda,\mu)\in\mathbb R\times\mathbb R_+^*.
Montrer que les deux suites (A_n)_{n\geq 3} et (B_n)_{n\geq 3} convergent en probabilité vers a et b respectivement.
Afficher
Par l'inégalité de Bienaymé-Tcebychev, on a que pour tout \epsilon>0
P(|A_n-a|>\epsilon)=P(|A_n-E(A_n)|>\epsilon)=\leq\frac{V(A_n)}{\epsilon^2}=\frac{\sigma^2}{\epsilon^2ns_x^2}.
mais par hypothèse s_x^2 converge (avec n) vers \mu\neq 0. Par conséquent \lim_{n\to+\infty}P(|A_n-a|>\epsilon)=0, c'est à dire que A_n converge vers a en probabilité. Pour B_n on raisonne de la même façon.
6.a) On pose pour tout i de [\![1,n]\!] : \hat U_i=Y_i-A_nx_i-B_n. Calculer E(\hat U_i).
Afficher
b) Etablir l'égalité : \sum_{i=1}^n\hat U_i^2=\sum_{i=1}^n(U_i-\bar U_n)^2-ns_x^2(A_n-a)^2.
Afficher
On a déjà que
\begin{align}
\sum_{i=1}^n\hat U_i^2&=\sum_{i=1}^n\left(ax_i+b_i+U_i-A_nx_i-(\bar Y_n-A_n\bar x)\right)^2\\
&=\sum_{i=1}^n\left(U_i-A_n(x_i-\bar x)-\bar Y_n+ax_i+b_i\right)^2\\
\end{align}
maitenant on observe que \bar Y_n=\bar U_n+a\bar x+b donc
\begin{align}
\sum_{i=1}^n\hat U_i^2&=\sum_{i=1}^n\left((U_i-\bar U_n)-(A_n-a)(\bar x_i-\bar x)\right)^2\\
&=\sum_{i=1}^n(U_i-\bar U_n)^2+(A_n-a)^2\sum_{i=1}^n(\bar x_i-\bar x)^2-2(A_n-a)\sum_{i=1}^n(U_i-\bar U_n)(\bar x_i-\bar x)\\
&=\sum_{i=1}^n(U_i-\bar U_n)^2+(A_n-a)^2ns_x^2-2(A_n-a)\sum_{i=1}^n(U_i-\bar U_n)(\bar x_i-\bar x)
\end{align}
Examinons maintenat en détail la troisième somme. Avec la définition de \alpha_i et la question 1.c) on a
\begin{align}
\sum_{i=1}^n(U_i-\bar U_n)(\bar x_i-\bar x)&=ns_x^2\sum_{i=1}^n(U_i-\bar U_n)\alpha_i\\
&=ns_x^2\sum_{i=1}^nU_i\alpha_i\ (car\ \sum_{i=1}^n\alpha_i=0)\\
&=ns_x^2\sum_{i=1}^n(Y_i-ax_i-b)\alpha_i\\
&=ns_x^2\left(\sum_{i=1}^nY_i\alpha_i-a\right)\ (car\ \sum_{i=1}^n\alpha_i=0\ et\ \sum_{i=1}^n\alpha_ix_i=1)\\
&=ns_x^2(A_n-a)
\end{align}
Il ne reste plus qu'à remplacer cette somme dans l'expression précédente et le résultat suit.
c) Calculer E\left(\sum_{i=1}^n\hat U_i^2\right). En déduire un estimateur sans biais de \sigma^2.
Afficher
Avec la question précédente on a déjà que
E\left(\sum_{i=1}^n\hat U_i^2\right)=\sum_{i=1}^nE((U_i-\bar U_n)^2)-ns_x^2E((A_n-a)^2).
De plus E(A_n-a)=E(A_n)-a=0 donc E((A_n-a)^2)=V(A_n-a)=V(A_n)=\frac{\sigma^2}{ns_x^2} et
E\left(\sum_{i=1}^n\hat U_i^2\right)=\sum_{i=1}^nE((U_i-\bar U_n)^2)-\sigma^2.
Interessons nous maintenant à E((U_i-\bar U_n)^2). Là encore on montre facilement que E(U_i-\bar U_n)=0 par conséquent E((U_i-\bar U_n)^2)=V(U_i-\bar U_n). De plus on a par indépendance des U_i et V(U_i)=\sigma^2 que
\begin{align}
V(U_i-\bar U_n)&=V\left(-\frac{1}{n}U_1-\frac{1}{n}U_2+\dots+\left(1-\frac{1}{n}\right)U_i+\dots-\frac{1}{n}U_n\right)\\
&=\frac{\sigma^2}{n^2}+\dots+\sigma^2\left(1-\frac{1}{n}\right)^2+\dots+\frac{\sigma^2}{n^2}\\
&=\sigma^2\frac{n-1}{n^2}+\sigma^2\frac{(n-1)^2}{n^2}\\
&=\frac{(n-1)\sigma^2}{n}.
\end{align}
On a donc
E\left(\sum_{i=1}^n\hat U_i^2\right)=(n-2)\sigma^2
Un estimateur sans biais de \sigma^2 est donc
\frac{1}{n-2}\sum_{i=1}^n\hat U_i^2.

Pour afficher le fil des commentaires : Commentaires.
Pour poster un commentaire ou obtenir de l'aide : c'est ici!
Formulaire
L'insertion de formules suit la syntaxe LATEX. Toute formule doit être encadrée par des dollars : \bf{\$formule\$}. Par exemple \bf{\$ u\_n \$} sera interprétée comme une formule et donnera \bf{u_n}. Voici quelques exemples pour ceux qui ne sont pas habitués :
- Indice bas u_n : u_n
- Indice haut X^p : X^p
- Multi-indices A_{1,2}^{pq} : A_{1,2}^{pq}
- Intégrales \int_a^b f(t)dt : \int_a^b f(t)dt
- Somme \sum_{i=1}^n u_i : \sum_{i=1}^n u_i
- Pour les lettres greques, il suffit de connaître leur noms, \alpha donn \alpha, \beta donne \beta, etc.
- Et pour les lettres greques majuscules, il suffit de mettre la première lettre en majuscule : \Gamma donne \Gamma, \Sigma donne \Sigma etc.