Processing math: 0%

Cours et vidéos

Cours en ligne Vidéos classées

Concours corrigés

HECS
HECE

Programme de concours

HECS

Chaîne Youtube


Pour me soutenir



Autour du site

Auteur du site.

Corrigé HEC math II 2012

Toutes les variables aléatoires qui interviennent dans ce problème sont réelles et définies sur un meême espace probabilisé , où P peut dépendre de paramètres réels inconnus a,b,\sigma etc; elles admettent toutes une espérance et une variance : si J désigne l'une de ces variables aléatoires, on note E(J) son espérance et V(J) sa variance.

Si J_1,J_2 et J_1+J_2 sont des variables aléatoires à densité, on admet alors l'existence de la covariance de J_1 et J_2, notée Cov(J_1,J_2), qui est définie par la formule : Cov(J_1,J_2)=\frac{1}{2}\left(V(J_1+J_2)-V(J_1)-V(J_2)\right).

On admet que les covariances de variables aléatoires à densité vérifient les même règles de calcul que celles des variables aléatoires discrètes.

Pour tout (k,l) de (\mathbb N^*)^2, on note {\cal M}_{k,l}(\mathbb R) l'ensemble des matrices à k lignes et l colonnes à coefficients réels; on note {\cal M}_k(\mathbb R) l'ensemble des matrices carrées d'ordre k.

On note ^t\!Q la transposée d'une matrice Q.

Dans tout le problème, n désigne un entier supérieur ou égal à 3.

L'objet du problème est l'étude de quelques propriétés du modèle de régression linéaire élémentaire.


PARTIE I. Quelques résultats statistiques et algébriques.


On considère une population d'individus statistiques dans laquelle on étudie deux caractères quantitatifs \cal X et \cal Y. On extrait de cette population un échantillon de n individus sélectionnés selon des valeurs choisies du caractère \cal X et numérotés de 1 à n.

Pour tout i de [\![1,n]\!], les réels x_i et y_i sont les observations respectives de \cal X et de \cal Y pour l'individu i de l'échantillon. On suppose que les réels x_1,x_2,\dots,x_n ne sont pas tous égaux.

Soit a et b deux paramètres réels. On pose pour tout i de [\![1,n]\!] : u_i=y_i-(ax_i+b). (\star)

1. On note \bar x (resp. \bar y) et s_x^2 (resp. s_y^2) la moyenne empirique et la variance empirique de la série statistique (x_i)_{1\leq i\leq n} (resp. (y_i)_{1\leq i\leq n}); on rappelle que : \bar x=\frac{1}{n}\sum_{i=1}^nx_i et s_x^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2.

a) Montrer que s_x^2>0.

Afficher

b) Etablir les formules : \sum_{i=1}^n(x_i-\bar x)y_i=\sum_{i=1}^n(x_iy_i)-n\bar x\bar y et \sum_{i=1}^n(x_i-\bar x)^2=\sum_{i=1}^n(x_i^2)-n\bar x^2.

Afficher

c) On pose pour tout i de [\![1,n]\!] : \alpha_i=\frac{(x_i-\bar x)}{ns_x^2}. Montrer que : \sum_{i=1}^n\alpha_i=0, \sum_{i=1}^n\alpha_ix_i=1 et \sum_{i=1}^n\alpha_i^2=\frac{1}{ns_x^2}.

Afficher

2. On pose : y=\begin{pmatrix}y_1\\ \vdots\\ y_n\end{pmatrix}\in{\cal M}_{n,1}(\mathbb R), u=\begin{pmatrix}u_1\\ \vdots\\ u_n\end{pmatrix}\in{\cal M}_{n,1}(\mathbb R), \theta=\begin{pmatrix}a\\ b\end{pmatrix}\in{\cal M}_{2,1}(\mathbb R) et M=\begin{pmatrix}x_1 & 1\\ \vdots & \vdots\\ x_n & 1\end{pmatrix}\in{\cal M}_{n,2}(\mathbb R).

Les n relations (\star) s'écrivent sous la forme matricielle suivante : y=M\theta+u.

a) Quel est le rang de la matrice M?

Afficher

b) Calculer la matrice ^t\!MM et justifier son inversibilité.

Afficher

3. L'espace vectoriel \mathbb R^n est muni de sa structure Euclidienne canonique. Soit \cal F le sous-espace vectoriel engendré par les vecteurs (x_1,x_2,\dots,x_n) et (1,1,\dots,1) de \mathbb R^n. On note K la matrice du projecteur orthogonal de \mathbb R^n sur \cal F dans la base canonique de \mathbb R^n et G=I-K, où I désigne la matrice identité de {\cal M}_n(\mathbb R).

a) On cherche les matrices \theta=\begin{pmatrix}a\\ b\end{pmatrix} de {\cal M}_{2,1}(\mathbb R) qui minimisent \sum_{i=1}^nu_i^2=\sum_{i=1}^n(y_i-(ax_i+b))^2.

Montrer que ce problème admet une unique solution \hat\theta=\begin{pmatrix}\hat a\\ \hat b\end{pmatrix} et qu'elle vérifie la relation : ^t\!MM\hat\theta=^t\!My.

Afficher

b) Montrer que : \hat a=\sum_{i=1}^n\alpha_iy_i et \hat b=\bar y-\hat a\bar x.

Afficher

c) Exprimer K en fonction de M et ^t\!M.

Afficher

d) Soit \hat u la matrice colonne de {\cal M}_{n,1}(\mathbb R) de composantes \hat u_1,\hat u_2,\dots,\hat u_n définie par \hat u=y-M\hat\theta. Montrer que : \hat u=Gy=Gu.

Afficher

En déduire les égalités : ^t\!\hat u\hat u=\sum_{i=1}^n\hat u_i^2=^t\!yGy=^t\!uGu.

Afficher


PARTIE II. Le modèle de régression linéaire


Le contexte et les notations sont ceux de la partie I. Dans cette partie, on cherche à modéliser les fluctuations aléatoires du caractère \cal Y sur l'échantillon.

Les hypothèses du modèle de régression linéaire élémentaire sont les suivantes :

Le modèle de régression linéaire s'écrit alors : pour tout i de [\![1,n]\!], Y_i=ax_i+b+U_i (1).

L'objectif consiste à estimer les paramètres inconnus a, b et \sigma^2 du modèle (1).

On pose pour tout n\geq 3 : \bar Y_n=\frac{1}{n}\sum_{i=1}^nY_i et \bar U_n=\frac{1}{n}\sum_{i=1}^nU_i.

4. On note A_n et B_n les deux variables aléatoires définies par : A_n=\sum_{i=1}^n\alpha_i Y_i et B_n=\bar Y_n-A_n\bar x, où le réel \alpha_i a été défini dans la question 1.c).

a) Montrer que A_n et B_n sont des estimateurs sans biais de a et b respectivement.

Afficher

b) Etablir les formules suivantes : V(A_n)=\frac{\sigma^2}{ns_x^2} et V(B_n)=\left(1+\frac{\bar x^2}{s_x^2}\right)\frac{\sigma^2}{n}.

Afficher

Calculer Cov(A_n,B_n).

Afficher

5. Dans cette question uniquement, l'entier n n'est plus fixé. On suppose l'existence de \lambda=\lim_{n\to+\infty}\frac{1}{n}\sum_{i=1}^nx_i et \mu^2=\lim_{n\to+\infty}\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2, avec (\lambda,\mu)\in\mathbb R\times\mathbb R_+^*.

Montrer que les deux suites (A_n)_{n\geq 3} et (B_n)_{n\geq 3} convergent en probabilité vers a et b respectivement.

Afficher

6.a) On pose pour tout i de [\![1,n]\!] : \hat U_i=Y_i-A_nx_i-B_n. Calculer E(\hat U_i).

Afficher

b) Etablir l'égalité : \sum_{i=1}^n\hat U_i^2=\sum_{i=1}^n(U_i-\bar U_n)^2-ns_x^2(A_n-a)^2.

Afficher

c) Calculer E\left(\sum_{i=1}^n\hat U_i^2\right). En déduire un estimateur sans biais de \sigma^2.

Afficher

Pour afficher le fil des commentaires : Commentaires.


Pour poster un commentaire ou obtenir de l'aide : c'est ici!




Formulaire

L'insertion de formules suit la syntaxe LATEX. Toute formule doit être encadrée par des dollars : \bf{\$formule\$}. Par exemple \bf{\$ u\_n \$} sera interprétée comme une formule et donnera \bf{u_n}. Voici quelques exemples pour ceux qui ne sont pas habitués :

Contacter l'auteur du site : frederic.millet @ math-sup.fr