math-sup.fr

Cours et vidéos

Cours en ligne Vidéos classées

Concours corrigés

HECS
HECE

Programme de concours

HECS

Chaîne Youtube

Pour me soutenir

Autour du site

Auteur du site.

Partie II. Tirages avec remise dans une population stratifiée

Dans cette partie, on suppose que pour tout $i\in[\![1,k]\!]$, on a $p_i>0$ et que $p_1,p_2,\dots,p_k$ sont les proportions d'individus appartenant aux diverses catégories d'une population statistique scindée en $k$ catégories distinctes.

Pour modéliser une suite illimitée de tirages équiprobables avec remise effectués dans une population, on utilise des variables aléatoires $X_i^{(n)}$ définies par : $$\forall n\in\mathbb N^*,\forall i\in [\![1,k]\!],X_i^{(n)}=\begin{cases}1\text{ si l'individu extrait au n-ième tirage appartient à la n-ième catégorie}\\ 0\text{ sinon}\end{cases}.$$

On suppose que les vecteurs aléatoires $(X_1^{(n)},X_2^{(n)},\dots,X_k^{(n)}),\ (n\in\mathbb N^*)$ suivent chacun la loi ${\cal B}_k(p)$ (partie I) et sont mutuellement indépendants. Cette indépendance mutuelle signifie que pour tout entier $n\geq 2$ et pour toutes fonctions $\varphi_1,\varphi_2,\varphi_n$ définies sur $\mathbb R^k$ à valeurs réelles, les variables aléatoires $\varphi_1(X_1^{(1)},X_2^{(1)},\dots,X_k^{(1)}), \varphi_2(X_1^{(2)},X_2^{(2)},\dots,X_k^{(2)})\dots, \varphi_n(X_1^{(n)},X_2^{(n)},\dots,X_k^{(n)})$ sont indépendantes.

Pour tout $n\in\mathbb N^*$, on note $X^{(n)}$ la matrice-colonne de ${\cal M}_{k,1}(\mathbb R)$ de composantes $X_1^{(n)},X_2^{(n)},\dots,X_k^{(n)}$ et $S^{(n)}$ la matrice-colonne de ${\cal M}_{k,1}(\mathbb R)$ de composantes $S_1^{(n)},S_2^{(n)},\dots,S_k^{(n)}$, où pour tout $i\in[\![1,k]\!]$, on a $S_i^{(n)}=\sum_{j=1}^nX_i^{(j)}$.

4.a) Préciser l'ensemble $N_n$ des matrices colonnes $s$ de ${\cal M}_{k,1}(\mathbb R)$ pour lesquelles on a $P(S^{(n)}=s)>0$.

Afficher

Référence programme : VII-3

Au n-ième tirage, nous avons testé $n$ individu, les composantes de $S^{(n)}$ sont le nombre d'individus de chaque catégorie, donc pour avoir $P(S^{(n)}=s)>0$, il faut que les composantes de $s$ soient des entiers positifs et que leur somme soit égale à $n$. Donc $$N_n=\left\lbrace s=\begin{pmatrix}s_1\\ \vdots\\ s_k\end{pmatrix}/\sum_{i=1}^ks_i=n\text{ et }s_i\in\mathbb N^*\right\rbrace.$$

b) Déterminer les lois respectives des deux variables aléatoires $S_1^{(n)}$ et $S_1^{(n)}+S_2^{(n)}$. Sont-elles indépendantes?

Afficher

Références programme : VII-5,7

Comme somme de variables de Bernoulli indépendantes, on observe que $S^{(n)}_1$ suit une loi binomiale de paramètres $n$ et $p_1$, tandis que $S^{(n)}_1+S^{(n)}_2$ suit une loi binomiale de paramètre $n$ et $p_1+p_2$.

Pour l'indépendance, on observe que : $$P(S^{(n)}_1=n\text{ et }S^{(n)}_1+S^{(n)}_2=n)=P(S^{(n)}_1=n)\neq P(S^{(n)}_1=n)P(S^{(n)}_2=n),$$ donc $S^{(n)}_1$ et $S^{(n)}_1+S^{(n)}_2$ ne sont pas indépendantes.

c) Montrer que ${\cal V}(S^{(n)})=n{\cal V}(X^{(1)})$.

Afficher

Référence programme : VII-21

On a : $${\cal V}(Y)=\begin{pmatrix} V(\sum_jX_1^{(j)}) & Cov(\sum_jX_1^{(j)},\sum_jX_2^{(j)}) & \dots & Cov(\sum_jX_1^{(j)},\sum_jX_k^{(j)})\\ Cov(\sum_jX_2^{(j)},\sum_jX_1^{(j)}) & V(\sum_jX_2^{(j)}) & \dots & Cov(\sum_jX_2^{(j)},\sum_jX_k^{(j)})\\ \vdots & \vdots & \ddots & \vdots\\ Cov(\sum_jX_k^{(j)},\sum_jX_1^{(j)}) & Cov(\sum_jX_k^{(j)},\sum_jX_2^{(j)}) & \dots & V(\sum_jX_k^{(j)}) \end{pmatrix}.$$ Mais par indépendance, on a $V(\sum_jX_i^{(j)})=\sum_jV(X_i^{(j)})=\sum_jV(X_1^{(1)})=nV(X_1^{(1)})$. De même par indépendance $Cov(X_k^{(i)},X_l^{(j)})=0$ où $k\neq l$ et $i\neq j$, donc par bilinéarité de la covariance : $$Cov(\sum_iX_k^{(i)},\sum_jX_l^{(j)})=\sum_i\sum_jCov(X_k^{(i)},X_l^{(j)})=\sum_iCov(X_k^{(i)},X_l^{(i)})=\sum_iCov(X_k^{(1)},X_l^{(1)})=nCov(X_k^{(1)},X_l^{(1)}).$$ On en déduit alors que $${\cal V}(Y)=\begin{pmatrix} nV(X_1^{(1)}) & nCov(X_1^{(1)},X_2^{(1)}) & \dots & nCov(X_1^{(1)},X_k^{(1)})\\ nCov(X_2^{(1)},X_1^{(1)}) & nV(X_2^{(1)}) & \dots & nCov(X_2^{(1)},X_k^{(1)})\\ \vdots & \vdots & \ddots & \vdots\\ nCov(X_k^{(1)},X_1^{(1)}) & nCov(X_k^{(1)},X_2^{(1)}) & \dots & nV(X_k^{(1)}) \end{pmatrix}=n{\cal V}(X^{(1)}),$$ d'où le résultat.

5. Soit $H$ un élément de ${\cal A}$ vérifiant $0<\! P(H)<\! 1$ et $\overline{H}$ l'évènement contraire de $H$ et $W$ une variable aléatoire discrète admettant une variance.

a) Justifier l'existence de $E(W^2|H)$, espérance de $W^2$ pour la probabilité conditionnelle $P_H$.

Afficher

Référence programme : VII-17

D'abord, $W$ admet une variance donc $E(W^2)$ existe, c'est à dire que $\sum_iw_i^2P(W=w_i)$ converge. Ensuite on a sous réserve de convergence : $$E(W^2|H)=\frac{1}{P(H)}\sum_iw_i^2P([W=w_i]\cap H).$$ Mais comme $w_i^2P(W=w_i)\leq w_i^2P(W=w_i)$, par comparaison $\sum_iw_i^2P([W=w_i]\cap H)$ est également une série convergente donc $E(W^2|H)$ existe.

b) On pose : $V(W|H)=E(W^2|H)-(E(W|H))^2$ (variance de $W$ pour la probabilité conditionnelle $P_H$).

En utilisant le système complet d'évènements $(H,\overline{H})$ et la formule de l'espérance totale pour $W$ et $W^2$, établir l'inégalité : $V(W)\geq P(H)V(W|H)$.

Afficher

Référence programme : VII-17

La correction que je vous donne ici me paraît complexe, mais en attendant de trouver mieux, je vous la livre telle quelle!

On a : $$\begin{align} V(W)&=E(W^2)-E(W)^2\\ &=\left(E(W^2|H)P(H)+E(W^2|\overline{H})P(\overline{H})\right)-\left(E(W|H)P(H)+E(W|\overline{H})P(\overline{H})\right)^2\\ &=\left(\left(V(W|H)+E(W|H)^2\right)P(H)+\left(V(W|\overline{H})+E(W|\overline{H})^2\right)P(\overline{H})\right)-\left(E(W|H)P(H)+E(W|\overline{H})P(\overline{H})\right)^2\\ &=V(W|H)P(H)+V(W|\overline{H})P(\overline{H})+\left(E(W|H)^2P(H)+E(W|\overline{H})^2P(\overline{H})\right)-\left(E(W|H)P(H)+E(W|\overline{H})P(\overline{H})\right)^2. \end{align}$$ Or la variance conditionnelle étant positive (il suffit de voir qu'elle est construite comme la variance), alors on a : $$V(W)\geq V(W|H)P(H)+\left(E(W|H)^2P(H)+E(W|\overline{H})^2P(\overline{H})\right)-\left(E(W|H)P(H)+E(W|\overline{H})P(\overline{H})\right)^2.$$ Il ne nous reste plus qu'à prouver que la somme des deux derniers termes est positive. C'est là où les choses se corsent un peu. Soit on fait apparaître un produit scalaire pour invoquer l'inégalité de Cauchy-schwartz, mais le détour est un peu long. Soit on introduit une variable aléatoire $X$ définie par : $$\forall\omega\in\Omega,\begin{cases} X(\omega)=E(W|H)\text{ si }\omega\in H\\ X(\omega)=E(W|\overline{H})\text{ si }\omega\in \overline{H} \end{cases}$$ et on observe que : $$V(X)=E(X^2)-E(X)^2=\left(E(W|H)^2P(H)+E(W|\overline{H})^2P(\overline{H})\right)-\left(E(W|H)P(H)+E(W|\overline{H})P(\overline{H})\right)^2,$$ et le résultat est prouvé car une variance est toujours positive donc $V(X)\geq 0$ et nous avons montré que la somme des deux derniers terme était positive.

6. Pour tout $i\in[\![1,k]\!]$, on note $T_i$ le temps d'attente du premier tirage d'un individu de la i-ème catégorie et on note $T$ la matrice-colonne de ${\cal M}_{k,1}(\mathbb R)$ de composantes $T_1,T_2,\dots,T_k$.

a) Soit $i\in [\![1,k]\!]$. Justifier que la probabilité que $T_i$ soit infini est nulle. Quelle est la loi de $T_i$?

Afficher

Référence programme : VII-10

Je répondrais en inversant l'ordre des questions, mais d'autres approches sont possibles, en particulier en utilisant les théormèmes de convergences monotones d'évènements en proba.

$T_i$ représente le temps d'attente du premier succès d'une suite de variables de Beroulli indépendantes de paramètre $p_i$ donc suit une loi géométrique de paramètre $p_i$.

Maintenant on observe que : $$P(T_i=+\infty)=1-P(T_i<+\infty)=1-\sum_{k=1}^{+\infty}P(T_i=k)=1-1=0,$$ donc $P(T_i=+\infty)=0$.

b) on pose : $H_k=\cap_{i=1}^{k-1}[T_i=i]$. Calculer $P(H_k)$. Préciser la loi conditionnelle de $T_k-(k-1)$ sachant $H_k$.

En déduire $E(T_k|H_k)$ et $V(T_k|H_k)$.

Afficher

Références programme : VII-5,10,11,17

On observe que $$H_k=[X_1^{(1)}=1]\cap[X_2^{(2)}=1]\cap\dots\cap[X_{k-1}^{(k-1)}=1].$$ Or $X_1^{(1)},X_2^{(2)},\dots,X_{k-1}^{(k-1)}$ sont indépendantes donc $$P(H_k)=P(X_1^{(1)}=1)P(X_2^{(2)}=1)\dots P(X_{k-1}^{(k-1)}=1)=p_1p_2\dots p_{k-1},$$ d'où la réponse au premier point.

Si $H_k$ a lieue alor $T_k$ ne peut prendre que des valeurs supérieures à $k$ donc tout se passe comme si $T_k$ était un temps d'attente décalé dans le temp à partir de $k$. Par conséquent $T_k-(k-1)$ sachant $H_k$ suit une loi géométrique de paramètre $p_k$.

On en déduit que : $$E(T_k-(k-1)|H_k)=\frac{1}{p_k}\Longrightarrow E(T_k|H_k)=\frac{1}{p_k}+(k-1).$$ $$V(T_k-(k-1)|H_k)=\frac{1-p_k}{p_k^2}\Longrightarrow V(T_k|H_k)=\frac{1-p_k}{p_k^2}$$

c) En exploitant le résultat de la question 5.b), établir pour tout vecteur $v=(v_1,v_2,\dots,v_k)$ de $\mathbb R^k$, l'inégalité : $$V\left(\sum_{i=1}^kv_iT_i\right)\geq\frac{v_k^2(1-p_k)}{p_k^2}\times\Pi_{i=1}^{k-1}p_i.$$

Afficher

Référence programme : VII-17

D'après 5.b) et la formule $P(H_k)=p_1\dots p_{k-1}$ de 6.b), on en déduit : $$V\left(\sum_{i=1}^kv_iT_i\right)\geq V\left(\sum_{i=1}^kv_iT_i|H_k\right)P(H_k)=V\left(\sum_{i=1}^kv_iT_i|H_k\right)\Pi_{i=1}^{k-1}p_i.$$ Or par définition de $H_k$, on a que $$V\left(\sum_{i=1}^kv_iT_i|H_k\right)=V\left(v_1+2v_2+\dots+(k-1)v_{k-1}+v_kT_k|H_k\right),$$ mais la variance ne "voyant" pas les constantes on a aussi : $$V\left(\sum_{i=1}^kv_iT_i|H_k\right)=V\left(v_kT_k|H_k\right)=v_k^2V(T_k|H_k).$$ Or d'après la formule établie en 6.b) pour $V(T_k|H_k)$, le résultat suit immédiatement.

d) Montrer plus généralement que pour tout $j\in[\![1,k]\!]$, on a : $V\left(\sum_{i=1}^kv_iT_i\right)\geq\frac{v_j^2(1-p_j)}{p_j^2}\times\underset{i\in[\![1,k]\!],i\neq j}{\Pi}p_i.$

Afficher

Référence programme : esprit de synthèse!

Il suffit de reprendre tout le raisonnement précédent mais en posant $\displaystyle H_k=\underset{i\in[\![1,k]\!],i\neq j}{\bigcap}H_i$

Pour afficher le fil des commentaires : Commentaires.

Pour poster un commentaire ou obtenir de l'aide : c'est ici!

Formulaire

L'insertion de formules suit la syntaxe LATEX. Toute formule doit être encadrée par des dollars : $\bf{\$formule\$}$. Par exemple $\bf{\$ u\_n \$}$ sera interprétée comme une formule et donnera $\bf{u_n}$. Voici quelques exemples pour ceux qui ne sont pas habitués :

Indice bas u_n : $u_n$
Indice haut X^p : $X^p$
Multi-indices A_{1,2}^{pq} : $A_{1,2}^{pq}$
Intégrales \int_a^b f(t)dt : $\int_a^b f(t)dt$
Somme \sum_{i=1}^n u_i : $\sum_{i=1}^n u_i$
Pour les lettres greques, il suffit de connaître leur noms, \alpha donn $\alpha$, \beta donne $\beta$, etc.
Et pour les lettres greques majuscules, il suffit de mettre la première lettre en majuscule : \Gamma donne $\Gamma$, \Sigma donne $\Sigma$ etc.