Ce sujet aborde le problème dit des "évènement rares". Ce sont des évènement qui à-priori vont survenir mais avec une faible probabilité. On en trouve par exemple des applications en sismologie ou en hydrologie pour l'étude des crues. Ici l'évènement rare étudié est celui de la non apparition d'un numéro dans un jeu de loto avec remise (donc pas un vrai loto!!). Plus on effectue de tirages, plus la probabilité qu'un numéro ne survienne pas deviens rare (si vous faite un parallèle avec la pluie, plus les jours sans pluie passent, moins il y aura de chance qu'il fasse beau le landemain). Le sujet va mettre en avant une loi permettant de faire une estimation statistique de cet évènement rare et donc de faire des prédictions quantifiée sur un tel évènement.
Soit r un entier naturel supérieur ou égal à 2. Une urne contient r boules numérotées 1,2,...,r. On pioche indéfiniment les boules avec remise, chaque boule pouvant être piochée de façon équiprobable.
Pour tout entier $i\in\{1,2,\dots,r\}$, on note $Y_i$ la variable aléatoire égale au "nombre de pioches nécessaires pour obtenir i boules distinctes". On convient que $Y_1=1$.
On désigne par $X_r$ la variable aléatoire égale au "nombre de pioches nécessaires pour obtenir les r boules numérotées 1,2,...,r". Il est immédiat que $X_r=Y_r$.
Par exemple en supposant que $r=4$, si les boules piochées succesivement portent les numéros : $$3,\ 3,\ 3,\ 1,\ 1,\ 1,\ 1,\ 2,\ 3,\ 2,\ 4,\ 1, \dots$$
Alors on a : $Y_1=1,\ Y_2=4,\ Y_3=8,\ Y_4=X_4=11.$
La partie I établit certains résultats préliminaires qui seront utilisés dans d'autres parties.
La partie II se consacre à l'étude de la loi des variables discrètes $Y_{i+1}-Y_i$, afin d'en déduire l'espérance et la variance de la variable discrète $X_r$.
La partie III détermine la loi de la variable $X_r$, puis étudie la distribution asymptotique de la variable $X_r$ autour de la moyenne.
On note exp la fonction exponentielle définie par : $$\forall x\in\mathbb R,\ exp(x)=e^x.$$
1. Etude d'une suite.
On introduit la suite $(u_n)_{n\geq 1}$ définie par : $\forall n\geq 1,\ u_n=\left(\sum_{i=1}^n\frac{1}{i}\right)-\ln(n).$
(a) Ecrire un programme Pascal permettant de calculer $u_n$ pour un entier $n\geq 1$ donné.
(b) A l'aide d'un développement limité, justifier que $u_n-u_{n+1}\underset{n\to+\infty}{\sim}\frac{1}{2n^2}.$
En déduire la nature de la série $\sum_{n\geq 1}(u_n-u_{n+1})$ puis démontrer la convergence de la suite $(u_n)_{n\geq 1}$.
(c) Montrer que la suite $\left(\sum_{i=1}^n\frac{1}{i^2}\right)_{n\geq 1}$ converge (on ne demande pas le calcul de la limite).
Question bizarre... On reconnait une série de Riemann convergente.
2. Loi de Gumbel.
Soit Z une variable aléatoire continue. On suppose que Z suit la loi de Gumbel, c'est à dire que sa fonction de répartition $F_Z$ est définie par : $$\forall t\in\mathbb R,\ F_Z(t)=\exp(-\exp(-t)).$$
(a) Vérifier que la fonction $F_Z$ est bien une fonction de répartition puis que $Z$ possède une densité que l'on précisera.
La densité de Z est $e^{-t}e^{e^{-t}}$.
(b) On considère la variable aléatoire $W=\exp(-Z)$.
Déterminer la fonction de répartition de la variable aléatoire W.
En déduire que la variable aléatoire W suit une loi usuelle dont on précisera le ou les paramètres.
La fonction de répartition de W est celle d'une loi exponentielle de paramètre 1.
(c) Pour tout entier k, montrer que l'intégrale $\int_0^{+\infty}(\ln(x))^ke^{-x}dx$ est absolument convergente.
En zéro montrer que $|(\ln(x))^ke^{-x}|$ est un $o(1/\sqrt{t})$ et en l'infini montrer que c'est un $o(1/t^2)$.
(d) En justifiant le changement de variable $x=\exp(-t)$, démontrer que la variable Z admet un moment d'ordre k valant : $$E(Z^k)=\int_0^{+\infty}(-\ln(x))^ke^{-x}dx.$$
On partira de la formule de transfert appliquée à $Z^k$. C'est à dire si on note $f_Z$ la densité de Z trouvée en a), on a $E(Z^k)=\int_{-\infty}^{+\infty}t^kf_Z(t)dt$, puis on fait le changement de variable annoncé.
1. Etude du cas $r=3$.
On suppose uniquement dans cette question que $r=3$, c'est à dire que l'urne ne contient que trois boules numérotées respectivement 1,2,3 chacune pouvant être piochée avec la probabilité $\frac{1}{3}$.
(a) Soit n un entier naturel non nul.
Comparer les évènements $(Y_2>n)$ et $C_n$ : "les n premières pioches fournissent des boules portant toutes le même numéro".
Ils sont égaux! En effet $(Y_2>n)$ veut dire qu'il faut au moins $n+1$ tirages pour obtenir pour la première fois deux boules différentes. Donc pendant les $n$ premiers tirages, elles sont identiques.
Calculer la probabilité $P(C_n)$. En déduire la probabilité $P(Y_2>n)$ puis donner la loi de la variable $Y_2$.
loi de $Y_n$ : comme $C_n=Y_2$, on a $P(Y_2>n)=\frac{1}{3^{n-1}}$, puis on utilise l'astuce classique : $P(Y_2=n)=P(Y_2>n-1)-P(Y_2>n)$.
(b) Justifier que : $$\forall n\geq 1,\ P(Y_3-Y_2=n)=\sum_{k=2}^{+\infty}P([Y_3=n+k]\cap[Y_2=k])$$
On observe d'abord que $Y_2=k$ et $Y_3-Y_2=n$ alors $Y_3=n+k$. Il suit que comme $Y_2$ a ses valeurs dans $\{2,3,\dots\}$ alors : $(Y_3-Y_2=n)=\cup_{k=2}^{+\infty}(Y_2=k)\cap(Y_3=n+k)$. Enfin il suffit d'utiliser que cette union est disjointe.
puis que : $$\forall n\geq 1,\ \forall k\geq 2,\ P([Y_3=n+k]\cap[Y_2=k])=\frac{1}{3^{k-1}}\left(\frac{2}{3}\right)^n.$$
Utiliser le fait que $P([Y_3=n+k]\cap[Y_2=k])=P_{Y_2=k}(Y_3=n+k)P([Y_2=k])$. $P([Y_2=k])$ est connu d'après la question a). Tandis que $P_{Y_2=k}(Y_3=n+k)$ est la proba de tirer une boule distincte des deux premières au n-ième coup, ce qui vaut $\left(\frac{2}{3}\right)^2\frac{1}{3}$.
En déduire la loi de la variable $Y_3-Y_2$.
On reconnait une série géométrique et on a $P(Y_3-Y_2=n)=\frac{1}{2}\left(\frac{2}{3}\right)^n$
2. Loi de $Y_{i+1}-Y_i$ pour $i\in\{1,2,\dots,r-1\}.$
(a) Justifier que $$Y_i(\Omega)=\{i,i+1,i+2,\dots\}=\mathbb N\backslash\{0,1,2,\dots,i-1\}\ et\ (Y_{i+1}-Y_i)(\Omega)=\mathbb N\backslash\{0\}.$$
Pour la première égalité, il faut au moins i tirages pour avoir i boules distinctes. Pour la seconde, $Y_{i+1}-Y_{i}$ représente le temps qu'il faut pour avoir une boule distinctes des précédente. Il faut donc au moins un tirage pour ça!
(b) Démontrer que : $$\forall n\geq 1,\forall k\geq i,\ P_{(Y_i=k)}(Y_{i+1}-Y_i=n)=\left(\frac{i}{r}\right)^{n-1}\left(1-\frac{i}{r}\right).$$
La probabilité recherchée est la probabilité qu'il faille n tirages pour obtenir une boule différente des i premières. Donc pendant les i premiers tirages à partir du k+1 ème tirage, on a tiré une des i boules déjà tirées précédemment. Puis au dernier tirage, on tire une boule différente. Il suffit enfin d'utiliser l'indépendance des tirages pour obtenir la formule.
(c) En déduire que $Y_{i+1}-Y_i$, suit une loi usuelle dont on précisera le ou les paramètres puis établir que : $$E(Y_{i+1}-Y_i)=\frac{r}{r-i}\ et\ V(Y_{i+1}-Y_i)=\frac{ri}{(r-i)^2}.$$
Pour la loi de $Y_{i+1}-Y_i$, on utilise la formule des probas totales : $\displaystyle P(Y_{i+1}-Y_i)=\sum_{k=i}^{+\infty}P_{(Y_i=k)}(Y_{i+1}-Y_i=n)P(Y_i=k)$, puis on tombe sur une loi géométrique de paramètre $\frac{r-i}{r}$.
3. Espérance et variance de $X_r$.
(a) Justifier que : $X_r=1+\sum_{i=1}^{r-1}(Y_{r-i+1}-Y_{r-i})$.
On se souviendra que $Y_r=X_r$ et on reconnaitra une somme téléscopique dans l'énoncé.
En admettant que les variables $Y_2-Y_1,\ Y_3-Y_2,\dots,Y_r-Y_{r-1}$ sont indépendantes, vérifier que $$E(X_r)=r\sum_{i=1}^r\frac{1}{i}\ et\ V(X_r)=r^2\sum_{i=1}^r\frac{1}{i^2}-r\sum_{i=1}^r\frac{1}{i}.$$
Ne pas oublier les calculs faits en 2.c). Pour l'espérance, utiliser la linéarité. Pour la variance, utiliser la propriété $X$, $Y$ indépendantes implique $V(X+Y)=V(X)+V(Y)$.
(b) A l'aide de la question I.1, prouver l'existence de deux réels $\alpha$ et $\beta$ tels que : $$E(X_r)\underset{r\to+\infty}{=}r\ln(r)+\alpha r+ o(r)\ et\ V(X_r)\underset{r\to+\infty}{\sim}\beta r^2.$$
Faire le lien avec l'existence des limites établie en I.b) et I.c). Ne pas chercher à les calculer!
Pour tout entier $k\in\{1,2,\dots,r\}$ et tout entier naturel $m\geq 1$, on considère l'évènement $A_{k,m}$ : "le numéro k n'a pas été pioché durant les m premières pioches".
1. Loi de $X_r$.
Soit m un entier naturel non nul.
(a) Pour tout entier $k\in\{1,2,\dots,r\}$, calculer successivement :
$P(A_{k,m})=\left(\frac{r-1}{r}\right)^m$.Pour la proba de l'autre évènement, il y a k choix parmis r de choisir k numéros et pour chacun de ces choix la proba de ne pas les tirer est $\left(\frac{r-k}{r}\right)^m$. Il suit que la proba recherchée est $\begin{pmatrix}&r\\&k\end{pmatrix}\left(\frac{r-k}{r}\right)^m$.
(b) Justifier que : $$P(X_r>m)=P(A_{1,m}\cup A_{2,m}\cup\dots\cup A_{r,m})$$
L'évènement $X_r>m$ veut dire qu'au temps m, tous les numéros n'ont pas été tiré, c'est à dire soit 1 n'est pas tiré, soit 2 n'est pas tiré, etc. Il suit que l'égalité des événements suivants à lieu : $(X_r>m)=(A_{1,m}\cup A_{2,m}\cup\dots\cup A_{r,m})$ et donc les probabilités sont égales.
puis, en utilisant la formule du crible de Poincaré, démontrer que : $$\begin{align*} P(X_r>m)&=\binom{r}{1}\left(1-\frac{1}{r}\right)^m-\binom{r}{2}\left(1-\frac{2}{r}\right)^m+\dots+(-1)^{r-1}\binom{r}{r}\left(1-\frac{r}{r}\right)\\ &=\sum_{k=1}^r(-1)^{k-1}\binom{r}{k}\left(1-\frac{k}{r}\right)^m. \end{align*}$$
En déduire la loi de $X_r$.
On utilise l'astuce classique $P(X_r=m)=P(X_r>m-1)-P(X_r>m)$.
2. Comportement de $X_r$ au delà de sa moyenne.
(a) A l'aide d'une récurrence sur m, montrer que, pour toute famille $(D_1,\dots,D_m)$ d'évènements, on a : $$P(D_1\cup D_2\cup \dots\cup D_m)\leq P(D_1)+P(D_2)+\dots+P(D_m).$$
Une probabilité vérifie toujours $P(A\cup B)\leq P(A)+P(B)$.
(b) Démontrer que pour tout réel x, on a : $\exp(x)\geq 1+x$. En déduire que : $$\forall m\in\mathbb N\backslash\{0\},\ \forall k\in\{1,\dots,r\},\ P(A_{k,m})\leq \exp\left(-\frac{m}{r}\right).$$
Pour établir l'inégalité exponentielle, on peut utiliser l'astuce classique qui consiste à étudier le signe de $\exp(x)-1-x$ par un tableau de variation. Pour la proba, on sait que $P(A_k)=\left(1-\frac{1}{r}\right)^m$. Or d'après l'inégalité établie $1-\frac{1}{r}\leq e^{-1/r}$, l'inégalité suit.
(c) Soit $\epsilon>0$, on note $M_r$ la partie entière de $(1-\epsilon)r\ln(r)$, c'est à dire l'unique entier relatif tel que : $$M_r\leq (1+\epsilon)r\ln(r) <\ M_r+1.$$
Comparer les évènements "$(X_r>M_r)$" et "$(X_r>(1+\epsilon)r\ln(r))$". En déduire que : $$P(X_r>(1+\epsilon)r\ln(r))\leq\frac{e}{r^\epsilon}.$$
Ainsi on vient d'établir que : $$\forall\epsilon>0,\ \lim_{r\to\infty}P(X_r>(1+\epsilon)r\ln(r))=0$$ qui peut se traduire ainsi : l'évènement $X_r$ est significativement supérieur à sa moyenne" est un évènement asymptotiquement rare.
"$(X_r>M_r)$" et "$(X_r>(1+\epsilon)r\ln(r))$" sont identiques car $X_r$ prend des valeurs entières. D'autre part d'après 1.b) et 2.d), on a $P(X_r>(1+\epsilon)r\ln(r))\leq P(A_{1,M_r}\cup A_{2,M_r}\cup\dots\cup A_{r,M_r})$ et d'après 2.b) $P(X_r>(1+\epsilon)r\ln(r))\leq r\exp\left(-\frac{M_r}{r}\right)$. Enfin on conclut en utilisant que $M_r+1< (1+\epsilon)r\ln(r)$.
3. Distribution de $X_r$ autour de sa moyenne.
On introduit la suite $(Z_r)_{r\geq 2}$ de variables aléatoires définies par : $$\forall r\geq 2,\ Z_r=\frac{X_r-r\ln(r)}{r}.$$
Soit t un réel fixé, on note $m_r$ la partie entière du réel $r\ln(r)+rt$, c'est à dire l'unique entier relatif tel que : $$m_r\leq r\ln(r)+rt<\ m_r+1.$$
(a) Justifier l'existence d'un rang $r_0(t)$ tel que : $$\forall r\geq r_0(t),\ m_r\geq 1$$
puis prouver l'égalité : $$\forall r\geq r_0(t),\ P(Z_r>t)=P(X_r>m_r).$$
Pour l'existence de $r_0$, utiliser le fait que $r\ln(r)+rt$ tend vers l'infini avec r. Pour l'égalité de probabilité, on observe que $Z_r>t$ est équivalent à $X_r>rt+r\ln(r)$ qui est aussi équivalent à $X_r>m_r$ puisque $X_r$ prend des valeurs entières.
(b) Soit k un entier naturel. A l'aide d'un développement limité, établir que : $$m_r\ln\left(1-\frac{k}{r}\right)\underset{r\to+\infty}{=}-k\ln(r)-kt+o(1).$$
Avant de faire le développement limité de $\ln(1-\frac{k}{n})$, commencer par l'encadrement suivant de $m_r$ : $r\ln(r)+rt-1<\ m_r\leq r\ln(r)+rt$, ce qui donnera un encadrement de $m_r\ln\left(1-\frac{k}{r}\right)$.
(c) Démontrer que, pour tout entier k, on a : $\binom{r}{k}\underset{r\to+\infty}{\sim}\frac{r^k}{k!}$.
On a après simplification : $\frac{\binom{r}{k}}{\frac{r^k}{k!}}=\frac{r(r-1)\dots(r-k+1)}{r^k}$. Cette dernière quantité est encadrée entre $\frac{(r-k+1)^k}{r^k}$ et 1. On conclut alors par le théorème des gendarmes.
En déduire que : $$\forall k\in\mathbb N,\ \lim_{r\to +\infty}\binom{r}{k}\left(1-\frac{k}{r}\right)^{m_r}=\frac{\exp(-kt)}{k!}.$$
Utiliser b) en remarquant que $\left(1-\frac{k}{r}\right)^{m_r}=\exp\left(m_r\ln\left(1-\frac{k}{r}\right)\right)$.
(d) En admettant que l'on a : $$\lim_{r\to+\infty}\sum_{k=1}^{r-1}(-1)^{k-1}\binom{r}{k}\left(1-\frac{k}{r}\right)^{m_r}=\sum_{k=1}^{+\infty}(-1)^{k-1}\frac{\exp(-kt)}{k!},$$ exprimer la valeur de la limite $\lim_{r\to+\infty}P(Z_r\leq t)$ en fonction de $F_Z(t)$ (définie à la question I.2.).
La somme de gauche est du type "exponentielle". On trouve $\displaystyle\sum_{k=1}^{+\infty}(-1)^{k-1}\frac{\exp(-kt)}{k!}=1-\exp(-\exp(-t))=1-F_Z(t).$
Quel résultat vient-on d'établir sur la suite de variables aléatoires $(Z_r)_{r\geq 2}$?
$Z_r$ converge en loi ver une loi de Gumble.
Contacter l'auteur du site : frederic.millet @ math-sup.fr