Cours 6 : Probabilités
Introduction
Où les probas sont-elles présentes en informatique ?
-
Évaluation de performance :
- complexité
- correction
- résultats en moyenne, etc…
-
de façon générale : on utilise les probas quand on ne sait pas faire autrement.
-
quand on est bloqué quelque part, les probas introduites “artificiellment” peuvent aider à “décoincer” la situation
-
exs :
- protocoles en concurrence, etc…
- modélisation d’un environnement : c’est beaucoup plus “régulé” qu’avec du non-déterminisme
-
-
Débat philosophique : est-ce que les probas relèvent du déterminisme ou non ?
Ex : résultat à un examen :
- pour le prof : point de vue probabiliste
- pour un élève donné : non déterministe
Caractère probabiliste = du non-déterministe régulé
Pour un matheux : les probas = une construction mathématique
Pour un physicien / informaticien :
- l’aspect statistique est très important ⟶ que vaut $P$ ?
- la pertinence du modèle est très importante
On se sert du peu d’information qu’on a :
ex : élections, etc…
choses qualitatives qui n’intéressent absolument pas les mathématiciens : en quoi l’échantillon de population choisie est-il représentatif de la population ?
Aujourd’hui : tout le monde fait des probas :
- les biologistes
- les physiciens
- les sciences de l’ingénieur
- les informaticiens
- les mathématiciens
Attention : les statistiques appliquées ressemblent un peu aux protocoles de chimie :
- on fait une hypothèse, et on corrobore cette hypothèse
Mais ce qui fait le succès de la démarche, c’est la pertinence de l’hypothèse :
- elle se base sur un historique de causes-effets
- etc…
Il faut comprendre quelque chose qui est dur à avaler pour un matheux :
quand on dit “soit $P$” une proba
⟶ on n’obtiendra jamais la vraie valeur de $P$ en pratique
⟶ on n’utilise que des théorèmes de convergence (en loi, en proba, presque sûre, etc …)
NB : on aura une petite bilbiothèque de problèmes qui nous serviront de “boîte à outils” (ex: problème du collectionneur, etc…)
Généralités
Espace de probabilité
Trouver un bon espace de proba : problème qui peut être très difficile en pratique :
- si l’espace est trop grand : proba nulle
- si trop petit : proba égale à 1
- il faut trouver la bonne échelle “mésoscopique” où considérer nos objets
Paradoxe de Bertrand :
On a un triangle équilatéral inscrit dans un cercle.
Question : quelle est la proba qu’une corde prise “au hasard” soit plus grande que la longueur des côtés du triangle.
Trois modélisations possibles incompatibles :
-
Proba = $1/3$
-
car en fixant un sommet $A$ du triangle, et en traçant une droite passant par ce sommet, on remarque que :
- si la droite intersecte le côté opposé à $A$ : corde plus longue
- sinon : corde plus courte
- on procède de même pour une droite ne passant pas par $A$, en prenant $A$ comme “référentiel”.
-
-
Proba = $𝜋𝜌^2/𝜋 = 1/4$ où $𝜌$ est le rayon du cercle inscrit
- on remarque qu’une corde est entièrement déterminée par son milieu (à part si c’est un diamètre) qui est un point du disque.
- en considérant le cercle inscrit au triangle : il faut et il suffit que le milieu soit dans ce disque pour que la corde soit plus grande
-
Proba = $1/2$
- en utilisant la symétrie circulaire : toute corde est déterminée par son point d’intersection avec le rayon qui lui est orthogonal.
- si elle est dans la moitié du rayon la plus proche du centre : la corde est plus grande
- sinon : elle est plus petite.
Soit $𝛺$ un ensemble.
- Tribu $𝒯⊆𝒫(𝛺)$ sur $𝛺$ :
-
- $𝛺∈𝒯$
- Si $A∈𝒯$, $A^c∈𝒯$
- Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$, l’union le reste
- Espace probabilisable :
-
la donnée d’un couple $(𝛺, 𝒯)$, où $𝒯⊆𝒫(𝛺)$.
Propriétés :
- $∅∈𝒯$
- Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$, l’intersection le reste
- De même : toute intersection/union finie d’événements reste un événement.
- Si $A, B ∈ 𝒯, A∩B^c ∈𝒯$
ex :
- $\lbrace ∅, 𝛺\rbrace$ : tribu grossière
- $𝒫(𝛺)$ : tribu discrète
- notion de tribu engendrée par un ensemble : la plus petit le contenant
NB : Il nous faut un arsenal mathématique nous permettant de mesurer les éléments d’une tribu sans être capable pour autant de les décrire explicitement.
- Probabilité $P : 𝒯 ⟶ [0,1]$ sur $(𝛺, 𝒯)$ :
-
- $P(𝛺)=1$
-
Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$ et $∀i≠j, A_i ∩ A_j ≠ ∅$, alors
\[P(\bigcup_i A_i) = \sum\limits_{i≥0} P(A_i)\]
On a alors :
3) Si $A∈𝒯$, \(P(A)+P(A^c) = 1\)
Dém : on montre facilement que $P(∅)=0$, avec la propriété 2).
Puis : avec $𝛺 = A \sqcup A^c$
4) Croissance : si $A⊆B$, $P(A)≤P(B)$
Dém : avec la propriété précédente, et $B = B\backslash A \sqcup A$
5) Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$ est une suite croissante :
\[P(\bigcup_i A_i) = \lim_{i⟶∞} A_i\]Dém :
La suite $(P(A_i))_i$ est convergente (croissante et bornée).
En posant, pour tout $i≥1$ :
- \[B_i = A_i\backslash A_{i-1}\]
- $B_0 = A_0$
Les $B_i$ sont deux à deux disjoints.
\[P(\bigcup_i A_i) = P(\bigcup_i B_i) = \sum\limits_{i∈ℕ} P(B_i) \\ = \lim_{n⟶∞} \underbrace{\sum\limits_{i=0}^n P(B_i)}_{ = P(A_i)}\]NB : les séries à termes positifs ne posent aucun problème, car il se s’agit que de suites croissante. Mais attention quand le signe n’est pas constant !
6) De même :
Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$ est une suite décroissante :
\[P(\bigcap_i A_i) = \lim_{i⟶∞} A_i\]2. Indépendance
$(𝛺, 𝒯, P)$ espace probabilisé.
- Famille d’événements $(A_i)_{i∈I}$ indépendants :
-
$∀J⊆I, J \text{ finie }$, \(P(\bigcap\limits_{j∈J} A_j) = \prod\limits_{j∈J} P(A_j)\)
Ex :
Deux événements $A, B$ sont indépendants ssi :
\[P(A∩B) = P(A)P(B)\]Propriétés :
Si $A$ et $B$ sont indépendants :
- $A$ et $B^c$ le sont
- $A^c$ et $B^c$ aussi
-
Pour toute famille d’événements $(A_i){i∈I}$ indépendants : la famille $(B_i){i∈I}$ le reste, où :
- $B_i = A_i$ OU $B_i = A_i^c$
3. Variables aléatoires
$(𝛺, 𝒯, P)$ espace probabilisé.
$E$ : espace probabilisable.
- Variable aléatoire $X : 𝛺 ⟶ E$ munie de la proba :
-
$X$ est munie d’une proba $P_X$ définie par : \(P_X(x) = P( \underbrace{X^{-1}(x)}_{≝ X=x} )\)
Il y a deux cas :
- $E$ discret : $x∈E; (X=x)∈𝒯$
-
$(E, 𝒰)$ espace probabilisable tel que
- $X : 𝛺 ⟶ E$ mesurable :
-
$∀U∈𝒰, \, \, \underbrace{X^{-1}(U)}_{≝ X∈U} ∈ 𝒯$
et on pose :
\[P_X(U) = P( \underbrace{X^{-1}(U)}_{≝ X∈U} )\]
lorsque la variable $X$ est réelle ($E⊆ℝ$), on peut éventuellement lui associer une espérance est une variance.
- Espérance de $X$ :
- \[E(X) ≝ \sum\limits_{x∈E} x P(X=x)\]
- \[\vert E(X) \vert ≤ E(\vert X \vert)\]
- Variance de $X$ :
- \[V(X) ≝ E((X-E(X))^2) = E(X^2) - E(X)^2\]
si ces quantités existent (même si elles valent $+∞$)
-
Si $X, Y$ sont indépendantes, et si ceci a un sens :
\[V(X+Y) = V(X) + V(Y)\]
NB :
- Si $E = ℝ$ : variable à densité.
-
L’ensemble des fonctions de carré intégrable est préhilbertien (en quotientant par les fonctions de mesure nulle) :
Cauchy-Schwartz :
\[E(XY) ≤ \sqrt{E(X^2)}\sqrt{E(Y^2)}\]
Quelques lois classiques
Loi de Bernoulli $B(p)$
Prend deux valeurs : 0 et 1.
Avec $q=1-p$
- \[P(X=0) = P(X=1) = \frac 1 2\]
- \[E(X) = p\]
- \[V(X) = pq\]
Loi Binomiale $B(n,p)$
Compte le nombre de 1 obtenus après $n$ expériences indépendantes de Bernoulli de paramètre $p$.
$X_1, ⋯, X_n \rightsquigarrow B(p)$ indépendantes.
\[X = \sum\limits_{k=1}^n X_i\]compte le nombre de 1.
Avec $q=1-p$
- \[P(X=k) = \binom{n}{k} p^k q^{n-k}\]
- \(E(X) = np\) Dém: linéarité de l’espérance.
- \(V(X) = npq\) Dém : variance d’une somme de variables indépendante = la somme des variances (car les covariances sont nulles, car les espérances des produits sont les produits des espérances (car variables indépendantes)).
Loi Géométrique $𝒢(p)$
Donne le range d’arrivée du premier 1 obtenus dans une suite d’expériences indépendantes de Bernoulli de paramètre $p$.
$∀i∈ℕ^\ast, X_i \rightsquigarrow B(p)$, les $X_i$ étant indépendantes.
\[X = \begin{cases} +∞ \, \, \text{ si } \, \, ∀i, X_i = 0 \\ j \, \, \text{ si } \, \, ∀i<j; X_i = 0 ∧ X_j = 1 \end{cases}\]Avec $q=1-p$
-
Si $j ∈ ℕ^\ast$,
- $P(X=j) = q^{j-1}p$ si $j>0$
- $P(X=+∞) = 0$
- \[E(X) = \sum\limits_{j≥1} j(1-p)^{j-1}p = \frac 1 p\]
- \[V(X) = \sum\limits_{j≥1} j^2(1-p)^{j-1}p - \frac 1 p = \frac{q}{p^2}\]
Loi de Poisson $𝒫(𝜆)$
Compte des choses qui n’arrivent pas souvent : c’est la limite en loi de $B(n, \frac{𝜆}{n})$.
Avec $q=1-p$
- \[P(X=n) = {\rm e}^{-𝜆} \frac{𝜆^n}{n!}\]
- \[E(X) = {\rm e}^{-𝜆} \sum\limits_{n≥0} n \frac{𝜆^n}{n!} = 𝜆\]
- \[V(X) = 𝜆\]
Exemples
Le problème des anniversaires
Dans une classe de $n$ étudiants, quelle est la proba que (au moins) deux étudiants soient nés le même jour ? (En supposant les dates de naissance uniformément réparties dans l’année).
“Les $n$ étudiants nés tous à des dates différentes” se modélise par un événement :
\[\{(d_1, ⋯, d_n) \vert ∀i≠j, d_i ≠d_j\} ⊆ [1, 365]^n\]de proba
\[\frac{365×364×⋯×(365-(n-1))}{365^n} \\ = \Big(1-\frac{1}{365 }\Big)\Big(1-\frac{2}{365 }\Big) ⋯ \Big(1-\frac{n-1}{365 }\Big)\]Un calcul assure que la proba que deux étudiant au moins soient nés le même jour est
- $≥0,5$ pour $n≥23$
- $≥0,89$ pour $n≥40$
Le problème du collectionneur de coupons
Quel est le nombre moyen de boîtes de céréales à acheter pour avoir toute la collection des $N$ photos de basketteurs à collectionner ?
Pour $i∈\lbrace 1, ⋯, N\rbrace$, soit $T_i$ le nombre de boîtes à acheter une fois obtenus $(i-1)$ objets pour obtenir le $i$-ième
- $T_1 = 1$
-
Pour $k≥1$ : $P(T_2 = k) = \big(\frac 1 N\big)^{k-1} \big(1 - \frac 1 N\big)$
Donc $T_2 \leadsto 𝒢\big(1-\frac 1 N\big)$
-
Pour $k≥1$ : $P(T_i = k) = \big(\frac{(i-1)}{N}\big)^{k-1} \big(1 - \frac{(i-1)}{N}\big)$
Donc $T_i \leadsto 𝒢\big(1-\frac{(i-1)}{N})$
La v.a comptant le nb de boîtes achetées est
\[\sum_1^N T_i\]Le nb moyen de boîtes achetées est :
\[E\left(\sum_1^N T_i\right) = \sum_1^N E(T_i) \\ = N \sum_1^N \frac{1}{N-(i-1)} \\ = N \sum_1^N \frac{1}{i} \\ = N H_N \sim N \log N\]NB :
-
On peut démontrer que c’est quand les objets sont uniformément répartis que cette espérance est minimale.
-
Si on diminue la proba d’un seul objet arbitrairement, l’espérance peut devenir arbitrairement grande.
Le problème de l’expéditeur étourdi
Un très mauvais expéditeur insère $n$ lettres dans $n$ enveloppes destinées à une adresse, au hasard.
Cette attribution aléatoire définit une permutation de $𝕾_n$.
- Dérangement :
-
permutation sans point fixe.
NB : dans les algorithmes de tri, ce sont souvent ces permutations qui provoquent le pire cas.
Quelle est la proba d’avoir un dérangement ?
Dans $𝕾_n$ :
Si $i∈⟦1,n⟧$,
\[F_i ≝ \{𝜎∈𝕾_n \vert 𝜎(i)=i\}\]Si $i_1 < ⋯ <i_p$,
\[F_{\lbrace i_1, ⋯, i_p \rbrace} ≝ F_{i_1} ∩ ⋯ ∩ F_{i_p}\]⟶ \(\vert F_I \vert = (n-\vert I \vert)!\)
Par la formule du Crible :
\[\vert \lbrace \text{permutations avec au moins un point fixe}\rbrace \vert = \vert \bigcup\limits_{i=1}^n F_i \vert \\ = \sum\limits_{i=1}^n \vert F_i \vert - \sum\limits_{\vert I \vert = 2} \vert F_I \vert + \sum\limits_{\vert I \vert = 3} \vert F_I \vert + ⋯ + (-1)^{n-1} \sum\limits_{\vert I \vert = n} \vert F_I \vert \\ = n(n-1)! - \binom{n}{2}(n-2)! + ⋯ + (-1)^{n-1}\]La proba cherchée vaut donc :
\[\frac{1}{2!} - ⋯ + \frac{(-1)^{n}}{n!}\]La proba d’avoir un dérangement tend vers $1/e$ lorsque $n$ tend vers $+∞$.
II. Probabilités conditionnelles
Cadre mathématique
$(𝛺, 𝒯, p)$ espace probabilisé.
Soit $B$ un événement non négligeable.
La proba conditionnée par $B$ est :
\[P(\bullet \vert B) = A \mapsto P(A∩B)/P(B)\]Proposition : on vérifie aisément que ça reste une probabilité.
NB :
- Si $A⊆ B^c$, $P(A\vert B) = 0$
-
Si $A$ et $B$ sont indépendants,
\[P(A\vert B) = P(A)\]
Formule des probablités totales :
Soit $\lbrace B_i \rbrace_{i∈I}$ un système complet d’événements, i.e une famille d’événement
- non négligeables
- deux à deux disjoints
- dont la réunion vaut l’espace entier
Alors pour tout événement $A$, \(P(A) = \sum_{i∈I} \underbrace{P(A\vert B_i) P(B_i)}_{= P(A∩B_i)}\)
Formule de Bayes :
Si $A$ et $B$ sont non négligeables,
\[P(A\vert B) P(B) = P(B\vert A) P(A)\]$(= P(A∩B))$
Conditionnement d’une variable aléatoire par une autre
$X, Y$ deux variables aléatoires discrètes.
$Y$ prend ses valeurs dans un ensemble $E$ tq
\[∀x∈E, P(Y=x)≠0\]On peut conditionner $X$ par $(Y=x)$
$(X \vert Y=x)$ est une v.a de loi :
\(P(X=z \vert Y=x)\) pour $z∈E$.
On définit $(X \vert Y)$ la v.a définie par :
pour tout $x∈E$, elle prend la valeur
\[(X \vert Y=x)\]III. Chaînes de Markov (à ensemble d’états fini et homogènes)s
Introduction
- Chaîne de Markov homgoène à ensemble d’états fini :
-
c’est une promenade aléatoire sur un graphe fini.
Exemples
Jeu de Penney (cf. TD7)
Alice et Bob jouent à pile ou face, et l’un des deux gagne dès qu’il/elle tombe sur son motif.
Ex :
- Motif d’Alice : PFF
- Motif de Bob : PPF
digraph {
rankdir=LR;
0 -> 0[label="F"];
0 -> 1[label="P"];
1 -> 2[label="P"];
2 -> 2[label="P"];
2 -> Bob_gagne[label="F"];
1 -> 3[label="F"];
3 -> 1[label="P"];
3 -> Alice_gagne[label="F"];
}
Chaque arête est de proba $1/2$ (si la pièce est équilibrée).
Une partie correspond à la lecture d’un mot dans cet automate.
Collectionneur d’objets
digraph {
rankdir=LR;
kplus[label="k+1"];
⋯2[label="⋯"];
0 -> 1[label="1"];
1 -> 1[label="1/N"];
1 -> 2[label="(N-1)/N"];
2 -> 2[label="2/N"];
2 -> 3[label="(N-2)/N"];
3 -> ⋯;
⋯ -> k;
k -> k[label="k/N"];
k -> kplus[label="(N-k)/N"];
kplus -> ⋯2;
⋯2 -> N;
}
Leave a comment