Cours 6 : Probabilités

Introduction

Où les probas sont-elles présentes en informatique ?

Évaluation de performance :
- complexité
- correction
- résultats en moyenne, etc…
de façon générale : on utilise les probas quand on ne sait pas faire autrement.
- quand on est bloqué quelque part, les probas introduites “artificiellment” peuvent aider à “décoincer” la situation
  - exs :
    - protocoles en concurrence, etc…
    - modélisation d’un environnement : c’est beaucoup plus “régulé” qu’avec du non-déterminisme

Débat philosophique : est-ce que les probas relèvent du déterminisme ou non ?

Ex : résultat à un examen :

pour le prof : point de vue probabiliste
pour un élève donné : non déterministe

Caractère probabiliste = du non-déterministe régulé

Pour un matheux : les probas = une construction mathématique

Pour un physicien / informaticien :

l’aspect statistique est très important ⟶ que vaut $P$ ?
la pertinence du modèle est très importante

On se sert du peu d’information qu’on a :

ex : élections, etc…

choses qualitatives qui n’intéressent absolument pas les mathématiciens : en quoi l’échantillon de population choisie est-il représentatif de la population ?

Aujourd’hui : tout le monde fait des probas :

les biologistes
les physiciens
les sciences de l’ingénieur
les informaticiens
les mathématiciens

Attention : les statistiques appliquées ressemblent un peu aux protocoles de chimie :

on fait une hypothèse, et on corrobore cette hypothèse

Mais ce qui fait le succès de la démarche, c’est la pertinence de l’hypothèse :

elle se base sur un historique de causes-effets
etc…

Il faut comprendre quelque chose qui est dur à avaler pour un matheux :

quand on dit “soit $P$” une proba

⟶ on n’obtiendra jamais la vraie valeur de $P$ en pratique

⟶ on n’utilise que des théorèmes de convergence (en loi, en proba, presque sûre, etc …)

NB : on aura une petite bilbiothèque de problèmes qui nous serviront de “boîte à outils” (ex: problème du collectionneur, etc…)

Généralités

Espace de probabilité

Trouver un bon espace de proba : problème qui peut être très difficile en pratique :

si l’espace est trop grand : proba nulle
si trop petit : proba égale à 1
il faut trouver la bonne échelle “mésoscopique” où considérer nos objets

Paradoxe de Bertrand :

On a un triangle équilatéral inscrit dans un cercle.

Question : quelle est la proba qu’une corde prise “au hasard” soit plus grande que la longueur des côtés du triangle.

Trois modélisations possibles incompatibles :

Proba = $1/3$
- car en fixant un sommet $A$ du triangle, et en traçant une droite passant par ce sommet, on remarque que :
  - si la droite intersecte le côté opposé à $A$ : corde plus longue
  - sinon : corde plus courte
  - on procède de même pour une droite ne passant pas par $A$, en prenant $A$ comme “référentiel”.
Proba = $𝜋𝜌^2/𝜋 = 1/4$ où $𝜌$ est le rayon du cercle inscrit
- on remarque qu’une corde est entièrement déterminée par son milieu (à part si c’est un diamètre) qui est un point du disque.
- en considérant le cercle inscrit au triangle : il faut et il suffit que le milieu soit dans ce disque pour que la corde soit plus grande
Proba = $1/2$
- en utilisant la symétrie circulaire : toute corde est déterminée par son point d’intersection avec le rayon qui lui est orthogonal.
- si elle est dans la moitié du rayon la plus proche du centre : la corde est plus grande
- sinon : elle est plus petite.

Soit $𝛺$ un ensemble.

Tribu $𝒯⊆𝒫(𝛺)$ sur $𝛺$ :

$𝛺∈𝒯$
Si $A∈𝒯$, $A^c∈𝒯$
Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$, l’union le reste

Espace probabilisable :

la donnée d’un couple $(𝛺, 𝒯)$, où $𝒯⊆𝒫(𝛺)$.

Propriétés :

$∅∈𝒯$
Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$, l’intersection le reste
De même : toute intersection/union finie d’événements reste un événement.
Si $A, B ∈ 𝒯, A∩B^c ∈𝒯$

ex :

$\lbrace ∅, 𝛺\rbrace$ : tribu grossière
$𝒫(𝛺)$ : tribu discrète
notion de tribu engendrée par un ensemble : la plus petit le contenant

NB : Il nous faut un arsenal mathématique nous permettant de mesurer les éléments d’une tribu sans être capable pour autant de les décrire explicitement.

Probabilité $P : 𝒯 ⟶ [0,1]$ sur $(𝛺, 𝒯)$ :

$P(𝛺)=1$
Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$ et $∀i≠j, A_i ∩ A_j ≠ ∅$, alors
\[P(\bigcup_i A_i) = \sum\limits_{i≥0} P(A_i)\]

On a alors :

3) Si $A∈𝒯$, $P(A)+P(A^c) = 1$

Dém : on montre facilement que $P(∅)=0$, avec la propriété 2).

Puis : avec $𝛺 = A \sqcup A^c$

4) Croissance : si $A⊆B$, $P(A)≤P(B)$

Dém : avec la propriété précédente, et $B = B\backslash A \sqcup A$

5) Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$ est une suite croissante :

\[P(\bigcup_i A_i) = \lim_{i⟶∞} A_i\]

Dém :

La suite $(P(A_i))_i$ est convergente (croissante et bornée).

En posant, pour tout $i≥1$ :

\[B_i = A_i\backslash A_{i-1}\]
$B_0 = A_0$

Les $B_i$ sont deux à deux disjoints.

\[P(\bigcup_i A_i) = P(\bigcup_i B_i) = \sum\limits_{i∈ℕ} P(B_i) \\ = \lim_{n⟶∞} \underbrace{\sum\limits_{i=0}^n P(B_i)}_{ = P(A_i)}\]

NB : les séries à termes positifs ne posent aucun problème, car il se s’agit que de suites croissante. Mais attention quand le signe n’est pas constant !

6) De même :

Si $(A_n)_{n∈ℕ} ∈ 𝒯^ℕ$ est une suite décroissante :

\[P(\bigcap_i A_i) = \lim_{i⟶∞} A_i\]

2. Indépendance

$(𝛺, 𝒯, P)$ espace probabilisé.

Famille d’événements $(A_i)_{i∈I}$ indépendants :: $∀J⊆I, J \text{ finie }$, $P(\bigcap\limits_{j∈J} A_j) = \prod\limits_{j∈J} P(A_j)$

Ex :

Deux événements $A, B$ sont indépendants ssi :

\[P(A∩B) = P(A)P(B)\]

Propriétés :

Si $A$ et $B$ sont indépendants :

$A$ et $B^c$ le sont
$A^c$ et $B^c$ aussi
Pour toute famille d’événements $(A_i){i∈I}$ indépendants : la famille $(B_i){i∈I}$ le reste, où :
- $B_i = A_i$ OU $B_i = A_i^c$

3. Variables aléatoires

$(𝛺, 𝒯, P)$ espace probabilisé.

$E$ : espace probabilisable.

Variable aléatoire $X : 𝛺 ⟶ E$ munie de la proba :: $X$ est munie d’une proba $P_X$ définie par : $P_X(x) = P( \underbrace{X^{-1}(x)}_{≝ X=x} )$

Il y a deux cas :

$E$ discret : $x∈E; (X=x)∈𝒯$
$(E, 𝒰)$ espace probabilisable tel que

$X : 𝛺 ⟶ E$ mesurable :

$∀U∈𝒰, \, \, \underbrace{X^{-1}(U)}_{≝ X∈U} ∈ 𝒯$

et on pose :
\[P_X(U) = P( \underbrace{X^{-1}(U)}_{≝ X∈U} )\]

lorsque la variable $X$ est réelle ($E⊆ℝ$), on peut éventuellement lui associer une espérance est une variance.

Espérance de $X$ :: \[E(X) ≝ \sum\limits_{x∈E} x P(X=x)\]

\[\vert E(X) \vert ≤ E(\vert X \vert)\]

Variance de $X$ :: \[V(X) ≝ E((X-E(X))^2) = E(X^2) - E(X)^2\]

si ces quantités existent (même si elles valent $+∞$)

Si $X, Y$ sont indépendantes, et si ceci a un sens :
\[V(X+Y) = V(X) + V(Y)\]

NB :

Si $E = ℝ$ : variable à densité.
L’ensemble des fonctions de carré intégrable est préhilbertien (en quotientant par les fonctions de mesure nulle) :

Cauchy-Schwartz :
\[E(XY) ≤ \sqrt{E(X^2)}\sqrt{E(Y^2)}\]

Quelques lois classiques

Loi de Bernoulli $B(p)$

Prend deux valeurs : 0 et 1.

Avec $q=1-p$

\[P(X=0) = P(X=1) = \frac 1 2\]
\[E(X) = p\]
\[V(X) = pq\]

Loi Binomiale $B(n,p)$

Compte le nombre de 1 obtenus après $n$ expériences indépendantes de Bernoulli de paramètre $p$.

$X_1, ⋯, X_n \rightsquigarrow B(p)$ indépendantes.

\[X = \sum\limits_{k=1}^n X_i\]

compte le nombre de 1.

Avec $q=1-p$

\[P(X=k) = \binom{n}{k} p^k q^{n-k}\]
$E(X) = np$ Dém: linéarité de l’espérance.
$V(X) = npq$ Dém : variance d’une somme de variables indépendante = la somme des variances (car les covariances sont nulles, car les espérances des produits sont les produits des espérances (car variables indépendantes)).

Loi Géométrique $𝒢(p)$

Donne le range d’arrivée du premier 1 obtenus dans une suite d’expériences indépendantes de Bernoulli de paramètre $p$.

$∀i∈ℕ^\ast, X_i \rightsquigarrow B(p)$, les $X_i$ étant indépendantes.

\[X = \begin{cases} +∞ \, \, \text{ si } \, \, ∀i, X_i = 0 \\ j \, \, \text{ si } \, \, ∀i<j; X_i = 0 ∧ X_j = 1 \end{cases}\]

Avec $q=1-p$

Si $j ∈ ℕ^\ast$,
- $P(X=j) = q^{j-1}p$ si $j>0$
- $P(X=+∞) = 0$
\[E(X) = \sum\limits_{j≥1} j(1-p)^{j-1}p = \frac 1 p\]
\[V(X) = \sum\limits_{j≥1} j^2(1-p)^{j-1}p - \frac 1 p = \frac{q}{p^2}\]

Loi de Poisson $𝒫(𝜆)$

Compte des choses qui n’arrivent pas souvent : c’est la limite en loi de $B(n, \frac{𝜆}{n})$.

Avec $q=1-p$

\[P(X=n) = {\rm e}^{-𝜆} \frac{𝜆^n}{n!}\]
\[E(X) = {\rm e}^{-𝜆} \sum\limits_{n≥0} n \frac{𝜆^n}{n!} = 𝜆\]
\[V(X) = 𝜆\]

Exemples

Le problème des anniversaires

Dans une classe de $n$ étudiants, quelle est la proba que (au moins) deux étudiants soient nés le même jour ? (En supposant les dates de naissance uniformément réparties dans l’année).

“Les $n$ étudiants nés tous à des dates différentes” se modélise par un événement :

\[\{(d_1, ⋯, d_n) \vert ∀i≠j, d_i ≠d_j\} ⊆ [1, 365]^n\]

de proba

\[\frac{365×364×⋯×(365-(n-1))}{365^n} \\ = \Big(1-\frac{1}{365 }\Big)\Big(1-\frac{2}{365 }\Big) ⋯ \Big(1-\frac{n-1}{365 }\Big)\]

Un calcul assure que la proba que deux étudiant au moins soient nés le même jour est

$≥0,5$ pour $n≥23$
$≥0,89$ pour $n≥40$

Le problème du collectionneur de coupons

Quel est le nombre moyen de boîtes de céréales à acheter pour avoir toute la collection des $N$ photos de basketteurs à collectionner ?

Pour $i∈\lbrace 1, ⋯, N\rbrace$, soit $T_i$ le nombre de boîtes à acheter une fois obtenus $(i-1)$ objets pour obtenir le $i$-ième

$T_1 = 1$
Pour $k≥1$ : $P(T_2 = k) = \big(\frac 1 N\big)^{k-1} \big(1 - \frac 1 N\big)$

Donc $T_2 \leadsto 𝒢\big(1-\frac 1 N\big)$
Pour $k≥1$ : $P(T_i = k) = \big(\frac{(i-1)}{N}\big)^{k-1} \big(1 - \frac{(i-1)}{N}\big)$

Donc $T_i \leadsto 𝒢\big(1-\frac{(i-1)}{N})$

La v.a comptant le nb de boîtes achetées est

\[\sum_1^N T_i\]

Le nb moyen de boîtes achetées est :

\[E\left(\sum_1^N T_i\right) = \sum_1^N E(T_i) \\ = N \sum_1^N \frac{1}{N-(i-1)} \\ = N \sum_1^N \frac{1}{i} \\ = N H_N \sim N \log N\]

NB :

On peut démontrer que c’est quand les objets sont uniformément répartis que cette espérance est minimale.
Si on diminue la proba d’un seul objet arbitrairement, l’espérance peut devenir arbitrairement grande.

Le problème de l’expéditeur étourdi

Un très mauvais expéditeur insère $n$ lettres dans $n$ enveloppes destinées à une adresse, au hasard.

Cette attribution aléatoire définit une permutation de $𝕾_n$.

Dérangement :: permutation sans point fixe.

NB : dans les algorithmes de tri, ce sont souvent ces permutations qui provoquent le pire cas.

Quelle est la proba d’avoir un dérangement ?

Dans $𝕾_n$ :

Si $i∈⟦1,n⟧$,

\[F_i ≝ \{𝜎∈𝕾_n \vert 𝜎(i)=i\}\]

Si $i_1 < ⋯ <i_p$,

\[F_{\lbrace i_1, ⋯, i_p \rbrace} ≝ F_{i_1} ∩ ⋯ ∩ F_{i_p}\]

⟶ $\vert F_I \vert = (n-\vert I \vert)!$

Par la formule du Crible :

\[\vert \lbrace \text{permutations avec au moins un point fixe}\rbrace \vert = \vert \bigcup\limits_{i=1}^n F_i \vert \\ = \sum\limits_{i=1}^n \vert F_i \vert - \sum\limits_{\vert I \vert = 2} \vert F_I \vert + \sum\limits_{\vert I \vert = 3} \vert F_I \vert + ⋯ + (-1)^{n-1} \sum\limits_{\vert I \vert = n} \vert F_I \vert \\ = n(n-1)! - \binom{n}{2}(n-2)! + ⋯ + (-1)^{n-1}\]

La proba cherchée vaut donc :

\[\frac{1}{2!} - ⋯ + \frac{(-1)^{n}}{n!}\]

La proba d’avoir un dérangement tend vers $1/e$ lorsque $n$ tend vers $+∞$.

II. Probabilités conditionnelles

Cadre mathématique

$(𝛺, 𝒯, p)$ espace probabilisé.

Soit $B$ un événement non négligeable.

La proba conditionnée par $B$ est :

\[P(\bullet \vert B) = A \mapsto P(A∩B)/P(B)\]

Proposition : on vérifie aisément que ça reste une probabilité.

NB :

Si $A⊆ B^c$, $P(A\vert B) = 0$
Si $A$ et $B$ sont indépendants,
\[P(A\vert B) = P(A)\]

Formule des probablités totales :

Soit $\lbrace B_i \rbrace_{i∈I}$ un système complet d’événements, i.e une famille d’événement

non négligeables

deux à deux disjoints

dont la réunion vaut l’espace entier

Alors pour tout événement $A$, $P(A) = \sum_{i∈I} \underbrace{P(A\vert B_i) P(B_i)}_{= P(A∩B_i)}$

Formule de Bayes :

Si $A$ et $B$ sont non négligeables,
\[P(A\vert B) P(B) = P(B\vert A) P(A)\]
$(= P(A∩B))$

Conditionnement d’une variable aléatoire par une autre

$X, Y$ deux variables aléatoires discrètes.

$Y$ prend ses valeurs dans un ensemble $E$ tq

\[∀x∈E, P(Y=x)≠0\]

On peut conditionner $X$ par $(Y=x)$

$(X \vert Y=x)$ est une v.a de loi :

$P(X=z \vert Y=x)$ pour $z∈E$.

On définit $(X \vert Y)$ la v.a définie par :

pour tout $x∈E$, elle prend la valeur

\[(X \vert Y=x)\]

III. Chaînes de Markov (à ensemble d’états fini et homogènes)s

Introduction

Chaîne de Markov homgoène à ensemble d’états fini :: c’est une promenade aléatoire sur un graphe fini.

Exemples

Jeu de Penney (cf. TD7)

Alice et Bob jouent à pile ou face, et l’un des deux gagne dès qu’il/elle tombe sur son motif.

Ex :

Motif d’Alice : PFF
Motif de Bob : PPF

digraph {
        rankdir=LR;
    	0 -> 0[label="F"];
		0 -> 1[label="P"];
        1 -> 2[label="P"];
        2 -> 2[label="P"];
        2 -> Bob_gagne[label="F"];
        1 -> 3[label="F"];
        3 -> 1[label="P"];
        3 -> Alice_gagne[label="F"];
	}

Chaque arête est de proba $1/2$ (si la pièce est équilibrée).

Une partie correspond à la lecture d’un mot dans cet automate.

Collectionneur d’objets

digraph {
        rankdir=LR;
        kplus[label="k+1"];
        ⋯2[label="⋯"];
		0 -> 1[label="1"];
        1 -> 1[label="1/N"];
        1 -> 2[label="(N-1)/N"];
        2 -> 2[label="2/N"];
        2 -> 3[label="(N-2)/N"];
        3 -> ⋯;
        ⋯ -> k;
        k -> k[label="k/N"];
        k -> kplus[label="(N-k)/N"];
        kplus -> ⋯2;
        ⋯2 -> N;
	}

Share on

Twitter Facebook Google+ LinkedIn

Introduction

Généralités

Espace de probabilité

2. Indépendance

3. Variables aléatoires

Quelques lois classiques

Loi de Bernoulli $B(p)$

Loi Binomiale $B(n,p)$

Loi Géométrique $𝒢(p)$

Loi de Poisson $𝒫(𝜆)$

Exemples

Le problème des anniversaires

Le problème du collectionneur de coupons

Le problème de l’expéditeur étourdi

Quelle est la proba d’avoir un dérangement ?

II. Probabilités conditionnelles

Cadre mathématique

Conditionnement d’une variable aléatoire par une autre

III. Chaînes de Markov (à ensemble d’états fini et homogènes)s

Introduction

Exemples

Jeu de Penney (cf. TD7)

Collectionneur d’objets

Share on

Leave a comment