Cours 9 : Statistiques
Statistiques : Aperçu
Quelle loi choisir pour modéliser
- un phénomène probabiliste ?
- un phénomène qu’on ne peut modéliser de manière exhaustive ?
Phénomène ⟶ Modélisé par une v.a
- Problème : Loi de la v.a ?
NB : En général, le type de loi, avec leurs paramètres, est connu :
Exs :
- Sondage Oui/Non : une loi binomiale : $B(n,p)$
- Temps de vie de matériel en industrie : loi de Poisson $𝒫(𝜆)$
- Loi normale : notes à un examen $N(𝜎,m)$
- Type de la loi : propre au problème étudié
- Paramètre de la loi : ex : $𝜆$ pour $𝒫(𝜆)$
⟶ On fait une observation du phénomène, pour estimer une valeur du paramètre.
- Échantillon :
-
Valeurs prises par des copies indépendantes de la v.a utilisée pour modéliser le phénomène :
$X_1, ⋯, X_n \overset{\text{valeurs prises}}{⟶} (x_1, ⋯, x_n)$
Empirique | Théorique |
---|---|
$(x_1, ⋯, x_n)$ | $(X_1, ⋯, X_n)$ |
Ex :
Sondage : on essaye d’évaluer le pourcentage de votes pour le candidat $A$, nombre de votes pour le candidat $B$.
- Indicateurs :
-
mesures qui nous donnent des informations sur les valeurs empiriques/théoriques.
Ex : pour une loi uniforme :
- Moyenne : $\frac 1 n \sum_1^n x_i$
- Variance : $\frac 1 n \sum_1^n (x_i-\frac 1 n \sum_j x_j)^2$
médiane, écart-type, …
Outils
-
Loi des grands nombres : $X_i$ indépendantes et identiquement distribuées (iid), $E(X_i)=m$ :
\[\frac 1 n \sum_1^n X_i ⟶ m\]- convergence en proba (loi faible)
- convergence presque sûre (loi forte)
-
Théorème centrale limite :
\[\frac{\frac 1 n \sum_1^n X_i - m}{𝜎/\sqrt{n}} \overset{\text{loi}}{⟶} N(0,1)\]- Loi normale : $P(X≤x) = \frac{1}{\sqrt{2𝜋}} \int_{-∞}^x \exp(-t^2/2)dt$
Test de $𝜒^2$ : convergence de la variance
Méthodes pour essayer d’estimer les choses
-
Maximum de vraisemblance
-
Estimation bayesienne
-
Test d’hypothèse
-
Intervalle de confiance
Maximum de vraisemblance
$(X_1, ⋯, X_n)$ iid de loi dépendant d’un paramètre $𝜃$.
$(x_1, ⋯, x_n)$ valeurs de l’échantillon.
\[f(𝜃) = P_𝜃(X_1=x_1, ⋯, X_n=x_n) = \prod_1^n P_𝜃(X_i = x_i)\]On cherche à maximiser $f(𝜃)$. On va obtenir comme valeur $𝜃_0$ qui maximise la probabilité d’avoir obtenu ces valeurs de l’échantillon ⟶ calcul différentiel.
(En fait, on passe au logarithme)
Ex :
Bernoulli de paramètre $p$.
\[P(X_1=x_1, ⋯, X_n = x_n) = p^{x_1 + ⋯ + x_n}(1-p)^{n-x_1-⋯ -x_n} = p^s (1-p)^{n-s}\]où $s = \sum_i x_i$
On cherche à maximiser
\[g(p) = s \ln p + (n-s) \ln(1-p)\] \[⟹ g'(p) = \frac s p - \frac{n-s}{1-p} = \frac{s-np}{p(1-p)}\] \[g'(p)= 0 ⟺ p = \frac s n = \frac 1 n \sum_i x_i\]Le paramètre qui maximise $f$ est la moyenne des paramètres.
Estimation bayesienne
$X_1, ⋯, X_n$ : non observables.
Ce qui est observable : $Y_1, ⋯, Y_n$, où $Y_i = f_i(X_1, ⋯, X_n)$
Connu : $P(Y_i \vert X_1, ⋯, X_n)$
on “inverse le système” :
\[P(Y_i = y) = \sum_{x_1, ⋯, x_n} P(Y_i = y \vert X_1=x_1, ⋯, X_n=x_n) P(X_1 = x_1, ⋯, X_n=x_n)\]NB :
- dans le meilleur des cas : le système est linéaire.
- beaucoup utilisé en apprentissage statistique
Test d’hypothèse
Hypothèse : faites sur le paramètre $𝜃$ d’une loi : deux hypothèses :
- $H_0 : 𝜃 = p_0$
- $H_1 : 𝜃 ≠ p_0 ∨ 𝜃>p_0 ∨ 𝜃<p_0$
On évalue la proba de l’échantillon pour l’hypothèse : si elle est trop petite (dépend d’un niveau de confiance), on rejette l’hypothèse.
NB :
- Trouver un compromis entre le niveau de confiance (précision) et l’efficacité du test
- si le niveau de confiance est trop grand : on rejette à coup sûr, car on n’a qu’un échantillon (on manque d’information).
- La plupart du temps, le niveau de confiance = 95%
⟶ Si le test infirme avec une bonne proba : on peut rejeter l’hypothèse avec cette proba
⟶ Si le test confirme avec une bonne proba : on ne peut rien dire !
Attention aux confirmations de biais !
Ex :
$p$-valeur : valeur extrémale qui maximise la probabilité de rejet du test d’hypothèse.
Intervalle de confiance
Ex :
Rappel sur l’inégalité de Bienaymé-Tchebychev.
\[P(\vert X - E(X) \vert > 𝜀) ≤ \frac{𝜎^2}{𝜀^2}\]$∀𝜀>0$,
$(X_1, ⋯, X_n)$ $X_i$ iid
\[P(\Big\vert \frac 1 n \sum_1^n X_i - \underbrace{E(X_i)}_{ ≝ m} \Big\vert > 𝜀) ≤ \frac{𝜎^2}{n 𝜀^2}\]On veut minimiser $\frac{𝜎^2}{n 𝜀^2}$.
On suppose qu’on s’est donné $1-𝛼$ un niveau de confiance (le plus souvent $0,95$) et qu’on peut garantir que
\[\frac{𝜎^2}{n 𝜀^2} ≤ 𝛼\](choix de $n$ pour profiter du th. central limite, propriété de $𝜎$)
NB : on ne connaît pas $m$, donc a fortiori pas $𝜎$.
alors
\[\frac 1 n \sum_1^n X_i - 𝜀 ≤ E(X_i) ≤ \frac 1 n \sum_1^n X_i + 𝜀\]avec probabilité $≥ 1-𝛼$
L’inégalité au-dessus définit l’intervalle de fluctuation
\[\left[\frac 1 n \sum_1^n X_i - 𝜀, \frac 1 n \sum_1^n X_i + 𝜀\right]\]L’échantillon $(x_1, ⋯, x_n)$ définit un intervalle
\[\left[\frac 1 n \sum_1^n x_i - 𝜀, \frac 1 n \sum_1^n x_i + 𝜀\right]\]dans lequel est la moyenne avec probabilité $1-𝛼$.
NB : avec $𝜀 = \frac{1}{\sqrt{n}}$, le majorant $\frac{𝜎^2}{n 𝜀^2}$ ne dépend plus de $n$.
Leave a comment