Cours 9 : Statistiques

Statistiques : Aperçu

Quelle loi choisir pour modéliser

un phénomène probabiliste ?
un phénomène qu’on ne peut modéliser de manière exhaustive ?

Phénomène ⟶ Modélisé par une v.a

Problème : Loi de la v.a ?

NB : En général, le type de loi, avec leurs paramètres, est connu :

Exs :

Sondage Oui/Non : une loi binomiale : $B(n,p)$
Temps de vie de matériel en industrie : loi de Poisson $𝒫(𝜆)$
Loi normale : notes à un examen $N(𝜎,m)$

Type de la loi : propre au problème étudié
Paramètre de la loi : ex : $𝜆$ pour $𝒫(𝜆)$

⟶ On fait une observation du phénomène, pour estimer une valeur du paramètre.

Échantillon :

Valeurs prises par des copies indépendantes de la v.a utilisée pour modéliser le phénomène :

$X_1, ⋯, X_n \overset{\text{valeurs prises}}{⟶} (x_1, ⋯, x_n)$

Empirique	Théorique
$(x_1, ⋯, x_n)$	$(X_1, ⋯, X_n)$

Ex :

Sondage : on essaye d’évaluer le pourcentage de votes pour le candidat $A$, nombre de votes pour le candidat $B$.

Indicateurs :: mesures qui nous donnent des informations sur les valeurs empiriques/théoriques.

Ex : pour une loi uniforme :

Moyenne : $\frac 1 n \sum_1^n x_i$
Variance : $\frac 1 n \sum_1^n (x_i-\frac 1 n \sum_j x_j)^2$

médiane, écart-type, …

Outils

Loi des grands nombres : $X_i$ indépendantes et identiquement distribuées (iid), $E(X_i)=m$ :
\[\frac 1 n \sum_1^n X_i ⟶ m\]
- convergence en proba (loi faible)
- convergence presque sûre (loi forte)
Théorème centrale limite :
\[\frac{\frac 1 n \sum_1^n X_i - m}{𝜎/\sqrt{n}} \overset{\text{loi}}{⟶} N(0,1)\]
- Loi normale : $P(X≤x) = \frac{1}{\sqrt{2𝜋}} \int_{-∞}^x \exp(-t^2/2)dt$

Test de $𝜒^2$ : convergence de la variance

Méthodes pour essayer d’estimer les choses

Maximum de vraisemblance
Estimation bayesienne
Test d’hypothèse
Intervalle de confiance

Maximum de vraisemblance

$(X_1, ⋯, X_n)$ iid de loi dépendant d’un paramètre $𝜃$.

$(x_1, ⋯, x_n)$ valeurs de l’échantillon.

\[f(𝜃) = P_𝜃(X_1=x_1, ⋯, X_n=x_n) = \prod_1^n P_𝜃(X_i = x_i)\]

On cherche à maximiser $f(𝜃)$. On va obtenir comme valeur $𝜃_0$ qui maximise la probabilité d’avoir obtenu ces valeurs de l’échantillon ⟶ calcul différentiel.

(En fait, on passe au logarithme)

Ex :

Bernoulli de paramètre $p$.

\[P(X_1=x_1, ⋯, X_n = x_n) = p^{x_1 + ⋯ + x_n}(1-p)^{n-x_1-⋯ -x_n} = p^s (1-p)^{n-s}\]

où $s = \sum_i x_i$

On cherche à maximiser

\[g(p) = s \ln p + (n-s) \ln(1-p)\] \[⟹ g'(p) = \frac s p - \frac{n-s}{1-p} = \frac{s-np}{p(1-p)}\] \[g'(p)= 0 ⟺ p = \frac s n = \frac 1 n \sum_i x_i\]

Le paramètre qui maximise $f$ est la moyenne des paramètres.

Estimation bayesienne

$X_1, ⋯, X_n$ : non observables.

Ce qui est observable : $Y_1, ⋯, Y_n$, où $Y_i = f_i(X_1, ⋯, X_n)$

Connu : $P(Y_i \vert X_1, ⋯, X_n)$

on “inverse le système” :

\[P(Y_i = y) = \sum_{x_1, ⋯, x_n} P(Y_i = y \vert X_1=x_1, ⋯, X_n=x_n) P(X_1 = x_1, ⋯, X_n=x_n)\]

NB :

dans le meilleur des cas : le système est linéaire.
beaucoup utilisé en apprentissage statistique

Test d’hypothèse

Hypothèse : faites sur le paramètre $𝜃$ d’une loi : deux hypothèses :

$H_0 : 𝜃 = p_0$
$H_1 : 𝜃 ≠ p_0 ∨ 𝜃>p_0 ∨ 𝜃<p_0$

On évalue la proba de l’échantillon pour l’hypothèse : si elle est trop petite (dépend d’un niveau de confiance), on rejette l’hypothèse.

NB :

Trouver un compromis entre le niveau de confiance (précision) et l’efficacité du test
si le niveau de confiance est trop grand : on rejette à coup sûr, car on n’a qu’un échantillon (on manque d’information).
La plupart du temps, le niveau de confiance = 95%

⟶ Si le test infirme avec une bonne proba : on peut rejeter l’hypothèse avec cette proba

⟶ Si le test confirme avec une bonne proba : on ne peut rien dire !

Attention aux confirmations de biais !

Ex :

$p$-valeur : valeur extrémale qui maximise la probabilité de rejet du test d’hypothèse.

Intervalle de confiance

Ex :

Rappel sur l’inégalité de Bienaymé-Tchebychev.

\[P(\vert X - E(X) \vert > 𝜀) ≤ \frac{𝜎^2}{𝜀^2}\]

$∀𝜀>0$,

$(X_1, ⋯, X_n)$ $X_i$ iid

\[P(\Big\vert \frac 1 n \sum_1^n X_i - \underbrace{E(X_i)}_{ ≝ m} \Big\vert > 𝜀) ≤ \frac{𝜎^2}{n 𝜀^2}\]

On veut minimiser $\frac{𝜎^2}{n 𝜀^2}$.

On suppose qu’on s’est donné $1-𝛼$ un niveau de confiance (le plus souvent $0,95$) et qu’on peut garantir que

\[\frac{𝜎^2}{n 𝜀^2} ≤ 𝛼\]

(choix de $n$ pour profiter du th. central limite, propriété de $𝜎$)

NB : on ne connaît pas $m$, donc a fortiori pas $𝜎$.

alors

\[\frac 1 n \sum_1^n X_i - 𝜀 ≤ E(X_i) ≤ \frac 1 n \sum_1^n X_i + 𝜀\]

avec probabilité $≥ 1-𝛼$

L’inégalité au-dessus définit l’intervalle de fluctuation

\[\left[\frac 1 n \sum_1^n X_i - 𝜀, \frac 1 n \sum_1^n X_i + 𝜀\right]\]

L’échantillon $(x_1, ⋯, x_n)$ définit un intervalle

\[\left[\frac 1 n \sum_1^n x_i - 𝜀, \frac 1 n \sum_1^n x_i + 𝜀\right]\]

dans lequel est la moyenne avec probabilité $1-𝛼$.

NB : avec $𝜀 = \frac{1}{\sqrt{n}}$, le majorant $\frac{𝜎^2}{n 𝜀^2}$ ne dépend plus de $n$.

Share on

Twitter Facebook Google+ LinkedIn

Statistiques : Aperçu

Outils

Méthodes pour essayer d’estimer les choses

Maximum de vraisemblance

Estimation bayesienne

Test d’hypothèse

Intervalle de confiance

Share on

Leave a comment