Cours 9 : Statistiques
Statistiques : Aperçu
Quelle loi choisir pour modéliser
- un phénomène probabiliste ?
- un phénomène qu’on ne peut modéliser de manière exhaustive ?
Phénomène ⟶ Modélisé par une v.a
- Problème : Loi de la v.a ?
NB : En général, le type de loi, avec leurs paramètres, est connu :
Exs :
- Sondage Oui/Non : une loi binomiale :
- Temps de vie de matériel en industrie : loi de Poisson
- Loi normale : notes à un examen
- Type de la loi : propre au problème étudié
- Paramètre de la loi : ex :
pour
⟶ On fait une observation du phénomène, pour estimer une valeur du paramètre.
- Échantillon :
-
Valeurs prises par des copies indépendantes de la v.a utilisée pour modéliser le phénomène :
Empirique | Théorique |
---|---|
Ex :
Sondage : on essaye d’évaluer le pourcentage de votes pour le candidat
- Indicateurs :
-
mesures qui nous donnent des informations sur les valeurs empiriques/théoriques.
Ex : pour une loi uniforme :
- Moyenne :
- Variance :
médiane, écart-type, …
Outils
-
Loi des grands nombres :
indépendantes et identiquement distribuées (iid), :- convergence en proba (loi faible)
- convergence presque sûre (loi forte)
-
Théorème centrale limite :
- Loi normale :
- Loi normale :
Test de
Méthodes pour essayer d’estimer les choses
-
Maximum de vraisemblance
-
Estimation bayesienne
-
Test d’hypothèse
-
Intervalle de confiance
Maximum de vraisemblance
On cherche à maximiser
(En fait, on passe au logarithme)
Ex :
Bernoulli de paramètre
où
On cherche à maximiser
Le paramètre qui maximise
Estimation bayesienne
Ce qui est observable :
Connu :
on “inverse le système” :
NB :
- dans le meilleur des cas : le système est linéaire.
- beaucoup utilisé en apprentissage statistique
Test d’hypothèse
Hypothèse : faites sur le paramètre
On évalue la proba de l’échantillon pour l’hypothèse : si elle est trop petite (dépend d’un niveau de confiance), on rejette l’hypothèse.
NB :
- Trouver un compromis entre le niveau de confiance (précision) et l’efficacité du test
- si le niveau de confiance est trop grand : on rejette à coup sûr, car on n’a qu’un échantillon (on manque d’information).
- La plupart du temps, le niveau de confiance = 95%
⟶ Si le test infirme avec une bonne proba : on peut rejeter l’hypothèse avec cette proba
⟶ Si le test confirme avec une bonne proba : on ne peut rien dire !
Attention aux confirmations de biais !
Ex :
Intervalle de confiance
Ex :
Rappel sur l’inégalité de Bienaymé-Tchebychev.
On veut minimiser
On suppose qu’on s’est donné
(choix de
NB : on ne connaît pas
alors
avec probabilité
L’inégalité au-dessus définit l’intervalle de fluctuation
L’échantillon
dans lequel est la moyenne avec probabilité
NB : avec
Leave a comment