Cours 1 : Introduction
Livres de référence:
- “Computer Vision: a modern approach (Ponce)”
- R.Szeliski
Introduction
Vision:
- essayer de tirer de l’information d’images/de vidéos
-
l’information vient d’un monde en 3D, projeté sur image en 2D
- lien étroit en 2D et 3D
Conférences / Communauté:
- Computer Vision: CVPR, ICCV, ECCV, IJCV, …
- Machine Learning: NIPS, ICML, …
-
Computer Graphics:
- travailler sur des images pour les rendre plus réalistes
- tirer des images à partir de modèles 3D
-
Robotics:
- expérience célèbre de sciences cognitives: manège avec 2 animaux ⟶ l’un pouvant se mouvoir, l’autre étant obligé de suivre
- ⟹ pour pouvoir comprendre le monde environnant, on a besoin d’interagir avec le monde
- Human/Computer Interaction
- Image processing: on ne s’intéresse qu’à la 2D
- Imagerie médicale
- Neurosciences
- Computational photography: essayer de faire des traitements intelligents sur des photos
- Photogrammetry: satellites, …
Vision: très difficile
Place dans le cerveau:
- pour un macaque: 50% du cerveau
- humains: quasiment la totalité
-
Extraire un contour: très difficile de concevoir des algorithmes.
-
Mettre en correspondance différentes frames d’une vidéo: très compliqué, algos par force brute ⟶ explosion combinatoire
-
Effets de lumière: rendent la chose encore plus compliquée, variations non linéaires, etc…
-
On perd beaucoup d’information sur la “nature” des choses qu’on observe
Ce qu’on peut faire aujourd’hui:
- si on a assez de données, la vision artificielle s’approche de très près des capacités de reconnaissance humaine
Appareils d’imagerie
Caméra: “machine pour transformer 3D en 2D”
-
Segmentation: reconnaître un groupe d’objets (personnes, fleurs, etc…) dans une image
-
Déformations: détecter déplacements/déformations dans des vidéos
-
Suivre des objets sur des temps longs
-
Reconnaître des instances (ex: Tour Eiffel, etc…)
⟶ méthode de résolution: réseaux de neurones
- succession d’opérations “simples”
- vecteurs de dimension $n$, chaque dimension correspondant à une “catégorie d’objets”
Comment fonctionne une caméra?
Principe de la chambre noire.
Modèle théorique:
- Modèle d’image:
-
function continue \(I : ℝ^2 ⟶ ℝ \text{ (niveaux de gris) ou } ℝ^3 \text{ (couleur)}\)
- Image discrète (de taille $w×h$):
- \[I : ⟦0, w-1⟧×⟦0, h-1⟧ ⟶ ⟦0,255⟧^3\]
- Histogramme:
- \[H_I(i) ≝ \vert \lbrace x \mid I(x) = i\rbrace \vert\]
Effet HDR:
\[I ⟶ f \circ I\]où $f$ est une function croissante.
- Histogramme cumulé:
- \[C_I(i) ≝ \vert \lbrace x \mid I(x) < i\rbrace \vert\]
⟶ on prend
\[f = C_{target}^{-1} \circ C_I\]Lentille: pour avoir une ouverture importante sans avoir de flou sur l’image
Aberration chromatique: dans des milieux à indice de réfraction différent du vide, pas la même longueur d’onde selon les couleurs.
Distortion: due à la lentille ⟶ lentille précisée dans les méta-données de la photo ⟹ distortion corrigée par logiciel
Lentille ⟹ introduit un effet de profondeur de champ
Leave a comment