Cours 1 : Introduction

Livres de référence:

Introduction

Vision:

essayer de tirer de l’information d’images/de vidéos
l’information vient d’un monde en 3D, projeté sur image en 2D
- lien étroit en 2D et 3D

Conférences / Communauté:

Computer Vision: CVPR, ICCV, ECCV, IJCV, …
Machine Learning: NIPS, ICML, …
Computer Graphics:
- travailler sur des images pour les rendre plus réalistes
- tirer des images à partir de modèles 3D
Robotics:
- expérience célèbre de sciences cognitives: manège avec 2 animaux ⟶ l’un pouvant se mouvoir, l’autre étant obligé de suivre
- ⟹ pour pouvoir comprendre le monde environnant, on a besoin d’interagir avec le monde
Human/Computer Interaction
Image processing: on ne s’intéresse qu’à la 2D
Imagerie médicale
Neurosciences
Computational photography: essayer de faire des traitements intelligents sur des photos
Photogrammetry: satellites, …

Vision: très difficile

Place dans le cerveau:

Extraire un contour: très difficile de concevoir des algorithmes.
Mettre en correspondance différentes frames d’une vidéo: très compliqué, algos par force brute ⟶ explosion combinatoire
Effets de lumière: rendent la chose encore plus compliquée, variations non linéaires, etc…
On perd beaucoup d’information sur la “nature” des choses qu’on observe

Ce qu’on peut faire aujourd’hui:

si on a assez de données, la vision artificielle s’approche de très près des capacités de reconnaissance humaine

Caméra: “machine pour transformer 3D en 2D”

Segmentation: reconnaître un groupe d’objets (personnes, fleurs, etc…) dans une image
Déformations: détecter déplacements/déformations dans des vidéos
Suivre des objets sur des temps longs
Reconnaître des instances (ex: Tour Eiffel, etc…)

⟶ méthode de résolution: réseaux de neurones

succession d’opérations “simples”
vecteurs de dimension $n$, chaque dimension correspondant à une “catégorie d’objets”

Principe de la chambre noire.

Modèle théorique:

Modèle d’image:: function continue $I : ℝ^2 ⟶ ℝ \text{ (niveaux de gris) ou } ℝ^3 \text{ (couleur)}$
Image discrète (de taille $w×h$):: \[I : ⟦0, w-1⟧×⟦0, h-1⟧ ⟶ ⟦0,255⟧^3\]
Histogramme:: \[H_I(i) ≝ \vert \lbrace x \mid I(x) = i\rbrace \vert\]

Effet HDR:

\[I ⟶ f \circ I\]

où $f$ est une function croissante.

Histogramme cumulé:: \[C_I(i) ≝ \vert \lbrace x \mid I(x) < i\rbrace \vert\]

\[C_{f \circ I} = C_I \circ f^{-1}\]

⟶ on prend

\[f = C_{target}^{-1} \circ C_I\]

Lentille: pour avoir une ouverture importante sans avoir de flou sur l’image

Aberration chromatique: dans des milieux à indice de réfraction différent du vide, pas la même longueur d’onde selon les couleurs.

Distortion: due à la lentille ⟶ lentille précisée dans les méta-données de la photo ⟹ distortion corrigée par logiciel

Lentille ⟹ introduit un effet de profondeur de champ