Cours 1 : Introduction

Livres de référence:

  • “Computer Vision: a modern approach (Ponce)”
  • R.Szeliski

Introduction

Vision:

  • essayer de tirer de l’information d’images/de vidéos
  • l’information vient d’un monde en 3D, projeté sur image en 2D

    • lien étroit en 2D et 3D

Conférences / Communauté:

  • Computer Vision: CVPR, ICCV, ECCV, IJCV, …
  • Machine Learning: NIPS, ICML, …
  • Computer Graphics:

    • travailler sur des images pour les rendre plus réalistes
    • tirer des images à partir de modèles 3D
  • Robotics:

    • expérience célèbre de sciences cognitives: manège avec 2 animaux ⟶ l’un pouvant se mouvoir, l’autre étant obligé de suivre
    • ⟹ pour pouvoir comprendre le monde environnant, on a besoin d’interagir avec le monde
  • Human/Computer Interaction
  • Image processing: on ne s’intéresse qu’à la 2D
  • Imagerie médicale
  • Neurosciences
  • Computational photography: essayer de faire des traitements intelligents sur des photos
  • Photogrammetry: satellites, …

Vision: très difficile

Place dans le cerveau:

  • pour un macaque: 50% du cerveau
  • humains: quasiment la totalité
  1. Extraire un contour: très difficile de concevoir des algorithmes.

  2. Mettre en correspondance différentes frames d’une vidéo: très compliqué, algos par force brute ⟶ explosion combinatoire

  3. Effets de lumière: rendent la chose encore plus compliquée, variations non linéaires, etc…

  4. On perd beaucoup d’information sur la “nature” des choses qu’on observe

Ce qu’on peut faire aujourd’hui:

  • si on a assez de données, la vision artificielle s’approche de très près des capacités de reconnaissance humaine

Page du cours

Appareils d’imagerie

Caméra: “machine pour transformer 3D en 2D”

  • Segmentation: reconnaître un groupe d’objets (personnes, fleurs, etc…) dans une image

  • Déformations: détecter déplacements/déformations dans des vidéos

  • Suivre des objets sur des temps longs

  • Reconnaître des instances (ex: Tour Eiffel, etc…)

⟶ méthode de résolution: réseaux de neurones

  • succession d’opérations “simples”
  • vecteurs de dimension $n$, chaque dimension correspondant à une “catégorie d’objets”

Comment fonctionne une caméra?

Principe de la chambre noire.

Modèle théorique:

Modèle d’image:

function continue \(I : ℝ^2 ⟶ ℝ \text{ (niveaux de gris) ou } ℝ^3 \text{ (couleur)}\)

Image discrète (de taille $w×h$):
\[I : ⟦0, w-1⟧×⟦0, h-1⟧ ⟶ ⟦0,255⟧^3\]
Histogramme:
\[H_I(i) ≝ \vert \lbrace x \mid I(x) = i\rbrace \vert\]

Effet HDR:

\[I ⟶ f \circ I\]

où $f$ est une function croissante.


Histogramme cumulé:
\[C_I(i) ≝ \vert \lbrace x \mid I(x) < i\rbrace \vert\]
\[C_{f \circ I} = C_I \circ f^{-1}\]

⟶ on prend

\[f = C_{target}^{-1} \circ C_I\]

Lentille: pour avoir une ouverture importante sans avoir de flou sur l’image

Aberration chromatique: dans des milieux à indice de réfraction différent du vide, pas la même longueur d’onde selon les couleurs.

Distortion: due à la lentille ⟶ lentille précisée dans les méta-données de la photo ⟹ distortion corrigée par logiciel

Lentille ⟹ introduit un effet de profondeur de champ

Leave a comment