Cours 1 : Introduction

Livres de référence:

  • “Computer Vision: a modern approach (Ponce)”
  • R.Szeliski

Introduction

Vision:

  • essayer de tirer de l’information d’images/de vidéos
  • l’information vient d’un monde en 3D, projeté sur image en 2D

    • lien étroit en 2D et 3D

Conférences / Communauté:

  • Computer Vision: CVPR, ICCV, ECCV, IJCV, …
  • Machine Learning: NIPS, ICML, …
  • Computer Graphics:

    • travailler sur des images pour les rendre plus réalistes
    • tirer des images à partir de modèles 3D
  • Robotics:

    • expérience célèbre de sciences cognitives: manège avec 2 animaux ⟶ l’un pouvant se mouvoir, l’autre étant obligé de suivre
    • ⟹ pour pouvoir comprendre le monde environnant, on a besoin d’interagir avec le monde
  • Human/Computer Interaction
  • Image processing: on ne s’intéresse qu’à la 2D
  • Imagerie médicale
  • Neurosciences
  • Computational photography: essayer de faire des traitements intelligents sur des photos
  • Photogrammetry: satellites, …

Vision: très difficile

Place dans le cerveau:

  • pour un macaque: 50% du cerveau
  • humains: quasiment la totalité
  1. Extraire un contour: très difficile de concevoir des algorithmes.

  2. Mettre en correspondance différentes frames d’une vidéo: très compliqué, algos par force brute ⟶ explosion combinatoire

  3. Effets de lumière: rendent la chose encore plus compliquée, variations non linéaires, etc…

  4. On perd beaucoup d’information sur la “nature” des choses qu’on observe

Ce qu’on peut faire aujourd’hui:

  • si on a assez de données, la vision artificielle s’approche de très près des capacités de reconnaissance humaine

Page du cours

Appareils d’imagerie

Caméra: “machine pour transformer 3D en 2D”

  • Segmentation: reconnaître un groupe d’objets (personnes, fleurs, etc…) dans une image

  • Déformations: détecter déplacements/déformations dans des vidéos

  • Suivre des objets sur des temps longs

  • Reconnaître des instances (ex: Tour Eiffel, etc…)

⟶ méthode de résolution: réseaux de neurones

  • succession d’opérations “simples”
  • vecteurs de dimension n, chaque dimension correspondant à une “catégorie d’objets”

Comment fonctionne une caméra?

Principe de la chambre noire.

Modèle théorique:

Modèle d’image:

function continue I:2 (niveaux de gris) ou 3 (couleur)

Image discrète (de taille w×h):
I:0,w1×0,h10,2553
Histogramme:
HI(i)|{xI(x)=i}|

Effet HDR:

IfI

f est une function croissante.


Histogramme cumulé:
CI(i)|{xI(x)<i}|
CfI=CIf1

⟶ on prend

f=Ctarget1CI

Lentille: pour avoir une ouverture importante sans avoir de flou sur l’image

Aberration chromatique: dans des milieux à indice de réfraction différent du vide, pas la même longueur d’onde selon les couleurs.

Distortion: due à la lentille ⟶ lentille précisée dans les méta-données de la photo ⟹ distortion corrigée par logiciel

Lentille ⟹ introduit un effet de profondeur de champ

Leave a comment