Lecture 2: Perception en robotique

David Filliat

Saliency learning

Saliency learning (to recognize objects):

  • Ours
  • Itti
  • BMS

Segmentation vs Saliency

Optimal “exploration” ⟶ reinforcement learning (QLearning)

Cross-situational learning

Ex: shape, color, text describing the objet ⟶ made into vectors (with three “areas” of coordinates, corresponding to each parameter).

Then, train on many examples: the person describes with sentences such as “this is a red car” ⟶ then each of these vector examples are columns of a matrix.

Then: non negative decomposition ⟶ one writes the matrix in the form $A × B$, so that $B$ each vector example is a linear combination (corresponding to a column of $B$) of the columns of $A$.

Then, guess the text associated to a shape and a color by multiplying the vector example by the corresponding $B$-column.

Théorie sensorimotrice de la perception

Thématique de la perception en robotique.

Inspiration de théories philosophiques/psychophysiques.

Approches de la perception en robotique

Robotique = terrain de réflexion intéressant, car les robots se meuvent (alors que les algos classiques de perception marchent sur des machines statiques)

Perception = dynamique, et pas statique

Perception passive

Statique = Passif: sans mouvement, sans bouger

Capteurs de perception/permettent d’effectuer des mesures ⟶ Traitement de ces informations ⟶ Actionneurs pour que le robot arrive à une action

Unidirectionnel: va des capteurs, vers les actionneurs (algos issus des sciences de l’ingénieur, utilisés pour des tâches non robotiques (surveillance, reconnaissance de visages, etc…))

Traitement:

Cartes d’activité ⟶ Extraction des caractéristiques ⟶ Reconnaissance ⟶ Décisions ⟶ Commande ⟶ Actionneurs

(avec asservisseent)

Cette approche répond à la vision de David Marr:

“Vision is the process that creates, given a set of images, a complete and accurate representation of the scene and its properties” - David Marr

Perception active

Problèmes de la perception passive:

  • le robot ne peut pas choisir comment voir une scène ⟶ limité à ce qui arrive par les capteurs

    • on aimerait pouvoir bouger les capteurs, pour avoir plus d’infos sur la scène
    • action ⟹ améliorer la perception

⇒ Asservissement visuel (ex: situer la balle qui arrive au centre du champ de vision)

⟶ il y a une boucle d’asservissement des actionneurs vers les capteurs

Pensée de la perception issue de l’automatique, dont peuvent bénéfier les chercheurs qui font de la vision artificielle

Problème: à chaque nouveau but, il y a une nouvelle boucle d’asservissment ⇒ on est donc obligé de se restreindre à des tâches plus spécifiques

Mouvement = intégré dans la boucle de calcul de la perception

Mais: pas satisfaisant ⇒ même si se déplacer dans une pièce sans rien toucher est une tâche très simple pour un animal, c’est compliqué pour les robots

Théorie de la Perception Bayésienne

On a besoin d’un modèle du monde pour s’y repérer.

Approche Bayésienne: autant un ordinateur peut battre le champion mondial d’échec, autant déplacer les pièces sur l’échiquier est atrocement compliqué pour un robot (alors que ça ne pose pas de problème à un enfant de 5 ans)

Théorie Bayésienne: on modélise le monde de façon probabiliste

Approche objectiviste (ex: en physique) VS Approche subjectiviste (ex: approche Bayésienne: nos raisonnements à nous sont probabilisés)

Théorie des contingences sensorimotrices

Par K. O’Regan

  1. Quelles sont les conséquences sensorielles de l’action?

  2. La perception est structurée par des contigences sensorimotrices qui contraigent l’interaction de l’agent avec son environnement

Contingences sensorimotrices:

ensemble des lois qui, dans une situation donnée, régissent les variations perceptives consécutives à l’action de l’agent

Théorie des contigences:

postule que nous ne disposons pas de représentation interne du monde mais seulement des représentations de nos modes d’interaction avec le monde

⟹ on n’a plus de modèle du monde, on n’a que l’interaction sensorimotrice avec l’environnement

Ex: si j’ai une éponge dans la main, je perçois une texture ⟶ d’où vient cette sensation? Couplage action-perception (je touche l’objet, le tâte)

Perception de l’espace selon Poincaré

L’un des premiers à avoir formalisé cette idée: Poincaré

Il y avait un débat fort sur les géométries non-euclidennes: ont-elles une vraie existence objective?

Poincaré répond “oui” à la question, en se posant la question de comment on perçoit.

Espace géométrique euclidien:

  • continu, infini, 3D, homogène, isotrope

MAIS: la rétine, par laquelle on perçoit:

  • 2D, limitée, non homogène, non continue, la 3e dimension est obtenue par le système musculaire, non isotrope

⟹ la rétine ne suffit pas pour percevoir le “vrai” monde extérieur

“Nous ne construisons donc pas une représentation des objets extérieurs dans l’espace géométrique, nous pensons au sujet de ces objets comme si ils étaient situés dans l’espace géométrique.”

“L’ensemble des variations sensorielles compensables peuvent permettre de décrouvir la structure de l’espace extérieur” - Poincaré

Ex: je vois un objet, il avance de 1m, j’avance aussi de 1m ⟶ je me retrouve dans l’état sensoriel initial

Perceptions forment un groupe.

Hypothèse: L’espace des perceptions forme une variété

Leave a comment