OK

Post Doc Indexation d'images et deep learning pour le Visual SLAM avec indexation d'objets, pour la robotique et les services liés à la cartographie

ref : 0018825 | 01 Jan 2019

apply before : 31 May 2019

2 avenue Pierre Marzin 22300 LANNION - France

about the role

Votre rôle est d'effectuer un travail de Post Doc sur : « Indexation d'images et deep learning pour le Visual SLAM avec indexation d'objets, pour la robotique et les services liés à la cartographie».

Contexte : le Visual SLAM

La localisation et cartographie simultanées, connue en anglais sous le nom de SLAM (Simultaneous Localization And Mapping) ou CML (Concurrent Mapping and Localization), consiste, pour un robot ou véhicule autonome, ou encore pour un dispositif de type Smartphone, à simultanément construire ou améliorer une carte de son environnement et à s'y localiser.

Le Visual SLAM [1] [2] [3] consiste de même à fabriquer une carte, et à s'y localiser, mais en utilisant uniquement des informations visuelles (sans capteurs de type odomètre, GPS, accéléromètres, radar,...). Le Visual SLAM est un sujet de recherche très actif depuis une quinzaine d'années, car il permet d'utiliser des capteurs low-cost (caméra de smartphone par exemple) voire des bases de données de photographies pour reconstruire, en temps réel ou en temps différé, des cartes 3D d'un environnement intérieur ou extérieur.

Le SLAM peut en effet faire de la cartographie au sens large : acquisition 3D de scènes, de lieux, d'objets, intérieurs ou extérieurs, grands ou petits. Ceci a conduit à de nombreuses applications du SLAM autres que la robotique notamment en acquisition 3D et en réalité augmentée où par exemple une personne peut scanner une chambre via un Smartphone TangoTM (offre Google) puis tester la disposition de meubles virtuels, voire les commander. Toutes les solutions de réalité augmentée sont d'ailleurs dépendantes d'un bon système de Visual SLAM (mais la réalité augmentée n'est pas traitée dans ce document).

VERS LE SEMANTIC SLAM...

On commence à parler de Semantic SLAM [4] lorsque le système de cartographie ne se contente plus de mapper des blocs de pixels ou des descripteurs bas niveau sur des images, mais qu'il incorpore également des notions de mapping d'objets. Le système représente alors les images non plus comme des entités sans signification, mais comme des scènes contenant des objets.

La problématique d'intégrer des objets dans le Visual SLAM est récente. On la retrouve par exemple dans SLAM++ [5] puis dans [6]. On notera que dans certains cas la détection d'objet peut se faire sous le mode découverte (non supervisée) via la détection de patterns dupliqués dans l'environnement comme dans le cas de SLAM++ et de [7].

Intégrer de la reconnaissance d'objet dans le VSLAM et ainsi passer à une représentation plus sémantique de la scène vue peut fortement améliorer les performances dans les deux sens [2] [4] :

  • pour la détection et la reconnaissance d'objets, le fait que les objets soient localisés dans une scène impose des contraintes (spatiales, de cohérence,...) permettant d'éviter de nombreux faux positifs, et ainsi les objets sont mieux détecté et reconnus
  • pour le VSLAM, l'intégration d'objets comme descripteurs complémentaires haut niveau des images permet un appariement plus robuste des prises de vues.

Au niveau service, intégrer la gestion d'objets (ou a minima de textes : si l'on songe par exemple aux signalétiques, pancartes, étiquettes que l'on peut trouver dans les bâtiments, bureaux, magasin, rues,...), permet de produire des cibles potentielles pour un robot (retrouver l'objet, guider une personne vers l'objet) ou pour des requêtes (où se situe l'objet ?, combien de fois puis-je retrouver cet objet ?,...).

Se référer à la section 3 « Le plus de l'offre » pour des informations détaillées sur la mission scientifique et les principales activités associées au post doc.

about you

Vous êtes titulaire d'un doctorat dans le domaine de la vision par ordinateur.

Vous avez acquis de solides compétences dans plusieurs des domaines suivants : vision par ordinateur, traitement d'images, robotique, deep learning, machine Learning.

Vous avez une expérience en Deep Learning.

Toute expérience préalable dans le domaine du SLAM ou du Visual SLAM constituera un avantage certain.

additional information

Objectif scientifique - verrous à lever

1) Etudier les techniques de Visual SLAM (Taketomi et al.,2016) et les apports du Deep Learning pour construire un composant de base de données d'image "intelligente" capable :

1.1 A partir d'une image de lieu déjà vu :

  • de reconnaitre que le lieu est déjà dans la base (parmi toutes les images possibles indoor d'un immeuble, d'un centre commercial, d'une pièce, d'un couloir,...)
  • puis d'estimer la position de la prise de vue (cette position pouvant être un identifiant interne de lieu, de type noeud dans un graphe ; en effet nous nous intéressons ici à une carte topologique (Choset & Nagatani, 2001).

1.2 A partir d'une image d'un objet, ou une signalétique (panneau,...) :

  • d'indiquer dans quel lieu cet objet se situe
  • à partir d'une position donnée, proposer une trajectoire, ou a minima le "next step" pour aller vers cet objet (le "next-step" pouvant être la prochaine image que le robot ou l'utilisateur doit voir pour être sur le bon chemin).

1.3 A partir de nouvelles images d'un lieu ou d'un nouvel objet :

  • ajouter les images du lieu ou de l'objet à la base et de la mettre à jour pour être capable de répondre à des requêtes ultérieures

2) Proposer des nouvelles architectures et principes des technologies de Deep Learning et de Big Data pour obtenir une très bonne tenue de charge et un service temps réel sur les fonctions évoquées en 1).

3) Démontrer par un prototype simple la faisabilité de l'approche

Suivant la maturité et la rapidité du prototype, il pourrait être utilisé sur un ou plusieurs services :

  • en tant que service pour un robot à navigation autonome (cas d'usage A)
  • en tant que service liée à la cartographie dynamique indoor/outdoor grand public (cas d'usage B).

Verrous techniques :

  • la prise en compte d'objets dans la Visual SLAM (via le Semantic SLAM) est une problématique très récente et encore peu maîtrisée bien que très prometteuse. On se propose, via une architecture originale réutilisant au maximum les composants technologiques open-source existants, de démontrer sa pertinence et son utilité.

Planning prévisionnel

On se propose étant donné le temps limité du Post-Doc de réutiliser au maximum des composants technologiques existants, et de les intégrer dans une architecture originale.

Premier trimestre : état de l'art et choix des composants open-sources réutilisables

Récupération de jeux de données permettant d'évaluer les performances de système de SLAM

Récupération et évaluation des meilleures solutions de base en Open Source ; évaluation des sous-composants réutilisables

Choix de réutiliser ou non certains composants.

L'utilisation de techniques d'indexation et de recherche rapide de très grandes bases d'images (Sun et al., 2013) pourrait alors servir de point de départ pour traiter le Visual SLAM sous l'angle de « l'image indexing massif ». Des techniques de Deep learning pourraient être ensuite couplées à des grandes bases d'image pour reconstruire les positions de la prise de vue (et donc préciser les lieux), comme dans (Kendal et al., 2015).

Livrable : compte rendu des sélections et évaluations effectuées.

Deuxième trimestre : intégration de composants phase 1

Suivant les choix techniques opérés au 1er trimestre

Premières évaluations techniques.

Livrable : Rédaction d'un rapport technique + première publication

Troisième trimestre : intégration de composants phase 2

Suivant retour sur expérience la phase 1

Amélioration des composants.

Livrables : brevet/publications si opportun + composants techniques

4ème trimestre :

Livrable principal : Intégration des composants dans un prototype de Visual Semantic SLAM et dépôt logiciel + publication.

department

Orange Labs Services (OLS) porte l'innovation de services pour le Groupe Orange. Notre mission consiste à définir la stratégie avec nos Unités d'Affaires, construire de nouveaux services, assurer la maintenance et apporter notre expertise à nos clients dans le monde entier. La direction BIZZ, se consacre au marché entreprise. Au sein de cette direction OLS/BIZZ, le département APPCRM gère un large périmètre de sujets innovants comme la transformation digitale des entreprises, la mobilité de nos clients entreprises et l'amélioration de la relation client.

La robotique est un domaine en pleine croissance sur lequel on souhaite se positionner afin de non seulement intégrer nos dernières innovations mas également voir comment elle pourrait s'intégrer dans les entreprises.

Qu'est ce qui fait la valeur ajoutée de cette offre ?

Vous travaillerez dans un grand centre de recherche international, au sein d'une équipe de recherche très active en machine learning et intelligence artificielle d'une vingtaine de personnes avec plusieurs étudiants en thèse ou en post-doc.

Vous aurez des moyens techniques conséquents utilisables (serveurs à grande capacité, clusters de machines)

Il s'agit d'un sujet porteur permettant l'évolution vers les métiers de la recherche en apprentissage artificiel, de data-scientist, ou de la vision par ordinateur et la robotique…

Références :

[1] : Takafumi Taketomi, Hideaki Uchiyama and Sei Ikeda, 2016, Visual SLAM algorithms: a survey from 2010 to 2016; IPSJ Transactions on Computer Vision and Applications20179:16

[2] : Younes, G., Asmar, D., & Shammas, E. (2016). A survey on non-filter-based monocular Visual SLAM systems. arXiv preprint arXiv:1607.00470.

[3] : Cadena, C., Carlone, L., Carrillo, H., Latif, Y., Scaramuzza, D., Neira, J., ... & Leonard, J. J. (2016). Past, present, and future of simultaneous localization and mapping: Toward the robust-perception age. IEEE Transactions on Robotics, 32(6), 1309-1332.

[4] Civera, J., Gálvez-López, D., Riazuelo, L., Tardós, J. D., & Montiel, J. M. M. (2011, September). Towards semantic SLAM using a monocular camera. In Intelligent Robots and Systems (IROS), 2011 IEEE/RSJ International Conference on (pp. 1277-1284).

[5] : Salas-Moreno, R. F., Newcombe, R. A., Strasdat, H., Kelly, P. H., & Davison, A. J. (2013). Slam++: Simultaneous localisation and mapping at the level of objects. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1352-1359).

[6] : Pillai, S., & Leonard, J. (2015). Monocular slam supported object recognition. arXiv preprint arXiv:1506.01732.

[7] : Dharmasiri, T., Lui, V., & Drummond, T. (2016). MO-SLAM: Multi object SLAM with run-time object discovery through duplicates. In Intelligent Robots and Systems (IROS), 2016 IEEE/RSJ International Conference on (pp. 1214-1221).

contract

Post Doc

Orange

top employer FR-2019 Happy Candidates - Happy AT WORK

discover our  recruitment process