Localization of urban objects from multiple sources, including aerial imagery - PhDData

Access database of worldwide thesis




Localization of urban objects from multiple sources, including aerial imagery

The thesis was published by Pibre, Lionel, in November 2018, Université de Montpellier.

Abstract:

This thesis addresses problems related to the location and recognition of urban objects in multi-source images (optical, infrared, terrain model) of very high precision acquired by air.Urban objects (lamp posts, poles, car, tree…) have dimensions, shapes, textures and very variable colors. They can be glued to each other and are small with respect to the size of an image. They are present in large numbers but can be partially hidden. All this makes urban objects difficult to identify with current image processing techniques.First, we compared traditional learning approaches, consisting of two stages – extracting features through a predefined descriptor and using a classifier – to deep learning approaches and more precisely Convolutional Neural Networks (CNN). CNNs give better results but their performances are not sufficient for industrial use. We therefore proposed two contributions to increase performance.The first is to efficiently combine data from different sources. We compared a naive approach that considers all sources as components of a multidimensional image to an approach that merges information within CNN itself. For this, we have processed the different information in separate branches of the CNN.For our second contribution, we focused on the problem of incomplete data. Until then, we considered that we had access to all the sources for each image but we can also place ourselves in the case where a source is not available or usable. We have proposed an architecture to take into account all the data, even when a source is missing in one or more images. We evaluated our architecture and showed that on an enrichment scenario, it allows to have a gain of more than 2% on the F-measure.The proposed methods were tested on a public database. They aim to be integrated into a Berger-Levrault company software in order to enrich geographic databases and thus facilitate the management of the territory by local authorities.

Cette thèse aborde des problèmes liĂ©s Ă  la localisation et la reconnaissance d’objets urbains dans des images multi-sources (optique, infrarouge, Modèle NumĂ©rique de Surface) de très haute prĂ©cision acquises par voie aĂ©rienne.Les objets urbains (lampadaires, poteaux, voitures, arbres…) prĂ©sentent des dimensions, des formes, des textures et des couleurs très variables. Ils peuvent ĂŞtre collĂ©s les uns les autres et sont de petite taille par rapport Ă  la dimension d’une image. Ils sont prĂ©sents en grand nombre mais peuvent ĂŞtre partiellement occultĂ©s. Tout ceci rend les objets urbains difficilement identifiables par les techniques actuelles de traitement d’images.Dans un premier temps, nous avons comparĂ© les approches d’apprentissage classiques, composĂ©es de deux Ă©tapes – extraction de caractĂ©ristiques par le biais d’un descripteur prĂ©dĂ©fini et utilisation d’un classifieur – aux approches d’apprentissage profond (Deep Learning), et plus prĂ©cisĂ©ment aux rĂ©seaux de neurones convolutionnels (CNN). Les CNN donnent de meilleurs rĂ©sultats mais leurs performances ne sont pas suffisantes pour une utilisation industrielle. Nous avons donc proposĂ© deux amĂ©liorations.Notre première contribution consiste Ă  combiner de manière efficace les donnĂ©es provenant de sources diffĂ©rentes. Nous avons comparĂ© une approche naĂŻve qui consiste Ă  considĂ©rer toutes les sources comme des composantes d’une image multidimensionnelle Ă  une approche qui rĂ©alise la fusion des informations au sein mĂŞme du CNN. Pour cela, nous avons traitĂ© les diffĂ©rentes informations dans des branches sĂ©parĂ©es du CNN. Nous avons ainsi montrĂ© que lorsque la base d’apprentissage contient peu de donnĂ©es, combiner intelligemment les sources dans une phase de prĂ©-traitement (nous combinons l’optique et l’infrarouge pour crĂ©er une image NDVI) avant de les donner au CNN amĂ©liore les performances.Pour notre seconde contribution, nous nous sommes concentrĂ©s sur le problème des donnĂ©es incomplètes. Jusque-lĂ , nous considĂ©rions que nous avions accès Ă  toutes les sources pour chaque image mais nous pouvons aussi nous placer dans le cas oĂą une source n’est pas disponible ou utilisable pour une image. Nous avons proposĂ© une architecture permettant de prendre en compte toutes les donnĂ©es, mĂŞme lorsqu’il manque une source sur une ou plusieurs images. Nous avons Ă©valuĂ© notre architecture et montrĂ© que sur un scĂ©nario d’enrichissement, cette architecture permet d’obtenir un gain de plus de 2% sur la F-mesure.Les mĂ©thodes proposĂ©es ont Ă©tĂ© testĂ©es sur une base de donnĂ©es publique. Elles ont pour objectif d’être intĂ©grĂ©es dans un logiciel de la sociĂ©tĂ© Berger-Levrault afin d’enrichir les bases de donnĂ©es gĂ©ographiques et ainsi faciliter la gestion du territoire par les collectivitĂ©s locales.



Read the last PhD tips