Escuela Técnica Superior de Ingenieros en Topografía, Geodesia y Cartografía

Defensa de Tesis Doctoral de Calimanut-Ionut Cira

Enhorabuena a nuestro compañero Calimanut Ionut Cira por la defensa de su tesis doctoral el día 7 de marzo de 2022 y ser nuevo Doctor UPM

10.03.2022

Su tesis titulada "Contribution to Object Extraction in Cartography: A Novel Deep Learning-Based Solution to Recognise, Segment and Post-Process the Road Transport Network as a Continuous Geospatial Element in High-Resolution Aerial Orthoimagery" propone una solución de extremo a extremo basada en el aprendizaje profundo, capaz de extraer, de manera eficiente y a gran escala, el área de la superficie de las carreteras según la ejecución consecutiva de tres operaciones diferentes de procesamiento de imágenes (reconocimiento, segmentación semántica y posprocesamiento con aprendizaje generativo condicional).

La red de carreteras desempeña un papel importante en el transporte y, en la actualidad, mantener actualizado el soporte cartográfico existente representa un gran reto para el estado. Esta tarea puede considerarse un gran desafío debido a la naturaleza compleja del objeto geoespacial (continuo, con geometría irregular y diferencias significativas de anchura), debido a la ausencia de bordes claramente definidos, y a las diferentes firmas espectrales de los materiales utilizados para el pavimento.

En esta tesis doctoral, se aprovechan los recientes avances en visión artificial y se propone una solución integral basada en el aprendizaje profundo, capaz de extraer eficientemente la superficie de las carreteras a gran escala. La novedad de este enfoque se basa en una ejecución disjunta de tres operaciones diferentes de procesamiento de imágenes (reconocimiento, segmentación semántica y postprocesamiento con aprendizaje generativo condicional) dentro de un marco común. La investigación está centrada en mejorar los resultados del estado del arte para cada uno de los componentes mencionados, para después unificar los modelos resultantes en una arquitectura integrada.

En la operación de reconocimiento, se proponen dos marcos candidatos basados en redes neuronales convolucionales, conjuntos de modelos y transferencia de aprendizaje para clasificar carreteras en ortoimágenes aéreas de libre acceso divididas en teselas de 256×256 píxeles, con una resolución espacial de 0,5 m. Los marcos de clasificación propuestos han conseguido mejoras del 2-3% en las métricas de rendimiento.

En segundo lugar, se implementan modelos híbridos de segmentación semántica (en los que las redes básicas (Ingles: «backbones») por defecto se sustituyen por redes neuronales especializadas en segmentación de imágenes) y se entrenan con imágenes de teledetección de alta resolución y sus correspondientes máscaras con la realidad del terreno. Los modelos lograron incrementos medios en las métricas de rendimiento de entre el 2,7 y el 3,5%, en comparación con la última generación de arquitecturas de segmentación semántica entrenadas desde cero para la misma tarea.

En tercer lugar, se utiliza el aprendizaje no supervisado (que no requiere datos etiquetados) para el postprocesamiento de las geometrías de los objetos geoespaciales extraídos mediante la segmentación semántica. En este sentido, se proponen dos operaciones de postprocesamiento basadas en el aprendizaje generativo condicional para operaciones de reconstrucción de imágenes (Ingles: «deep inpainting») y de traducción de imagen a imagen (Ingles: «image-to-image translation») y se entrenado las redes para aprender la distribución de la red de carreteras presente en la cartografía oficial, utilizando un novedoso conjunto de datos que cubre zonas representativas de España. El primer modelo generativo condicional con adversario propuesto fue entrenado para la operación de reconstrucción de imágenes (Ingles: «image inpainting») y obtuvo mejoras en las métricas de rendimiento de un máximo del 1,3%. El segundo modelo cGAN, se basa en un modelo del estado del arte, modificado para la eficiencia computacional y logró un aumento máximo del 11,6% en las métricas de rendimiento. También se realiza una comparación cualitativa para evaluar visualmente la eficacia de las operaciones generativas y se observan grandes mejoras con respecto a las predicciones iniciales de segmentación semántica.

Por último, se propone una estrategia de procesamiento integral que combina la clasificación de imágenes, la segmentación semántica y las operaciones de postprocesamiento para extraer las regiones correspondientes a carreteras a partir de la ortofotografía aérea de alta resolución. La ejecución consecutiva de los modelos de aprendizaje profundo resultantes ofreció resultados de mayor calidad que las implementaciones del estado del arte entrenadas para la misma tarea. La versatilidad y flexibilidad de la solución dada por la ejecución separada de las tres sub-operaciones demostró su eficacia y eficiencia económica y se integró en una aplicación web para facilitar la manipulación de datos geoespaciales, a la vez que permite una fácil integración de futuros modelos y algoritmos. Esta estrategia de procesamiento se puede aplicar para mejorar otras tareas similares de extracción de elementos geoespaciales continuos (como la cartografía de cauces de ríos, o de vías férreas), o servir de base para desarrollar flujos de trabajo adicionales de extracción de objetos geoespaciales a partir de imágenes de teledetección.

Palabras clave

Aprendizaje Profundo, Extracción de Caminos y Carreteras, Procesamiento de Imágenes, Redes Generativas Antagónicas, Redes Neuronales Artificiales

Enlaces de interés

Artículo Clasificación: https://www.mdpi.com/2072-4292/12/5/765
Artículo Segmentación Semántica: https://www.mdpi.com/2076-3417/10/20/7272
Articulo Postprocesamiento basado en «deep inpainting»: https://www.mdpi.com/2220-9964/11/1/43
Articulo Postprocesamiento basado en «image-to-image translation» https://www.mdpi.com/2073-445X/10/1/79