Mejora de la comprensión holística de la escena con Panoptic-DeepLab



Las aplicaciones de visión artificial del mundo real, como los automóviles autónomos y la robótica, se basan en dos tareas principales: segmentación de instancias y segmentación semántica . La segmentación de instancias identifica la clase y extensión de “cosas” individuales en una imagen (es decir, objetos contables como personas, animales, automóviles, etc.) y asigna identificadores únicos a cada una (p. Ej., Car_1 y car_2). Esto se complementa con la segmentación semántica , que etiqueta todos los píxeles de una imagen, incluidas las "cosas" que están presentes, así como las "cosas" circundantes (p. Ej., Regiones amorfas de textura o material similar, como césped, cielo o carretera). . Esta última tarea, sin embargo, no diferencia entre píxeles de la misma clase que pertenecen a diferentes instancias de esa clase.

La segmentación panóptica representa la unificación de estos dos enfoques con el objetivo de asignar un valor único a cada píxel en una imagen que codifica tanto la etiqueta semántica como el ID de instancia. La mayoría de los algoritmos de segmentación panóptica existentes se basan en Mask R-CNN , que trata la segmentación semántica y de instancia por separado. El paso de segmentación de instancias identifica objetos en una imagen, pero a menudo produce máscaras de instancias de objetos que se superponen entre sí. Para resolver el conflicto entre máscaras de instancia superpuestas, comúnmente se emplea una heurística que resuelve la discrepancia, ya sea en función de la máscara con una puntuación de confianza más alta o mediante el uso de una relación predefinida por pares entre categorías (por ejemplo, siempre se debe usar una corbata en el frente de una persona). Además, las discrepancias entre los resultados de segmentación semántica y de instancia se resuelven favoreciendo las predicciones de instancia. Si bien estos métodos generalmente producen buenos resultados, también introducen una gran latencia, lo que dificulta su aplicación en aplicaciones en tiempo real.

Impulsados por la necesidad de un modelo de segmentación panóptica en tiempo real, proponemos “ Panoptic-DeepLab: un sistema simple, rápido y fuerte para la segmentación panóptica ”, aceptado a CVPR 2020 . En este trabajo, ampliamos el modelo de segmentación semántica moderno comúnmente utilizado, DeepLab , para realizar la segmentación panóptica utilizando solo una pequeña cantidad de parámetros adicionales con la adición de una sobrecarga de cálculo marginal. El modelo resultante, Panoptic-DeepLab, produce segmentación semántica y de instancias en paralelo y sin superposición, evitando la necesidad de heurísticas diseñadas manualmente adoptadas por otros métodos. Además, desarrollamos una operación computacionalmente eficiente que fusiona los resultados de la segmentación semántica y de instancia, lo que permite la predicción de la segmentación panóptica de extremo a extremo casi en tiempo real. A diferencia de los métodos basados en Mask R-CNN, Panoptic-DeepLab no genera predicciones de cuadro delimitador y solo requiere tres funciones de pérdida durante el entrenamiento, significativamente menos que los métodos actuales de última generación, como UPSNet , que pueden tener hasta ocho . Finalmente, Panoptic-DeepLab ha demostrado un rendimiento de vanguardia en varios conjuntos de datos académicos.
Resultados de la segmentación panóptica obtenidos por Panoptic-DeepLab. Izquierda: fotogramas de vídeo utilizados como entrada para el modelo de segmentación panóptico. Derecha: Resultados superpuestos en fotogramas de video. Cada instancia de objeto tiene una etiqueta única, p. Ej., Car_1, car_2, etc.
Visión de conjunto
Panoptic-DeepLab es simple tanto conceptual como arquitectónicamente. A alto nivel, predice tres salidas. La primera es la segmentación semántica, en la que asigna una clase semántica (por ejemplo, automóvil o césped) a cada píxel. Sin embargo, no diferencia entre varias instancias de la misma clase. Entonces, por ejemplo, si un automóvil está parcialmente detrás de otro, los píxeles asociados con ambos tendrían la misma clase asociada y serían indistinguibles entre sí. Esto se puede abordar con las dos segundas salidas del modelo: una predicción del centro de masa para cada instancia y la regresión del centro de la instancia, donde el modelo aprende a hacer una regresión de cada píxel de instancia a su centro de masa. Este último paso garantiza que el modelo asocie píxeles de una clase determinada a la instancia adecuada. La segmentación de instancia independiente de la clase, obtenida agrupando los píxeles de primer plano predichos a sus centros de instancia pronosticados más cercanos, se fusiona luego con la segmentación semántica por la regla del voto mayoritario para generar la segmentación panóptica final.
Descripción general de Panoptic-DeepLab. La segmentación semántica asocia píxeles en la imagen con clases generales, mientras que el paso de segmentación de instancia independiente de la clase identifica los píxeles asociados con un objeto individual, independientemente de la clase. En conjunto, se obtiene la imagen final de segmentación panóptica.
Diseño de redes neuronales
Panoptic-DeepLab consta de cuatro componentes: (1) una columna vertebral de codificador previamente entrenada en ImageNet , compartida por las ramas de segmentación semántica y segmentación de instancias de la arquitectura; (2) atroces módulos de agrupación de pirámides espaciales (ASPP), similares a los utilizados por DeepLab , que se despliegan de forma independiente en cada rama para realizar la segmentación en un rango de escalas espaciales; (3) módulos decodificadores desacoplados de manera similar específicos para cada tarea de segmentación; y (4) cabezales de predicción de tareas específicas.

La columna vertebral del codificador (1), que ha sido previamente entrenada en ImageNet, extrae mapas de características que son compartidos por las ramas de segmentación semántica y segmentación de instancias de la arquitectura. Normalmente, el mapa de características es generado por el modelo de la red troncal utilizando una convolución estándar, que reduce la resolución del mapa de salida a 1/32 de la de la imagen de entrada y es demasiado burda para una segmentación precisa de la imagen. Para preservar los detalles de los límites de los objetos, en su lugar empleamos una convolución atroz , que conserva mejor las características importantes como los bordes, para generar un mapa de características con una resolución de 1/16 del original. A esto le siguen dos módulos ASPP (2), uno para cada rama, que captura información multiescala para la segmentación.

Los módulos decodificadores de peso ligero (3) siguen los utilizados en la versión más reciente de DeepLab ( DeepLabV3 + ), pero con dos modificaciones. Primero, reintroducimos un mapa de características de bajo nivel adicional (escala 1/8) al decodificador, que ayuda a preservar la información espacial de la imagen original (por ejemplo, límites de objetos) que puede ser degradada significativamente en la salida del mapa de características final por el columna vertebral. En segundo lugar, en lugar de utilizar el núcleo típico de 3 × 3, el decodificador emplea una convolución separable en profundidad de 5 × 5, que produce un rendimiento algo mejor a un costo mínimo de sobrecarga adicional.

Los dos cabezales de predicción (4) se adaptan a su tarea. El cabezal de segmentación semántica emplea una versión ponderada de la función estándar de pérdida de entropía cruzada bootstrapped, que pondera cada píxel de manera diferente y ha demostrado ser más eficaz para la segmentación de objetos a pequeña escala. El cabezal de segmentación de instancias está entrenado para predecir las compensaciones entre el centro de masa de una instancia de objeto y los píxeles circundantes, sin conocimiento de la clase de objeto, formando las máscaras de instancia independientes de la clase.

Resultados
Para demostrar la eficacia de Panoptic-DeepLab, llevamos a cabo experimentos sobre tres bases de datos académicas populares, urbanos , mapillary vistas , y COCO conjuntos de datos. Con una arquitectura simple, Panoptic-DeepLab ocupa el primer lugar en Cityscapes para las tres tareas (semántica, instancia y segmentación panóptica) sin ningún ajuste fino específico de la tarea. Además, Panoptic-DeepLab ganó los premios al Mejor Resultado , al Mejor Trabajo y al Más Innovador en la pista de Segmentación Panóptica Mapillary en el Taller Conjunto ICCV 2019 de COCO y Reconocimiento Mapillary Challenge . Supera al ganador de 2018 por un saludable margen del 1,5%. Finalmente, Panoptic-DeepLab establece nuevos resultados de segmentación panóptica ascendentes (es decir, sin cajas) de última generación en el conjunto de datos de COCO , y también es comparable a otros métodos basados en Mask R-CNN.
Precisión (PQ) frente a velocidad (tiempo de inferencia de GPU) en tres conjuntos de datos.
Conclusión
Con una arquitectura simple y solo tres funciones de pérdida de entrenamiento, Panoptic-DeepLab logra un rendimiento de vanguardia y es más rápido que otros métodos basados en Mask R-CNN . Para resumir, desarrollamos el primer modelo de segmentación panóptica de un solo disparo que logra un rendimiento de vanguardia en varios puntos de referencia públicos y ofrece una velocidad de inferencia de extremo a extremo casi en tiempo real. Esperamos que nuestro Panoptic-DeepLab simple y eficaz pueda establecer una base sólida y beneficiar aún más a la comunidad de investigadores.

Agradecimientos
Nos gustaría agradecer el apoyo y las valiosas discusiones con Maxwell D. Collins, Yukun Zhu, Ting Liu, Thomas S. Huang, Hartwig Adam, Florian Schroff y el equipo de Google Mobile Vision.