Il Multi-Networks for Object Detection [1] (o MNOD) è un algoritmo di computer vision per l'identificazione di oggetti di interesse in immagini generiche.

L'idea di base consiste nell'utilizzare molti modelli neurali addestrati singolarmente ciascuno per risolvere una parte del problema. Ogni modello neurale diventa un nodo interno di una struttura ad albero che, partendo dai nodi foglia verso il nodo root, raffina e ottimizza la mappa di segmentazione da associare ad ogni immagine di input.

Schema semplificato del processo di addestramento del sistema MNOD.

Algoritmo

modifica

MNOD è costituito da una struttura gerarchica ad albero in cui ogni nodo interno è costituito da un modello discriminativo che riceve in input una serie di feature sotto forma di immagini e in output restituisce la loro aggregazione a sua volta sotto forma di immagine. Il processo di lettura delle immagini di input avviene mediante l'uso di una serie di finestre viaggianti che ad ogni passo trasformano l'informazione letta in un pattern utilizzato nel modello discriminativo sia in fase di training che di predizione. L'output del modello discriminativo viene poi trasformato in un'immagine sempre mediante l'utilizzo di un meccanismo a finestra viaggiante.

I nodi foglia di questa struttura sono costituiti da una serie di filtri che processano l'immagine di input in un'immagine filtrata che viene poi passata ai livelli successivi.

Ogni nodo produce in output una mappa di classificazione soft dove il valore di grigio di ogni pixel rappresenta la probabilità di appartenenza di quel pixel all'oggetto di interesse.

 
Schema semplificato del processo di addestramento per un singolo nodo del sistema MNOD.

Applicazioni

modifica

Il sistema MNOD è stato utilizzato in vari contesti applicativi come lo shopping visuale [2] e la lettura automatica dei contatori di gas e acqua [3] .

  1. ^ Ignazio Gallo, Angelo Nodari (2011). Learning Object Detection using Multiple Neural Netwoks. Vilamoura - Algarve, Portugal: INSTICC Press Proceedings of International Conference on Computer Vision Theory and Applications (VISAPP).
  2. ^ Ignazio Gallo, Angelo Nodari and Marco Vanetti. Object Segmentation using Multiple Neural Networks for Commercial Offers Visual Search. Corfu, Greece: Engineering Applications of Neural Networks (EANN2011).
  3. ^ Angelo Nodari, Ignazio Gallo (2011). A Multi-Neural Network Approach to Image Detection and Segmentation of Gas Meter Counter. Nara Centennial Hall, Nara, Japan: ACTA Press, IAPR Conference on Machine Vision Applications (MVA2011).
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica