Intelligenza Artificiale nella visione industriale: 2D vs 3D
Un'analisi tecnica delle soluzioni di intelligenza artificiale per la visione artificiale industriale: quando scegliere sistemi 2D e quando affidarsi alla visione 3D. Confronto per tipologia di applicazione.
La visione artificiale nell'era dell'intelligenza artificiale
La visione artificiale industriale ha vissuto una trasformazione radicale negli ultimi anni. L'introduzione di reti neurali convoluzionali (CNN), modelli transformer e architetture di deep learning dedicate ha spostato il confine del possibile: sistemi che un tempo richiedevano programmazione esplicita di ogni regola ora apprendono dai dati, generalizzano su varianti non viste e si adattano all'evoluzione del prodotto.
Al centro di questa evoluzione c'è una scelta fondamentale che ogni integratore e responsabile di automazione affronta: visione 2D o 3D? La risposta non è mai universale — dipende dalla fisica del problema, dai vincoli di ciclo, dall'ambiente produttivo e dal tipo di difetto o operazione da rilevare.
Visione 2D con AI: dove eccelle
I sistemi di visione 2D acquisiscono immagini piane da telecamere area-scan o line-scan. Con l'AI, superano i limiti dei sistemi rule-based tradizionali: riconoscono difetti non strutturati, tollerano variazioni di illuminazione e gestiscono prodotti con alta variabilità estetica.
Punti di forza tecnici
Velocità di acquisizione ed elaborazione: telecamere industriali da 500 fps abbinate a GPU embedded consentono ispezioni a oltre 1.000 pezzi/minuto su linee ad alta cadenza.
Risoluzione sub-pixel: algoritmi di sub-pixel fitting permettono misure dimensionali con incertezza inferiore a 10 µm su ottiche calibrate.
Costo dell'infrastruttura ottica: illuminatori a LED, ottiche telecentriche e telecamere GigE/USB3 hanno raggiunto maturità tecnologica e disponibilità capillare.
Dataset e modelli preaddestrati: l'abbondanza di dataset pubblici (MVTec AD, DAGM, ecc.) permette transfer learning efficace anche con poche centinaia di immagini di training.
Integrazione con PLC e SCADA: latenze di inferenza tipicamente inferiori a 20 ms su GPU entry-level.
Limiti strutturali
Incapacità di rilevare difetti nascosti in profondità (porosità interne, cricche sottosuperficiali). Di questo ne parliamo anche in altri articoli
Sensibilità alle variazioni di posa del pezzo sull'asse Z (fuoco, parallasse).
Metrologia dimensionale limitata a superfici piane o con geometria nota a priori.
Visione 3D con AI: dove eccelle
La visione 3D acquisisce una nuvola di punti o una mappa di profondità tramite profilometri laser, sensori Time-of-Flight, stereo vision o luce strutturata. L'AI opera su rappresentazioni tridimensionali — point cloud, mesh, voxel grid — abilitando analisi impossibili nel dominio 2D.
Punti di forza tecnici
Misura geometrica assoluta: volume, planarità, altezza, rettitudine e tolleranze GD&T calcolabili direttamente dalla nuvola di punti senza riferimenti planari.
Invarianza alla texture: difetti rilevabili anche su superfici lucide, riflettenti o prive di contrasto cromatico dove la visione 2D fallisce.
Bin picking e robot guidance: la stima della posa 6-DOF di pezzi in bin disordinati richiede necessariamente informazione di profondità; reti come PointNet++, VoteNet o modelli derivati da FoundationPose garantiscono robustezza a occlusioni parziali.
Rilevamento difetti volumetrici: deformazioni, ammaccature, mancanze di materiale valutabili come delta rispetto al modello CAD di riferimento.
Robustezza alla variabilità di illuminazione ambientale: i sensori attivi (profilometri, ToF) sono indipendenti dall'illuminazione esterna.
Limiti strutturali
Velocità di acquisizione inferiore rispetto al 2D (i profilometri lineari richiedono movimento relativo pezzo/sensore).
Difficoltà su superfici altamente riflettenti (metalli lucidati, vetro) senza trattamento superficiale o illuminazione polarizzata. (Superabili con semplici accorgimenti)
Pipeline di elaborazione più complessa: preprocessing della nuvola di punti (denoising, voxelization, normal estimation) prima dell'inferenza AI. (Semplificare questa parte è il nostro lavoro di roboticisti)
Complessità di calibrazione e integrazione meccanica maggiore. (Per fortuna ci siamo noi!!!)
Architetture AI a confronto
Nel dominio 2D, le architetture dominanti per l'ispezione industriale sono:
Anomaly detection non supervisionata: PatchCore, EfficientAD, FastFlow — ideali quando le immagini di difetto sono rare o non categorizzabili a priori.
Segmentazione semantica: U-Net, DeepLab, SAM (Segment Anything Model) adattato — per la localizzazione precisa del difetto.
Object detection: YOLOv8/v10, RT-DETR — per conteggio, classificazione e localizzazione di componenti ad alta velocità.
Nel dominio 3D, le architetture consolidate sono:
PointNet / PointNet++: classificazione e segmentazione diretta di nuvole di punti non strutturate.
VoxelNet / SECOND / PointPillars: nate dall'automotive LiDAR, adattate all'industriale per rilevamento oggetti 3D.
3D anomaly detection: BTF (Back to 3D Features), Shape-Guided — confronto con template CAD o distribuzione nominale appresa.
Foundation models per pose estimation: FoundationPose, MegaPose — stima 6-DOF generalizzabile a nuovi oggetti senza re-training.
Sistemi ibridi 2D+3D
La frontiera più avanzata dell'ispezione AI non è la scelta tra 2D e 3D, ma la loro fusione. Sensori come i profilometri con doppia uscita (profilo + intensità) o le telecamere RGB-D permettono di correlare difetti di texture con difetti geometrici nello stesso ciclo di ispezione. Architetture multimodali — che fondono feature extractor 2D (CNN) con feature extractor 3D (PointNet) tramite attention cross-modale — mostrano performance superiori su benchmark come MVTec 3D-AD rispetto ai modelli unimodali.
Tabella comparativa: 2D vs 3D per applicazione
Applicazione | Visione 2D + AI | Visione 3D + AI | Approccio consigliato |
|---|---|---|---|
Ispezione difetti superficiali (graffi, macchie, cricche) | ★★★★★ Eccellente | ★★★☆☆ Limitata su texture assente | 2D — alta risoluzione, velocità elevata |
Metrologia dimensionale planare | ★★★★☆ Ottima con sub-pixel | ★★★★★ Eccellente, misura assoluta | 2D se piano, 3D se geometria complessa |
Rilevamento deformazioni e ammaccature volumetriche | ★★☆☆☆ Difficile, dipende dall'illuminazione | ★★★★★ Nativo — confronto con CAD | 3D — unica soluzione affidabile |
Bin picking — presa robot da bin disordinato | ★☆☆☆☆ Non applicabile | ★★★★★ Applicazione nativa | 3D obbligatorio — stima posa 6-DOF |
Classificazione e smistamento prodotti | ★★★★★ Veloce, accurato, scalabile | ★★★☆☆ Overkill per varianti solo cromatiche | 2D — sufficiente e più rapido |
Ispezione saldature | ★★★☆☆ Porosità superficiali sì, geometria no | ★★★★★ Profilo del cordone, altezza, continuità | 3D preferito; 2D+3D per completezza |
Lettura codici, OCR, verifica etichette | ★★★★★ Standard di settore | ★☆☆☆☆ Non pertinente | 2D — nessuna alternativa necessaria |
Assembly verification (presenza/assenza componenti) | ★★★★☆ Ottima su superfici piane | ★★★★★ Robusta su assiemi complessi 3D | 2D per assiemi planari, 3D per meccanici |
Guida robot pick-and-place | ★★★★☆ Efficace con posa controllata | ★★★★★ Posa libera e variabile | 2D se posa stabile, 3D se variabile |
Ispezione superfici riflettenti/lucide | ★★☆☆☆ Richiede illuminazione specializzata | ★★★☆☆ Difficile anche in 3D | 2D con dome light; 3D con polarizzazione |
Ricostruzione forma completa del pezzo | ★☆☆☆☆ Non applicabile | ★★★★★ Applicazione nativa | 3D — unica opzione |
Applicazioni ad alta cadenza (>500 pz/min) | ★★★★★ Telecamere ad alta velocità + GPU | ★★☆☆☆ Profilometri limitati dalla velocità di scansione | 2D — vincolo fisico del 3D |
Non esiste una tecnologia superiore in assoluto: la scelta tra visione 2D e 3D con AI è una decisione di ingegneria che richiede l'analisi della fisica del difetto, dei vincoli di ciclo e della geometria del pezzo. La visione 2D rimane insostituibile per velocità, ispezione di texture e superfici piane. La visione 3D è l'unica risposta per bin picking, metrologia volumetrica e verifica di assiemi meccanici complessi.
La tendenza industriale più promettente è la fusione multimodale: sistemi che integrano canali 2D e 3D in un'unica pipeline AI, sfruttando la complementarità delle due modalità per raggiungere livelli di affidabilità e generalizzazione che nessuna delle due tecnologie può garantire da sola.