Corteccia visiva

Dal cervello all'algoritmo. La corteccia visiva trasforma fotoni in oggetti. La controparte AI (modelli di visione profondi, convoluzionali e basati su Transformer) fa la stessa cosa su hardware diverso, e sulla maggior parte dei benchmark ristretti adesso la fa meglio.

Cosa fa la biologia

La corteccia visiva primaria (V1) sta dietro la testa, nel lobo occipitale. Riceve i segnali del tratto ottico attraverso il nucleo genicolato laterale e li decompone in colonne di orientamento, poi passa il risultato lungo una gerarchia (V2 → V4 → IT) che va dai bordi locali all'identità dell'oggetto in decine di millisecondi, con circa dieci watt di potenza. Il cervello non è solo un classificatore: cicli di attenzione foveale-periferica decidono dove guardare dopo; il flusso dorsale "dove" comunica alla corteccia motoria come agire su ciò che il flusso ventrale "cosa" ha appena identificato.

Cosa abbiamo costruito

La computer vision moderna è il sottocampo dell'AI che ha superato la soglia umana per primo. L'arco copre quattordici anni e tre rivoluzioni architetturali.

2012: AlexNet. Krizhevsky, Sutskever e Hinton battono le migliori pipeline classiche su ImageNet di dieci punti percentuali, dando il via all'era del deep learning.
2015: ResNet-152. Le reti residuali profonde superano l'errore umano top-5 su ImageNet sul benchmark canonico.
2020: Vision Transformer. Dosovitskiy et al. mostrano che il Vision Transformer, scalato alle immagini, eguaglia e poi batte le CNN.
Ago 2022: Stable Diffusion 1.4. Il text-to-image open-source esce insieme a DALL·E 2 e Midjourney; comincia l'era del "scrivi una frase, ottieni un'immagine".
2023: Modelli frontier multimodali. GPT-4V, Claude 3 e Gemini portano la comprensione visiva generale in produzione.
Lug 2024: Meta SAM 2. La segmentazione universale viene estesa al video con tracking della maschera in tempo reale, e SAM 2 generalizza "punta una cosa, ottieni quella cosa" dalle immagini al movimento.
Mar 2025: Il momento Studio Ghibli. GPT-4o spedisce la generazione nativa di immagini; le GPU di OpenAI restano sommerse per una settimana.
Mag 2025: Google Veo 3. Text-to-video a 4K con audio sincronizzato, effetti sonori e dialogo nativi.
Giu 2025: Meta V-JEPA 2. Un world model video open-source addestrato su oltre un milione di ore di video web, e V-JEPA 2 pianifica azioni robotiche circa quindici volte più rapidamente di NVIDIA Cosmos.
Set 2025: OpenAI Sora 2. Supera la soglia di realismo per il video breve, dialogo sincronizzato incluso.
Gen 2026: Google Veo 3.1. 4K reale, output verticale 9:16 nativo, e consistenza del personaggio via Ingredients-to-Video tra le inquadrature; vedi Veo 3.1.
Apr 2026: Sora viene chiuso. OpenAI depreca l'app standalone Sora e integra il modello in ChatGPT; finisce il brand, sopravvive la capacità.

Lo spostamento architetturale del 2020 è quello con la coda più lunga. Il paper del Vision Transformer (pre-addestrato su JFT-300M e trasferito su benchmark più piccoli) era esplicito su cosa aveva dimostrato:

"Quando pre-addestrato su grandi quantità di dati e trasferito su benchmark di riconoscimento immagini di media o piccola dimensione (ImageNet, CIFAR-100, VTAB, ecc.), il Vision Transformer (ViT) ottiene risultati eccellenti rispetto alle reti convoluzionali state-of-the-art, richiedendo nel frattempo molte meno risorse computazionali per l'addestramento." Dosovitskiy et al., 2020 (arXiv:2010.11929)

Lo Stanford AI Index 2026 registra la conseguenza: nel 2024 i benchmark di visione saturavano più rapidamente di quanto se ne potessero progettare di nuovi.

Cosa manca ancora

Quattro cose tengono la computer vision al di sotto della visione biologica nel 2026.

Robustezza adversarial. Attacchi a singolo pixel e rumore gaussiano dell'1% ribaltano ancora le predizioni dei classificatori in produzione. Anche gli umani sbagliano, ma le modalità di fallimento sono qualitativamente diverse.
Percezione embodied. La visione in un corpo (accoppiata ad azione, aspettativa e interazione fisica) resta lontana dalla biologia. Un bambino che segue una palla con gli occhi usa loop predittivi che i modelli vision-language-action attuali approssimano solo. Persino V-JEPA 2 di Meta è un prior di pianificazione, non un organo percettivo.
Efficienza campionaria. Un bambino ha bisogno di tre viste di una giraffa per riconoscerla per sempre. I modelli di visione ne servono ancora migliaia di esempi etichettati, o si appoggiano a pre-training da miliardi di immagini come sostituto dei prior biologici.
Identità persistente nel video. I generatori diffusivi vanno alla deriva sulla continuità del personaggio in clip lunghe anche con conditioning esplicito: proprio per questo Veo 3.1 ha spedito Ingredients-to-Video come primitiva.

Come leggiamo il verdetto

Diamo alla controparte AI il livello Maturo. Per la percezione di immagini statiche il gap è ormai stretto; per la cognizione visiva embodied, robusta ed efficiente sui campioni il gap resta ampio. La freccia del progresso punta inequivocabilmente in giù.

Corteccia visiva

Corteccia visiva

Cosa fa la biologia

Cosa abbiamo costruito

Cosa manca ancora

Come leggiamo il verdetto

Esempi concreti

Salute & buone pratiche

Per il cervello

Per la controparte AI

Tappe

Fonti

Voci Wikipedia correlate

Altre regioni