Talamo
Dal cervello all'algoritmo. Il talamo è lo smistatore centrale del cervello — ogni senso (tranne l'olfatto) ci passa prima di raggiungere la corteccia. La controparte AI sono i modelli foundation multimodali nativi: una rete che gestisce testo, immagine, audio e video come un singolo flusso. La capacità è in produzione in ogni laboratorio frontier.
Cosa fa la biologia
Il talamo sta al centro del cervello, appena sopra il tronco encefalico e tra i due emisferi cerebrali. È la porta d'ingresso per quasi ogni modalità sensoriale: segnali visivi dal nucleo genicolato laterale, segnali uditivi dal genicolato mediale, segnali somatosensoriali dai nuclei ventrali posteriori. Regola l'attenzione, sopprime gli input irrilevanti, e lega le modalità in un singolo flusso coerente. I pazienti con lesioni talamiche soffrono di neglect sensoriale e perdono la capacità di combinare vista, suono e tatto in un percetto unificato — sentono e vedono, ma ogni canale è un'isola.
Cosa abbiamo costruito
La multimodalità prima significava attaccare un encoder di visione a un modello linguistico. Dopo il 2024 significa un solo modello che tokenizza tutto nello stesso spazio.
- Set 2022 — OpenAI Whisper. Arriva il riconoscimento vocale open-source robusto; il collo di bottiglia si sposta da "la macchina può sentire?" a "cosa fa la macchina con quello che ha sentito?".
- Mar 2023 — GPT-4V. Primo modello frontier a gestire visione e testo nella stessa finestra di contesto.
- Feb 2024 — Gemini 1.5. Google spedisce contesto 1M token con multimodalità nativa — testo, immagine, audio e video nella stessa chiamata.
- Mag 2024 — GPT-4o. GPT-4o dimostra voice-to-voice nativo a ~320 ms di latenza, alla velocità di reazione umana.
- Lug 2024 — Advanced Voice Mode. La voce completa arriva su ChatGPT Plus.
- Ott 2024 — OpenAI Realtime API. Streaming speech-to-speech production-grade per gli sviluppatori.
- Mar 2025 — Generazione di immagini nativa in GPT-4o. La image gen di 4o arriva; l'ondata di style transfer Studio Ghibli sommerge le GPU di OpenAI in poche ore.
- Mag 2025 — Google Veo 3. Text-to-video 4K audio-sync con effetti sonori nativi.
- Giu 2025 — Meta V-JEPA 2. V-JEPA 2 addestra un world model su oltre un milione di ore di video web; pianifica azioni robotiche ~15× più rapidamente di NVIDIA Cosmos.
- Nov 2025 — Google Gemini 3. In testa ai benchmark di comprensione multimodale.
- Gen 2026 — Veo 3.1. 4K vero, video verticale nativo per TikTok/Shorts, Ingredients-to-Video per la consistenza del personaggio multi-shot.
- Feb 2026 — Gemini 3.1 Pro. Contesto 1M su tutte le modalità, output 65K token, in testa a dodici benchmark su diciotto.
Lo spostamento architetturale è stato anticipato nel paper Flamingo di DeepMind due anni prima che diventasse commodity:
"Proponiamo innovazioni architetturali chiave per: (i) collegare potenti modelli pre-addestrati solo-visione e solo-linguaggio, (ii) gestire sequenze di dati visivi e testuali interlacciati in modo arbitrario, e (iii) ingerire immagini o video come input senza soluzione di continuità. […] Un singolo modello Flamingo può ottenere un nuovo state of the art con few-shot learning, semplicemente fornendo al modello esempi specifici al task." — Alayrac et al., 2022 (arXiv:2204.14198)
Quello che Flamingo proponeva come architettura ponte è diventato, due generazioni di modelli dopo, il default. Lo Stanford AI Index 2026 registra la curva di saturazione: nel 2025 i benchmark multimodali si ritiravano più velocemente di quanto i laboratori riuscissero a pubblicare.
Cosa manca ancora
La multimodalità nativa funziona. I gap rimasti sono sottili, ma sono comunque gap.
- Il grounding cross-modale allucina. Prompt avversariali audio + video desincronizzano l'output del modello: il sistema descrive cosa vede, non cosa sta effettivamente suonando.
- Il video lungo è duro. La maggior parte dei modelli multimodali in produzione degrada ancora sulla comprensione di video lunghi un'ora — un vincolo che la biologia non condivide.
- Il bias di modalità persiste. I dati di training sono in larga parte testuali. Il ragionamento puramente audio, la comprensione musicale e l'integrazione propriocettiva restano indietro rispetto a vision-language.
- La generazione sub-secondo è asimmetrica. Le risposte vocali arrivano in ~300 ms; il video di qualità sotto il secondo resta aspirazionale.
Come leggiamo il verdetto
Diamo alla controparte AI il livello Maturo. Il talamo è una delle regioni in cui l'AI è arrivata più credibilmente: una singola rete in produzione in ogni laboratorio frontier sa vedere, sentire, parlare e predire il mondo fisico. La versione biologica vince ancora sui casi limite e sulla fluidità del binding — ma l'esistenza della capacità non è più in discussione.