Talamo

Dal cervello all'algoritmo. Il talamo è lo smistatore centrale del cervello: ogni senso (tranne l'olfatto) ci passa prima di raggiungere la corteccia. La controparte AI sono i modelli foundation multimodali nativi: una rete che gestisce testo, immagine, audio e video come un singolo flusso. La capacità è in produzione in ogni laboratorio frontier.

Cosa fa la biologia

Il talamo sta al centro del cervello, appena sopra il tronco encefalico e tra i due emisferi cerebrali. È la porta d'ingresso per quasi ogni modalità sensoriale: segnali visivi dal nucleo genicolato laterale, segnali uditivi dal genicolato mediale, segnali somatosensoriali dai nuclei ventrali posteriori. Regola l'attenzione, sopprime gli input irrilevanti, e lega le modalità in un singolo flusso coerente. I pazienti con lesioni talamiche soffrono di neglect sensoriale e perdono la capacità di combinare vista, suono e tatto in un percetto unificato: sentono e vedono, ma ogni canale è un'isola.

Cosa abbiamo costruito

La multimodalità prima significava attaccare un encoder di visione a un modello linguistico. Dopo il 2024 significa un solo modello che tokenizza tutto nello stesso spazio.

Set 2022: OpenAI Whisper. Arriva il riconoscimento vocale open-source robusto; il collo di bottiglia si sposta da "la macchina può sentire?" a "cosa fa la macchina con quello che ha sentito?".
Mar 2023: GPT-4V. Primo modello frontier a gestire visione e testo nella stessa finestra di contesto.
Feb 2024: Gemini 1.5. Google spedisce contesto 1M token con multimodalità nativa: testo, immagine, audio e video nella stessa chiamata.
Mag 2024: GPT-4o. GPT-4o dimostra voice-to-voice nativo a ~320 ms di latenza, alla velocità di reazione umana.
Lug 2024: Advanced Voice Mode. La voce completa arriva su ChatGPT Plus.
Ott 2024: OpenAI Realtime API. Streaming speech-to-speech production-grade per gli sviluppatori.
Gen 2025: Il multimodale a pesi aperti colma il divario. Qwen2.5-VL-72B di Alibaba raggiunge 70,2 su MMMU e 88,6 su MMBench-EN, allineandosi alla comprensione di classe GPT-4o; InternVL3.5 segue più avanti nel 2025. La multimodalità nativa non è più una capacità esclusiva della frontiera USA.
Mar 2025: Generazione di immagini nativa in GPT-4o. La image gen di 4o arriva; l'ondata di style transfer Studio Ghibli sommerge le GPU di OpenAI in poche ore.
Mag 2025: Google Veo 3. Text-to-video 4K audio-sync con effetti sonori nativi.
Giu 2025: Meta V-JEPA 2. V-JEPA 2 addestra un world model su oltre un milione di ore di video web; pianifica azioni robotiche ~15× più rapidamente di NVIDIA Cosmos.
Nov 2025: Google Gemini 3. In testa ai benchmark di comprensione multimodale.
Gen 2026: Veo 3.1. 4K vero, video verticale nativo per TikTok/Shorts, Ingredients-to-Video per la consistenza del personaggio multi-shot.
Feb 2026: Gemini 3.1 Pro. Contesto 1M su tutte le modalità, output 65K token, in testa a dodici benchmark su diciotto.
Mag 2026: Google Gemini Omni Flash. Un singolo modello che prende testo, immagini, audio e video come input e genera video come output, modificabile in modo conversazionale, qualunque modalità in ingresso, video in uscita, in una sola chiamata.

Lo spostamento architetturale è stato anticipato nel paper Flamingo di DeepMind due anni prima che diventasse commodity:

"Proponiamo innovazioni architetturali chiave per: (i) collegare potenti modelli pre-addestrati solo-visione e solo-linguaggio, (ii) gestire sequenze di dati visivi e testuali interlacciati in modo arbitrario, e (iii) ingerire immagini o video come input senza soluzione di continuità. […] Un singolo modello Flamingo può ottenere un nuovo state of the art con few-shot learning, semplicemente fornendo al modello esempi specifici al task." Alayrac et al., 2022 (arXiv:2204.14198)

Quello che Flamingo proponeva come architettura ponte è diventato, due generazioni di modelli dopo, il default. Lo Stanford AI Index 2026 registra la curva di saturazione: nel 2025 i benchmark multimodali si ritiravano più velocemente di quanto i laboratori riuscissero a pubblicare.

Cosa manca ancora

La multimodalità nativa funziona. I gap rimasti sono sottili, ma sono comunque gap.

Il grounding cross-modale allucina. Prompt avversariali audio + video desincronizzano l'output del modello: il sistema descrive cosa vede, non cosa sta effettivamente suonando.
Il video lungo è duro. La maggior parte dei modelli multimodali in produzione degrada ancora sulla comprensione di video lunghi un'ora, un vincolo che la biologia non condivide.
Il bias di modalità persiste. I dati di training sono in larga parte testuali. Il ragionamento puramente audio, la comprensione musicale e l'integrazione propriocettiva restano indietro rispetto a vision-language.
La generazione sub-secondo è asimmetrica. Le risposte vocali arrivano in ~300 ms; il video di qualità sotto il secondo resta aspirazionale.

Come leggiamo il verdetto

Diamo alla controparte AI il livello Maturo. Il talamo è una delle regioni in cui l'AI è arrivata più credibilmente: una singola rete in produzione in ogni laboratorio frontier sa vedere, sentire, parlare e predire il mondo fisico. La versione biologica vince ancora sui casi limite e sulla fluidità del binding, ma l'esistenza della capacità non è più in discussione.

Talamo

Talamo

Cosa fa la biologia

Cosa abbiamo costruito

Cosa manca ancora

Come leggiamo il verdetto

Esempi concreti

Salute & buone pratiche

Per il cervello

Per la controparte AI

Tappe

Fonti

Voci Wikipedia correlate

Altre regioni