72/100 · Maturo · Diencefalo · centrale profondo

Talamo

Maturità AIMaturo72/100
absembpridevmatsup

Talamo

Dal cervello all'algoritmo. Il talamo è lo smistatore centrale del cervello — ogni senso (tranne l'olfatto) ci passa prima di raggiungere la corteccia. La controparte AI sono i modelli foundation multimodali nativi: una rete che gestisce testo, immagine, audio e video come un singolo flusso. La capacità è in produzione in ogni laboratorio frontier.

Cosa fa la biologia

Il talamo sta al centro del cervello, appena sopra il tronco encefalico e tra i due emisferi cerebrali. È la porta d'ingresso per quasi ogni modalità sensoriale: segnali visivi dal nucleo genicolato laterale, segnali uditivi dal genicolato mediale, segnali somatosensoriali dai nuclei ventrali posteriori. Regola l'attenzione, sopprime gli input irrilevanti, e lega le modalità in un singolo flusso coerente. I pazienti con lesioni talamiche soffrono di neglect sensoriale e perdono la capacità di combinare vista, suono e tatto in un percetto unificato — sentono e vedono, ma ogni canale è un'isola.

Cosa abbiamo costruito

La multimodalità prima significava attaccare un encoder di visione a un modello linguistico. Dopo il 2024 significa un solo modello che tokenizza tutto nello stesso spazio.

  • Set 2022 — OpenAI Whisper. Arriva il riconoscimento vocale open-source robusto; il collo di bottiglia si sposta da "la macchina può sentire?" a "cosa fa la macchina con quello che ha sentito?".
  • Mar 2023 — GPT-4V. Primo modello frontier a gestire visione e testo nella stessa finestra di contesto.
  • Feb 2024 — Gemini 1.5. Google spedisce contesto 1M token con multimodalità nativa — testo, immagine, audio e video nella stessa chiamata.
  • Mag 2024 — GPT-4o. GPT-4o dimostra voice-to-voice nativo a ~320 ms di latenza, alla velocità di reazione umana.
  • Lug 2024 — Advanced Voice Mode. La voce completa arriva su ChatGPT Plus.
  • Ott 2024 — OpenAI Realtime API. Streaming speech-to-speech production-grade per gli sviluppatori.
  • Mar 2025 — Generazione di immagini nativa in GPT-4o. La image gen di 4o arriva; l'ondata di style transfer Studio Ghibli sommerge le GPU di OpenAI in poche ore.
  • Mag 2025 — Google Veo 3. Text-to-video 4K audio-sync con effetti sonori nativi.
  • Giu 2025 — Meta V-JEPA 2. V-JEPA 2 addestra un world model su oltre un milione di ore di video web; pianifica azioni robotiche ~15× più rapidamente di NVIDIA Cosmos.
  • Nov 2025 — Google Gemini 3. In testa ai benchmark di comprensione multimodale.
  • Gen 2026 — Veo 3.1. 4K vero, video verticale nativo per TikTok/Shorts, Ingredients-to-Video per la consistenza del personaggio multi-shot.
  • Feb 2026 — Gemini 3.1 Pro. Contesto 1M su tutte le modalità, output 65K token, in testa a dodici benchmark su diciotto.

Lo spostamento architetturale è stato anticipato nel paper Flamingo di DeepMind due anni prima che diventasse commodity:

"Proponiamo innovazioni architetturali chiave per: (i) collegare potenti modelli pre-addestrati solo-visione e solo-linguaggio, (ii) gestire sequenze di dati visivi e testuali interlacciati in modo arbitrario, e (iii) ingerire immagini o video come input senza soluzione di continuità. […] Un singolo modello Flamingo può ottenere un nuovo state of the art con few-shot learning, semplicemente fornendo al modello esempi specifici al task." — Alayrac et al., 2022 (arXiv:2204.14198)

Quello che Flamingo proponeva come architettura ponte è diventato, due generazioni di modelli dopo, il default. Lo Stanford AI Index 2026 registra la curva di saturazione: nel 2025 i benchmark multimodali si ritiravano più velocemente di quanto i laboratori riuscissero a pubblicare.

Cosa manca ancora

La multimodalità nativa funziona. I gap rimasti sono sottili, ma sono comunque gap.

  1. Il grounding cross-modale allucina. Prompt avversariali audio + video desincronizzano l'output del modello: il sistema descrive cosa vede, non cosa sta effettivamente suonando.
  2. Il video lungo è duro. La maggior parte dei modelli multimodali in produzione degrada ancora sulla comprensione di video lunghi un'ora — un vincolo che la biologia non condivide.
  3. Il bias di modalità persiste. I dati di training sono in larga parte testuali. Il ragionamento puramente audio, la comprensione musicale e l'integrazione propriocettiva restano indietro rispetto a vision-language.
  4. La generazione sub-secondo è asimmetrica. Le risposte vocali arrivano in ~300 ms; il video di qualità sotto il secondo resta aspirazionale.

Come leggiamo il verdetto

Diamo alla controparte AI il livello Maturo. Il talamo è una delle regioni in cui l'AI è arrivata più credibilmente: una singola rete in produzione in ogni laboratorio frontier sa vedere, sentire, parlare e predire il mondo fisico. La versione biologica vince ancora sui casi limite e sulla fluidità del binding — ma l'esistenza della capacità non è più in discussione.

Esempi concreti

  • GPT-4o multimodale nativoUn solo modello per testo, immagine, audio — risposta vocale a 320 ms, alla velocità di reazione umana.
  • Google Veo 3.1Video 4K audio-sync da testo con formato verticale — effetti sonori dentro al modello, non post-prodotti.
  • Meta V-JEPA 2Predice la dinamica del mondo fisico dal video; pianifica azioni robotiche ~15× più rapidamente di NVIDIA Cosmos.

Tappe

  • Set 2022OpenAI Whisper — riconoscimento vocale open-source robusto
  • Mar 2023GPT-4V — primo modello frontier a gestire visione e testo nello stesso contesto
  • Feb 2024Gemini 1.5 — contesto 1M con multimodalità nativa (testo/immagine/audio/video)
  • Mag 2024GPT-4o — voice-to-voice nativo a 320 ms di latenza; multimodalità completa in un solo modello
  • Lug 2024GPT-4o Advanced Voice Mode in rollout su ChatGPT Plus
  • Ott 2024OpenAI Realtime API — streaming speech-to-speech production-grade
  • Mar 2025Generazione di immagini nativa in GPT-4o — il momento Studio Ghibli
  • Mag 2025Google Veo 3 — text-to-video a 4K con audio sincronizzato nativo
  • Giu 2025Meta V-JEPA 2 — world model video addestrato su oltre 1M di ore di web
  • Nov 2025Google Gemini 3 — primo sui benchmark di comprensione multimodale
  • Gen 2026Google Veo 3.1 — 4K verticale con audio + dialogo lip-synced
  • Feb 2026Gemini 3.1 Pro — contesto 1M su tutte le modalità, output 65K token

Fonti

Voci Wikipedia correlate

Altre regioni