Aree di Broca e Wernicke

Dal cervello all'algoritmo. Due regioni corticali (una per la produzione, una per la comprensione) implementano l'interfaccia linguistica della cognizione umana. Il Transformer è il loro analogo ingegnerizzato più vicino, e sulla maggior parte dei benchmark misurabili adesso eguaglia gli umani con istruzione.

Cosa fa la biologia

L'area di Broca, nel giro frontale inferiore dell'emisfero sinistro (aree di Brodmann 44 e 45), è il motore di produzione: sequenzia il parlato sintatticamente strutturato e i comandi motori per l'articolazione. Le lesioni producono un output telegrafico e agrammatico. L'area di Wernicke, nel giro temporale superiore posteriore (area di Brodmann 22), è la controparte della comprensione: in caso di lesione emerge un output fluente ma privo di significato. Le due sono collegate dal fascicolo arcuato e alla corteccia motoria e uditiva da brevi loop di sostanza bianca.

Insieme implementano un grounding simbolico bidirezionale: il parlato in entrata diventa significato; il significato diventa parlato in uscita. L'intero sistema gira a circa 10 W e impara in continuo.

Cosa abbiamo costruito

I grandi modelli linguistici moderni si reggono su un solo pilastro architetturale, il Transformer. Tredici tappe, quasi nove anni, una sola architettura.

Giu 2017: "Attention Is All You Need". Vaswani et al. introducono il Transformer, sostituendo la ricorrenza con l'auto-attenzione.
Mag 2020: GPT-3. OpenAI dimostra il few-shot emergente a 175 miliardi di parametri, il momento in cui la "scala" è diventata una strategia di ricerca.
Gen 2022: InstructGPT. L'RLHF porta l'instruction-following in produzione.
Nov 2022: ChatGPT. Supera i 100 milioni di utenti in due mesi; l'RLHF diventa mainstream.
Mar 2023: GPT-4. Performance di livello esperto su bar exam, USMLE e parti dell'IMO.
Feb 2023: Meta Llama 1. Inaugura l'era open-weight per i modelli frontier-class.
2024: I pesi aperti raggiungono i chiusi. Llama 3, DeepSeek-V3 e Qwen3 chiudono quasi tutti i divari open-vs-closed su ragionamento e codice.
Ago 2025: OpenAI GPT-5. Un singolo router di GPT-5 sceglie da solo tra modalità fast e deliberativa per ogni query; ~45% in meno di allucinazioni rispetto a GPT-4o.
Nov 2025: Google Gemini 3. La preview si diffonde su tutti i prodotti Google.
Feb 2026: Gemini 3.1 Pro. 2× il ragionamento di Gemini 3, contesto 1M token, primo su dodici benchmark su diciotto.
Apr 2026: Claude Opus 4.7. Anthropic spedisce Claude Opus 4.7: contesto 1M token, output 128K, 87,6% su SWE-bench Verified.
Mag 2026: Claude Opus 4.8. Sei settimane dopo, una "Fast mode" e guadagni significativi sul coding-agent allo stesso prezzo.
Giu 2026: Claude Fable 5 e Mythos 5. Anthropic spedisce il suo primo tier Mythos-class sopra Opus, state-of-the-art su quasi tutti i benchmark testati, con un margine che cresce quanto più il task è lungo e complesso. L'accesso è stato sospeso pochi giorni dopo da una direttiva di export-control USA che ne vieta l'uso ai cittadini stranieri.

Il paper originale fece una promessa senza fronzoli che è diventata la fondazione dell'intero campo:

"Proponiamo una nuova semplice architettura di rete, il Transformer, basata unicamente su meccanismi di attenzione, eliminando del tutto ricorrenza e convoluzioni. Esperimenti su due task di traduzione automatica mostrano che questi modelli sono superiori in qualità, oltre a essere più parallelizzabili e a richiedere molto meno tempo per essere addestrati." Vaswani et al., 2017 (arXiv:1706.03762)

Tutti i modelli in elenco hanno una cosa in comune: lo stesso blocco di auto-attenzione, impilato più in profondità, nutrito con più token, post-addestrato più duramente. La classifica LMArena (milioni di voti umani in confronti diretti) e la Open LLM Leaderboard di Hugging Face registrano la conseguenza: una superficie di benchmark talmente affollata che i lanci mensili dei modelli a malapena spostano l'ago.

Cosa manca ancora

Il linguaggio è la funzione in cui l'AI è più vicina agli umani, e per questo i gap sono più nitidi.

Allucinazione. Anche le risposte ancorate al retrieval portano un tasso di confabulazione non nullo. La calibrazione è il problema aperto del 2026.
Coerenza sul lungo periodo. Le conversazioni che durano giorni o mesi vanno ancora alla deriva senza una memoria esterna. Il modello non si ricorda di martedì scorso.
Inferenza pragmatica e sociale. Teoria della mente, intenzione ironica, riparazione conversazionale di fronte a un vero malinteso: gli LLM attuali falliscono con regolarità queste prove avversariali.
Grounding fisico. Gli LLM descrivono il mondo senza essersi mai mossi dentro; i benchmark embodied restano un campo a parte.

Come leggiamo il verdetto

Diamo alla controparte AI il livello Maturo. La produzione linguistica, nel 2026, è grossomodo risolta a livello di superficie. I gap rimasti (grounding, calibrazione, memoria, inferenza sociale) non riguardano più la produzione di testo fluente; riguardano dire ciò che si intende dire.

Aree di Broca e Wernicke

Aree di Broca e Wernicke

Cosa fa la biologia

Cosa abbiamo costruito

Cosa manca ancora

Come leggiamo il verdetto

Esempi concreti

Salute & buone pratiche

Per il cervello

Per la controparte AI

Tappe

Fonti

Voci Wikipedia correlate

Altre regioni