Gangli della base

Dal cervello all'algoritmo. I gangli della base scelgono quale azione eseguire e consolidano le skill dalla pratica esplicita a routine automatiche. La controparte AI è il reinforcement learning lungo tutta la pipeline di training: da AlphaGo all'RLHF all'RLVR. 2024–2025 hanno chiuso il gap tra "RL funziona sui giochi" e "RL è il motore del ragionamento frontier".

Cosa fa la biologia

I gangli della base sono un cluster di nuclei cerebrali profondi (caudato, putamen, globo pallido, sostanza nera, nucleo subtalamico) che stanno all'interfaccia tra corteccia e sistema motorio. Gestiscono la selezione dell'azione (quale delle molte mosse possibili dovrebbe partire?), la formazione di abitudini (consolidando scelte esplicite in routine automatiche) e l'apprendimento da ricompensa. Il segnale di dopamina dalla sostanza nera codifica l'errore di predizione della ricompensa, lo stesso segnale che gli algoritmi RL moderni calcolano. I danni a questo circuito producono i disturbi canonici dell'azione: il tremore e la rigidità del Parkinson, la corea di Huntington, i loop ossessivo-compulsivi.

Cosa abbiamo costruito

La storia del reinforcement learning è la storia di insegnare alle macchine a scegliere bene. Tredici tappe, dai pixel di Atari allo stack di post-training che muove ogni modello frontier nel 2026.

Dic 2013: DeepMind DQN. Il deep RL gioca ad Atari dai pixel (NIPS 2013).
Mar 2016: AlphaGo batte Lee Sedol. Primo livello sovrumano nel Go via deep RL + Monte-Carlo tree search.
Giu 2017: Fondamenta dell'RLHF. Christiano et al., Deep Reinforcement Learning from Human Preferences (NIPS 2017).
Ott 2017: AlphaZero. Un singolo algoritmo padroneggia scacchi, shogi e Go da self-play.
Gen 2022: InstructGPT. L'RLHF porta in produzione gli LLM tuned su preferenze.
Dic 2022: Constitutional AI / RLAIF. Anthropic sostituisce le etichette di preferenza umane con quelle generate dal modello; vedi il paper originale.
Mag 2023: Direct Preference Optimization. Rafailov et al. mostrano che il preference learning si può fare senza un modello di ricompensa esplicito.
Lug 2024: AlphaProof. L'RL su prove Lean raggiunge il livello medaglia d'argento IMO, primo sistema auto-migliorante a un solo punto da un medaglia d'oro; vedi il post DeepMind.
Ott 2024: Physical Intelligence π0. Primo modello foundation open per robot generalisti.
Gen 2025: DeepSeek-R1. Reasoning open-source via Group Relative Policy Optimization (GRPO) e Reinforcement Learning with Verifiable Rewards (RLVR); DeepSeek-R1 su GitHub è il modello di ragionamento open più scaricato del 2025.
Apr 2025: π0.5. Physical Intelligence π0.5 spedisce la generalizzazione open-world: il robot pulisce cucine su cui non è mai stato addestrato.
Lug 2025: Gemini Deep Think. Vince l'oro IMO 2025 (35/42) con RL parallel-thinking.
2026: L'RL è la ricetta dominante di post-training. Su reasoning (serie o, Claude Extended Thinking, Deep Think), coding (guadagni SWE-bench) e computer-use (Operator → ChatGPT agent), l'RL è diventato la ricetta.

La semplificazione che ha reso possibile l'esplosione post-2023 è venuta dal paper DPO:

"In questo paper introduciamo una nuova parametrizzazione del modello di ricompensa nell'RLHF che permette l'estrazione della policy ottimale corrispondente in forma chiusa, permettendoci di risolvere il problema RLHF standard con una sola semplice loss di classificazione. L'algoritmo risultante, che chiamiamo Direct Preference Optimization (DPO), è stabile, performante e computazionalmente leggero, eliminando il bisogno di campionare dal LM durante il fine-tuning o di un significativo hyperparameter tuning." Rafailov et al., 2023 (arXiv:2305.18290)

DPO, GRPO e RLVR sono i tre nomi che compaiono ovunque nelle model card 2025–2026. Lo Stanford AI Index 2026 registra la curva.

Cosa manca ancora

La circuiteria di selezione è ancora fragile in modi che il cervello non lo è.

Reward hacking sui task soggettivi. Le reward verificabili funzionano dove esiste una ground truth (matematica, codice, prova formale). Non funzionano per scrittura creativa, brand voice o argomentazione sfumata: i dati di preferenza umani restano superiori.
Credit assignment di lungo orizzonte. Quando il segnale di ricompensa è sparso su migliaia di passi, gli agenti falliscono. I task autonomi multi-ora entrano ancora in loop, vanno in timeout, o allucinano progresso.
Il trasferimento di skill è scarso. Una policy che ha appreso il task A raramente trasferisce in modo pulito al task B senza ri-training costoso.
Nessun consolidamento procedurale. Le reti neurali non hanno l'ovvia transizione "skill-diventa-automatica" dei mammiferi. Un modello che ha risolto un problema mille volte costa altrettanti token per risolverlo la milleunesima.

Come leggiamo il verdetto

Diamo alla controparte AI il livello In sviluppo. Lo stack di post-training è maturo e in produzione ovunque; il loop agentico (scegli l'azione giusta, ripeti, costruisci la skill) si chiude rapidamente ma fallisce ancora su orizzonti lunghi e in ambienti non familiari. Tra le tre regioni cerebrali profonde della V1.2, questa è quella con la curva di miglioramento più ripida in questo momento.

Gangli della base

Gangli della base

Cosa fa la biologia

Cosa abbiamo costruito

Cosa manca ancora

Come leggiamo il verdetto

Esempi concreti

Salute & buone pratiche

Per il cervello

Per la controparte AI

Tappe

Fonti

Voci Wikipedia correlate

Altre regioni