Corteccia prefrontale
Dal cervello all'algoritmo. La corteccia prefrontale tiene il mondo in mente mentre ci lavori sopra. La sua controparte AI — i modelli addestrati al ragionamento, con extended thinking e uso agentico del computer — è la frontiera che si muove più velocemente nell'intelligenza artificiale nel 2026.
Cosa fa la biologia
La corteccia prefrontale sta nella parte anteriore del lobo frontale ed è l'ultima a maturare nello sviluppo. È responsabile di memoria di lavoro, pianificazione, ragionamento astratto, controllo esecutivo, metacognizione e teoria della mente. Tre sotto-regioni si specializzano:
- PFC dorsolaterale — memoria di lavoro, pianificazione, scomposizione dei problemi.
- PFC ventromediale — decisioni basate sul valore, regolazione emotiva.
- Corteccia orbitofrontale — inibizione sensibile al contesto, aspettativa di ricompensa.
Integra il contesto su lunghi orizzonti temporali, inibisce le risposte prepotenti e riscrive i piani al volo. Le lesioni producono il classico profilo Phineas Gage: percezione e memoria intatte, giudizio devastato.
Cosa abbiamo costruito
Il ragionamento al momento dell'inferenza è l'arco di ricerca AI che definisce il 2024–2026. La sequenza completa:
- Gen 2022 — Chain-of-Thought prompting. Wei et al. mostrano che il ragionamento scala con il budget di token.
- Lug 2024 — DeepMind AlphaProof + AlphaGeometry 2. Medaglia d'argento all'IMO 2024 (28/42).
- Set 2024 — OpenAI o1 preview. Primo modello con RL su chain-of-thought; rilascio completo a dicembre.
- Ott 2024 — Anthropic Computer Use. Claude legge screenshot e sintetizza input di mouse e tastiera — Computer Use è la demo canonica.
- Dic 2024 — Annuncio o3, preview di Project Mariner.
- Gen 2025 — DeepSeek-R1 e Operator. Reasoning open-source via GRPO + RLVR; OpenAI lancia Operator come primo agente generale commerciale.
- Apr 2025 — o3 GA. OpenAI porta o3 e o4-mini alla disponibilità generale, accanto al tool use reasoning-aware.
- Lug 2025 — Gemini 2.5 Deep Think + ChatGPT agent. Deep Think vince l'oro IMO 2025 (35/42) con RL parallel-thinking; ChatGPT agent sostituisce Operator.
- Feb 2026 — Gemini 3.1 Pro. 2× il ragionamento; primo su dodici benchmark su diciotto.
- Q1 2026 — Svolta ARC-AGI-2. Claude Opus salta 8,6% (mag 2025) → 68,8% (feb 2026); o3/GPT-5.4 saltano 6,5% (apr 2025) → 73,3% (mar 2026) — vedi la leaderboard ARC Prize live.
- Mag 2026 — Project Mariner chiuso. Google ritira il brand standalone Mariner e integra la capacità in Gemini Agent e AI Mode.
- Mag 2026 — GPT-5.5 in testa ad ARC-AGI-2 con 85% — gli umani in media 66%. Primo benchmark in cui l'AI risolve la maggioranza delle astrazioni visive.
Il salto concettuale è stato articolato nel paper Tree of Thoughts un anno prima dell'uscita di o1:
"ToT permette agli LM di prendere decisioni deliberate considerando più percorsi di ragionamento diversi e auto-valutando le scelte per decidere la prossima azione, oltre a guardare avanti o tornare indietro quando necessario per fare scelte globali. […] In Game of 24, mentre GPT-4 con chain-of-thought risolveva solo il 4% dei task, il nostro metodo ha raggiunto un tasso di successo del 74%." — Yao et al., 2023 (arXiv:2305.10601)
Ogni modello di ragionamento commerciale dal 2024 in poi — serie o, Claude Extended Thinking, Deep Think, Gemini 3.1 Pro — è un discendente production-engineered di quell'idea, con reinforcement learning al posto del prompt engineering. L'International AI Safety Report 2026 traccia le implicazioni di sicurezza; lo Stanford AI Index 2026 i guadagni di capacità.
Cosa manca ancora
L'asticella per "ragionare" si è mossa rapidamente, ma il gap rispetto a una corteccia prefrontale funzionante resta ampio.
- Calibrazione. I modelli di ragionamento prendono voti alti sui benchmark mentre sono over-confident sugli item che sbagliano. Non sanno cosa non sanno.
- Intuizione genuina. La performance su Humanity's Last Exam e FrontierMath di OpenAI resta 40–50% — molto sotto gli esperti umani. I modelli eccellono sui problemi di classe risolta e si arrestano su quelli genuinamente nuovi.
- Autonomia sul lungo periodo. I task agentici che durano più di un'ora falliscono ancora silenziosamente, entrano in loop, o lasciano cadere l'obiettivo. La corteccia prefrontale no.
- Costo. Il ragionamento frontier scala con i token; un deep-think costa un ordine di grandezza in più dell'inferenza fast.
Come leggiamo il verdetto
Diamo alla controparte AI il livello In sviluppo. Il ritmo di miglioramento è il più alto di qualsiasi regione di questo atlante, ma la capacità assoluta resta sotto gli umani con istruzione sui problemi aperti che contano. L'AI equivalente al prefrontale è plausibilmente la domanda più importante del decennio.