54/100 · In sviluppo · Lobo frontale (anteriore)

Corteccia prefrontale

Maturità AIIn sviluppo54/100
absembpridevmatsup

Corteccia prefrontale

Dal cervello all'algoritmo. La corteccia prefrontale tiene il mondo in mente mentre ci lavori sopra. La sua controparte AI — i modelli addestrati al ragionamento, con extended thinking e uso agentico del computer — è la frontiera che si muove più velocemente nell'intelligenza artificiale nel 2026.

Cosa fa la biologia

La corteccia prefrontale sta nella parte anteriore del lobo frontale ed è l'ultima a maturare nello sviluppo. È responsabile di memoria di lavoro, pianificazione, ragionamento astratto, controllo esecutivo, metacognizione e teoria della mente. Tre sotto-regioni si specializzano:

  • PFC dorsolaterale — memoria di lavoro, pianificazione, scomposizione dei problemi.
  • PFC ventromediale — decisioni basate sul valore, regolazione emotiva.
  • Corteccia orbitofrontale — inibizione sensibile al contesto, aspettativa di ricompensa.

Integra il contesto su lunghi orizzonti temporali, inibisce le risposte prepotenti e riscrive i piani al volo. Le lesioni producono il classico profilo Phineas Gage: percezione e memoria intatte, giudizio devastato.

Cosa abbiamo costruito

Il ragionamento al momento dell'inferenza è l'arco di ricerca AI che definisce il 2024–2026. La sequenza completa:

  • Gen 2022 — Chain-of-Thought prompting. Wei et al. mostrano che il ragionamento scala con il budget di token.
  • Lug 2024 — DeepMind AlphaProof + AlphaGeometry 2. Medaglia d'argento all'IMO 2024 (28/42).
  • Set 2024 — OpenAI o1 preview. Primo modello con RL su chain-of-thought; rilascio completo a dicembre.
  • Ott 2024 — Anthropic Computer Use. Claude legge screenshot e sintetizza input di mouse e tastiera — Computer Use è la demo canonica.
  • Dic 2024 — Annuncio o3, preview di Project Mariner.
  • Gen 2025 — DeepSeek-R1 e Operator. Reasoning open-source via GRPO + RLVR; OpenAI lancia Operator come primo agente generale commerciale.
  • Apr 2025 — o3 GA. OpenAI porta o3 e o4-mini alla disponibilità generale, accanto al tool use reasoning-aware.
  • Lug 2025 — Gemini 2.5 Deep Think + ChatGPT agent. Deep Think vince l'oro IMO 2025 (35/42) con RL parallel-thinking; ChatGPT agent sostituisce Operator.
  • Feb 2026 — Gemini 3.1 Pro. 2× il ragionamento; primo su dodici benchmark su diciotto.
  • Q1 2026 — Svolta ARC-AGI-2. Claude Opus salta 8,6% (mag 2025) → 68,8% (feb 2026); o3/GPT-5.4 saltano 6,5% (apr 2025) → 73,3% (mar 2026) — vedi la leaderboard ARC Prize live.
  • Mag 2026 — Project Mariner chiuso. Google ritira il brand standalone Mariner e integra la capacità in Gemini Agent e AI Mode.
  • Mag 2026 — GPT-5.5 in testa ad ARC-AGI-2 con 85% — gli umani in media 66%. Primo benchmark in cui l'AI risolve la maggioranza delle astrazioni visive.

Il salto concettuale è stato articolato nel paper Tree of Thoughts un anno prima dell'uscita di o1:

"ToT permette agli LM di prendere decisioni deliberate considerando più percorsi di ragionamento diversi e auto-valutando le scelte per decidere la prossima azione, oltre a guardare avanti o tornare indietro quando necessario per fare scelte globali. […] In Game of 24, mentre GPT-4 con chain-of-thought risolveva solo il 4% dei task, il nostro metodo ha raggiunto un tasso di successo del 74%." — Yao et al., 2023 (arXiv:2305.10601)

Ogni modello di ragionamento commerciale dal 2024 in poi — serie o, Claude Extended Thinking, Deep Think, Gemini 3.1 Pro — è un discendente production-engineered di quell'idea, con reinforcement learning al posto del prompt engineering. L'International AI Safety Report 2026 traccia le implicazioni di sicurezza; lo Stanford AI Index 2026 i guadagni di capacità.

Cosa manca ancora

L'asticella per "ragionare" si è mossa rapidamente, ma il gap rispetto a una corteccia prefrontale funzionante resta ampio.

  1. Calibrazione. I modelli di ragionamento prendono voti alti sui benchmark mentre sono over-confident sugli item che sbagliano. Non sanno cosa non sanno.
  2. Intuizione genuina. La performance su Humanity's Last Exam e FrontierMath di OpenAI resta 40–50% — molto sotto gli esperti umani. I modelli eccellono sui problemi di classe risolta e si arrestano su quelli genuinamente nuovi.
  3. Autonomia sul lungo periodo. I task agentici che durano più di un'ora falliscono ancora silenziosamente, entrano in loop, o lasciano cadere l'obiettivo. La corteccia prefrontale no.
  4. Costo. Il ragionamento frontier scala con i token; un deep-think costa un ordine di grandezza in più dell'inferenza fast.

Come leggiamo il verdetto

Diamo alla controparte AI il livello In sviluppo. Il ritmo di miglioramento è il più alto di qualsiasi regione di questo atlante, ma la capacità assoluta resta sotto gli umani con istruzione sui problemi aperti che contano. L'AI equivalente al prefrontale è plausibilmente la domanda più importante del decennio.

Esempi concreti

  • Gemini 2.5 Deep ThinkOro all'IMO 2025 (35/42) con il parallel thinking — esplora più piste di soluzione prima di scegliere.
  • Leaderboard ARC-AGI-2GPT-5.5 in testa all'85%, umani in media al 66% — primo benchmark dove l'AI risolve la maggioranza di astrazioni visive.
  • Anthropic Computer UseClaude legge uno screenshot, decide cosa cliccare, muove il mouse — la demo canonica del computer-use.

Tappe

  • Gen 2022Chain-of-Thought (Wei et al.) mostra che il ragionamento scala con il budget di token
  • Lug 2024DeepMind AlphaProof + AlphaGeometry 2 — medaglia d'argento all'IMO 2024 (28/42)
  • Set 2024OpenAI o1 preview — primo modello con RL su chain-of-thought; rilascio completo dic 2024
  • Ott 2024Anthropic Computer Use — Claude pilota un desktop via screenshot + tastiera/mouse
  • Dic 2024OpenAI annuncia o3 (ragionamento frontier); Google presenta Project Mariner
  • Gen 2025DeepSeek-R1 open-source via GRPO + RLVR; OpenAI lancia Operator
  • Apr 2025OpenAI o3 raggiunge la disponibilità generale insieme a o4-mini
  • Lug 2025Gemini 2.5 Deep Think — oro IMO 2025 (35/42); ChatGPT agent sostituisce Operator
  • Feb 2026Gemini 3.1 Pro — 2× il ragionamento, primo su 12 benchmark su 18
  • Q1 2026ARC-AGI-2 svolta: Claude Opus 8,6% (mag 25) → 68,8% (feb 26); o3/GPT-5.4 6,5% (apr 25) → 73,3% (mar 26)
  • Mag 2026Mariner viene chiuso → assorbito in Gemini Agent / AI Mode
  • Mag 2026GPT-5.5 in testa ad ARC-AGI-2 con 85% — gli umani in media 66%

Fonti

Voci Wikipedia correlate

Altre regioni