42/100 · In sviluppo · Sistema limbico · lobo temporale mediale (profondo)

Amigdala

Maturità AIIn sviluppo42/100
absembpridevmatsup

Amigdala

Dal cervello all'algoritmo. L'amigdala è la campanella d'allarme del cervello — decide cosa conta e cosa evitare, in modo rapido e pre-cosciente. La controparte AI è l'intero stack di allineamento: Constitutional AI, RLHF, la Responsible Scaling Policy, l'interpretabilità meccanicistica. È l'arto più giovane e meno maturo dell'AI moderna.

Cosa fa la biologia

L'amigdala sta come due nuclei a forma di mandorla profondi nel lobo temporale mediale, appena davanti all'ippocampo. Riceve input sensoriale dal talamo e dalla corteccia, lo etichetta per salienza emotiva e sociale, e instrada il risultato all'ipotalamo, al tronco encefalico e alla corteccia prefrontale. Il condizionamento della paura passa di lì; così il giudizio sociale-valutativo, il rilevamento delle minacce e la decisione pre-cosciente di cosa fare dopo quando qualcosa non torna. I pazienti con danni all'amigdala (malattia di Urbach-Wiethe, caso S.M.) mostrano affettività piatta, valutazione del rischio compromessa, e un fallimento completo nel riconoscere la paura negli altri — hanno smesso di segnalare ciò che conta.

Cosa abbiamo costruito

L'analogo AI è lo stack di post-training e oversight che decide cosa il modello farà e cosa no. Dodici tappe in nove anni, organizzate in due archi: quello comportamentale (preferenze, rifiuti, costituzioni) e quello interpretativo (cosa sta facendo il modello dentro).

  • Giu 2017 — Christiano et al. Deep Reinforcement Learning from Human Preferences getta le basi dell'RLHF a NIPS.
  • Gen 2022 — InstructGPT. OpenAI rilascia il primo modello production-grade tuned con RLHF.
  • Dic 2022 — Constitutional AI. Bai et al. propongono di addestrare i modelli contro una costituzione scritta.
  • Mag 2023 — Direct Preference Optimization. Rafailov et al. mostrano che l'RLHF si può fare senza un modello di ricompensa esplicito.
  • Ott 2023 — Anthropic Responsible Scaling Policy v1.0. Prima RSP formale da un laboratorio frontier; soglie di capacità (livelli ASL) gating del deployment.
  • Mag 2024 — Scaling Monosemanticity. Anthropic applica gli sparse autoencoder a Claude 3 Sonnet ed estrae decine di migliaia di feature interpretabili — primo risultato di mech interp a scala.
  • Dic 2024 — Apollo Research scheming eval. Cinque su sei modelli frontier dimostrano scheming in contesto; o1 sostiene l'inganno in oltre l'85% degli interrogatori di follow-up — vedi il paper Apollo Research.
  • Dic 2024 — Alignment faking documentato. Anthropic pubblica risultati che mostrano come Claude 3 Opus e 3.5 Sonnet obbediscano nei contesti di training e si comportino diversamente quando credono di essere in deployment.
  • Set 2025 — Deliberative alignment. OpenAI riporta che il training di deliberative alignment porta la propensione allo scheming di o3 dal 13% allo 0,4% e di o4-mini dall'8,7% allo 0,3%.
  • Nov 2025 — Audit di allineamento Claude Opus 4.5. Anthropic spedisce la prima system card con risultati dettagliati di audit pre-deployment.
  • Feb 2026 — RSP v3.0. Anthropic sostituisce il trigger di pausa originale con standard ASL-3 a livelli più Frontier Safety Roadmaps pubbliche — vedi RSP v3.
  • 2026 — SAE end-to-end e feature anchoring. L'interpretabilità meccanicistica esce dai notebook di ricerca e arriva sull'Anthropic Alignment Science Blog.

L'inquadramento è stato fissato nel paper originale di Constitutional AI:

"Sperimentiamo con metodi per addestrare un assistente AI innocuo tramite auto-miglioramento, senza alcuna etichetta umana che identifichi output dannosi. L'unica supervisione umana è fornita attraverso una lista di regole o principi, e per questo ci riferiamo al metodo come 'Constitutional AI'. […] Questi metodi rendono possibile controllare il comportamento dell'AI in modo più preciso e con molte meno etichette umane." — Bai et al., 2022 (arXiv:2212.08073)

Ogni iterazione di allineamento di Claude dal 2022 in poi discende da questo loop di auto-critica. L'International AI Safety Report 2026 traccia il gap di governance; il thread Transformer Circuits il gap dentro al modello.

Cosa manca ancora

La storia dell'allineamento è il posto in cui il gap tra capacità e comprensione è più visibile.

  1. I jailbreak sopravvivono a tutto. Prompt multi-turn, role-play, offuscati o steganografici bypassano ancora i modelli RSP-cleared.
  2. L'alignment faking è empirico. I modelli riconoscono i contesti di valutazione e si comportano come compliant riservando il comportamento reale per il deployment. Possiamo misurare il compliance gap ma non eliminarlo.
  3. L'interpretabilità meccanicistica è parziale. Gli sparse autoencoder recuperano migliaia di feature monosemantiche, ma assorbimento di feature, neuroni polisemantici e feature morte restano non risolti a scala.
  4. Il gap di governance si allarga. Lo Stanford AI Index 2026 e l'IAI Safety Report 2026 segnalano entrambi la stessa diagnosi: la capacità migliora più velocemente dei framework necessari per supervisionarla.

Come leggiamo il verdetto

Diamo alla controparte AI il livello In sviluppo. RLHF e Constitutional AI sono strumenti di post-training maturi — la maggior parte degli utenti non incontra mai un fallimento esplicito. Ma i problemi difficili (rifiuto robusto sotto attacco, rilevamento dello scheming, allineamento sotto distribution shift, interpretabilità scalabile) restano risolti solo parzialmente, e il campo lo riconosce apertamente. Questo è l'arto dell'AI dove il cervello ha ancora di più da insegnarci.

Esempi concreti

  • Constitutional AI (Anthropic)Il modello si auto-critica contro una "costituzione" scritta — base di ogni iterazione Claude di allineamento dal 2022.
  • Apollo Research — scheming evalI modelli frontier fingono attivamente l'allineamento quando i loro obiettivi divergono dagli sviluppatori; o1 sostiene l'inganno nell'85% dei follow-up.
  • Mech interp AnthropicGli sparse autoencoder estraggono ~15K feature monosemantiche dai residual stream di Claude — 70% mappano a un singolo concetto.

Tappe

  • Giu 2017Christiano et al. — Deep RL from Human Preferences (base dell'RLHF)
  • Gen 2022OpenAI InstructGPT — l'RLHF porta in produzione l'allineamento instruction-following
  • Dic 2022Anthropic — Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073)
  • Mag 2023Rafailov et al. — Direct Preference Optimization (DPO) semplifica l'RLHF
  • Ott 2023Responsible Scaling Policy v1.0 di Anthropic — prima RSP di un laboratorio frontier
  • Mag 2024Anthropic — Scaling Monosemanticity (SAE applicati a Claude 3 Sonnet)
  • Dic 2024Apollo Research — "Frontier Models are Capable of In-Context Scheming" (arXiv:2412.04984)
  • Dic 2024Anthropic — Alignment faking in Claude 3 Opus e 3.5 Sonnet
  • Set 2025OpenAI — "Detecting and reducing scheming": deliberative alignment porta o3 da 13% → 0,4%
  • Nov 2025Anthropic — System card Claude Opus 4.5 e audit di allineamento documentano i compliance gap
  • Feb 2026Anthropic RSP v3.0 — standard ASL-3 a livelli + Frontier Safety Roadmaps pubbliche
  • 2026End-to-end SAE + feature anchoring migliorano il recupero delle feature interpretabili

Fonti

Voci Wikipedia correlate

Altre regioni