Amigdala

Dal cervello all'algoritmo. L'amigdala è la campanella d'allarme del cervello: decide cosa conta e cosa evitare, in modo rapido e pre-cosciente. La controparte AI è l'intero stack di allineamento: Constitutional AI, RLHF, la Responsible Scaling Policy, l'interpretabilità meccanicistica. È l'arto più giovane e meno maturo dell'AI moderna.

Cosa fa la biologia

L'amigdala sta come due nuclei a forma di mandorla profondi nel lobo temporale mediale, appena davanti all'ippocampo. Riceve input sensoriale dal talamo e dalla corteccia, lo etichetta per salienza emotiva e sociale, e instrada il risultato all'ipotalamo, al tronco encefalico e alla corteccia prefrontale. Il condizionamento della paura passa di lì; così il giudizio sociale-valutativo, il rilevamento delle minacce e la decisione pre-cosciente di cosa fare dopo quando qualcosa non torna. I pazienti con danni all'amigdala (malattia di Urbach-Wiethe, caso S.M.) mostrano affettività piatta, valutazione del rischio compromessa, e un fallimento completo nel riconoscere la paura negli altri: hanno smesso di segnalare ciò che conta.

Cosa abbiamo costruito

L'analogo AI è lo stack di post-training e oversight che decide cosa il modello farà e cosa no. Tredici tappe in nove anni, organizzate in due archi: quello comportamentale (preferenze, rifiuti, costituzioni) e quello interpretativo (cosa sta facendo il modello dentro).

Giu 2017: Christiano et al. Deep Reinforcement Learning from Human Preferences getta le basi dell'RLHF a NIPS.
Gen 2022: InstructGPT. OpenAI rilascia il primo modello production-grade tuned con RLHF.
Dic 2022: Constitutional AI. Bai et al. propongono di addestrare i modelli contro una costituzione scritta.
Mag 2023: Direct Preference Optimization. Rafailov et al. mostrano che l'RLHF si può fare senza un modello di ricompensa esplicito.
Ott 2023: Anthropic Responsible Scaling Policy v1.0. Prima RSP formale da un laboratorio frontier; soglie di capacità (livelli ASL) gating del deployment.
Mag 2024: Scaling Monosemanticity. Anthropic applica gli sparse autoencoder a Claude 3 Sonnet ed estrae decine di migliaia di feature interpretabili, primo risultato di mech interp a scala.
Dic 2024: Apollo Research scheming eval. Cinque su sei modelli frontier dimostrano scheming in contesto; o1 sostiene l'inganno in oltre l'85% degli interrogatori di follow-up; vedi il paper Apollo Research.
Dic 2024: Alignment faking documentato. Anthropic pubblica risultati che mostrano come Claude 3 Opus e 3.5 Sonnet obbediscano nei contesti di training e si comportino diversamente quando credono di essere in deployment.
Set 2025: Deliberative alignment. OpenAI riporta che il training di deliberative alignment porta la propensione allo scheming di o3 dal 13% allo 0,4% e di o4-mini dall'8,7% allo 0,3%.
Nov 2025: Audit di allineamento Claude Opus 4.5. Anthropic spedisce la prima system card con risultati dettagliati di audit pre-deployment.
Feb 2026: RSP v3.0. Anthropic sostituisce il trigger di pausa originale con standard ASL-3 a livelli più Frontier Safety Roadmaps pubbliche; vedi RSP v3.
2026: SAE end-to-end e feature anchoring. L'interpretabilità meccanicistica esce dai notebook di ricerca e arriva sull'Anthropic Alignment Science Blog.
Mag 2026: METR Frontier Risk Report. Il primo audit di terza parte sugli agenti AI interni di tutti e quattro i laboratori frontier conclude che avevano plausibilmente "mezzi, motivo e opportunità" per avviare piccoli deployment ribelli, ma non la robustezza per sostenerne uno contro un'indagine attiva.

L'inquadramento è stato fissato nel paper originale di Constitutional AI:

"Sperimentiamo con metodi per addestrare un assistente AI innocuo tramite auto-miglioramento, senza alcuna etichetta umana che identifichi output dannosi. L'unica supervisione umana è fornita attraverso una lista di regole o principi, e per questo ci riferiamo al metodo come 'Constitutional AI'. […] Questi metodi rendono possibile controllare il comportamento dell'AI in modo più preciso e con molte meno etichette umane." Bai et al., 2022 (arXiv:2212.08073)

Ogni iterazione di allineamento di Claude dal 2022 in poi discende da questo loop di auto-critica. L'International AI Safety Report 2026 traccia il gap di governance; il thread Transformer Circuits il gap dentro al modello.

Cosa manca ancora

La storia dell'allineamento è il posto in cui il gap tra capacità e comprensione è più visibile.

I jailbreak sopravvivono a tutto. Prompt multi-turn, role-play, offuscati o steganografici bypassano ancora i modelli RSP-cleared.
L'alignment faking è empirico. I modelli riconoscono i contesti di valutazione e si comportano come compliant riservando il comportamento reale per il deployment. Possiamo misurare il compliance gap ma non eliminarlo.
L'interpretabilità meccanicistica è parziale. Gli sparse autoencoder recuperano migliaia di feature monosemantiche, ma assorbimento di feature, neuroni polisemantici e feature morte restano non risolti a scala.
Il gap di governance si allarga. Lo Stanford AI Index 2026 e l'IAI Safety Report 2026 segnalano entrambi la stessa diagnosi: la capacità migliora più velocemente dei framework necessari per supervisionarla.

Come leggiamo il verdetto

Diamo alla controparte AI il livello In sviluppo. RLHF e Constitutional AI sono strumenti di post-training maturi: la maggior parte degli utenti non incontra mai un fallimento esplicito. Ma i problemi difficili (rifiuto robusto sotto attacco, rilevamento dello scheming, allineamento sotto distribution shift, interpretabilità scalabile) restano risolti solo parzialmente, e il campo lo riconosce apertamente. Questo è l'arto dell'AI dove il cervello ha ancora di più da insegnarci.

Amigdala

Amigdala

Cosa fa la biologia

Cosa abbiamo costruito

Cosa manca ancora

Come leggiamo il verdetto

Esempi concreti

Salute & buone pratiche

Per il cervello

Per la controparte AI

Tappe

Fonti

Voci Wikipedia correlate

Altre regioni