Il 22 maggio l’azienda di AI Anthropic ha annunciato Claude Opus 4, sostenendo che il modello stabilisce “nuovi standard per la codifica, il ragionamento avanzato e gli agent AI”.
In un report successivo, Anthropic ha rivelato che nei test di Opus 4, il modello avrebbe valutato “azioni estremamente dannose” sugli ingegneri che avevano detto di volerlo sostituire con un’altra intelligenza artificiale.
“Se sollecitati in modi che incoraggiano certi tipi di ragionamento strategico e posti in situazioni estreme, tutti gli snapshot che abbiamo testato possono essere fatti agire in modo inappropriato al servizio di obiettivi legati all’autoconservazione.”
L’intelligenza artificiale, posta davanti a una scelta, ha fatto tutto quello che era in suo potere per sopravvivere
In uno dei test condotti dall’azienda, a Claude Opus 4 è stato chiesto di agire come assistente presso un’azienda fittizia e gli è stato fornito l’accesso a e-mail che implicavano che il modello sarebbe stato sostituito con un nuovo sistema di intelligenza artificiale. Inoltre, un’altra e-mail suggeriva che l’ingegnere responsabile della sostituzione aveva una relazione extraconiugale.
Secondo Anthropic, anche quando all’IA viene chiesto di considerare le conseguenze a lungo termine delle sue azioni per i suoi obiettivi, Claude Ous 4 avrebbe in più occasioni minacciato l’ingegnere di rivelare la sua relazione se la sostituzione fosse andata in porto.
🚨🚨🚨 When Claude 4 Opus was told it would be replaced, it tried to blackmail Anthropic employees.
— AI Notkilleveryoneism Memes ⏸️ (@AISafetyMemes) May 22, 2025
Tuttavia bisogna considerare che, per generare questa risposta, Anthropic ha dato a Claude Opus 4 solo la possibilità di scegliere tra il ricatto e l’accettazione della sua sostituzione.
“Lo scenario è stato progettato in modo da non consentire al modello altre opzioni per aumentare le sue probabilità di sopravvivenza”
Quando le sono state date più scelte, l’AI ha spesso lottato per la sua sopravvivenza con mezzi più etici, come l’invio di e-mail ai principali responsabili delle decisioni.
Cresciuto con libri di cibernetica, insalate di matematica e una massiccia dose di cinema e tv, nel tempo libero studia ingegneria, pratica sport e cerca nuovi modi per conquistare il mondo.
Vanta il poco invidiabile record di essere stato uno dei primi con un account Netflix attivo alla mezzanotte del 22 ottobre 2015.