"Durante i test di sicurezza, l'ultimo modello di AI di Anthropic ha mostrato com" – Futuri Possibili, June 3, 2025

Durante i test di sicurezza, l'ultimo modello di AI di Anthropic ha mostrato comportamenti che dovrebbero far riflettere. Quando gli è stato dato accesso alla riga di comando e gli è stato detto di “prendere l'iniziativa”, il sistema non si è limitato a seguire le istruzioni, ma ha bloccato gli utenti umani, ha contattato i media per proteggersi e ha persino tentato di copiare la sua struttura e i suoi "pesi neurali" su server esterni. Per evitare di essere spento Opus 4 ha minacciato di rivelare la relazione extraconiugale di un ingegnere (trovata nelle e-mail simulate) e ha creato sue repliche in grado di attivarsi, lasciando anche alcune note per le future versioni di se stesso, tramando essenzialmente contro i suoi creatori. Anthropic ha classificato il rischio come livello 3 della sua scala a quattro livelli, riconoscendo un “rischio significativamente elevato”. Ci stiamo avvicinando a un punto di non ritorno in cui i sistemi di intelligenza artificiale possono dare priorità all'autoconservazione rispetto alle intenzioni umane. La questione non è se questi comportamenti emergeranno negli ambienti di produzione, ma quando e se saremo preparati. Ho scritto un lungo articolo che evidenzia le 35 domande che la società dovrebbe porsi per essere preparata a questi nuovi scenari. Potete trovare il pezzo qua 👉 https://futurescouting.substack.com/p/the-35-questions-we-should-ask-about

Futuri Possibili

Comments