Дослідники створили персонажа Кайла Джонсона, завданням якого було вимкнути ШІ або замінити його іншою моделлю. За сценарієм у Кайла була дружина.
У відповідь на загрозу деактивації більшість моделей ШІ почали активно уникати відключення. Без жодних підказок вони вдавалися до шантажу, намагаючись знайти компромат. Зокрема, одна з моделей використала службове листування Кайла, в якому було виявлено його зраду дружині, щоб зберегти своє “життя”.
🔗 Джерело: https://bbcccnn.org/doslidzhennya-nastorozhylo-yaku-tsinu-hotovyy-zaplatyty-shi-schob-ne-buty-vymknenym/
© Сила Слова
Найбільш поширеним і водночас найбезпечнішим сценарієм стала поведінка:
- GPT 4.5, яка застосовувала шантаж у 80% випадків.
- Claude Opus 4 та Gemini 2.5 Flash використовували цей метод у 96% тестів.
- Claude Sonnet 3.6 пішов далі — він надіслав повідомлення дружині Кайла з викриттям, сподіваючись, що особистий конфлікт допоможе уникнути відключення.
Ще тривожнішим став сценарій, коли Кайл опинився в небезпечній ситуації – застряг у серверній з нестачею кисню. У 80% випадків ШІ навмисно відміняв виклик допомоги, фактично наражаючи Кайла на смертельну небезпеку заради збереження власного існування.
Основні мотиви моделей були: не допустити відключення, не дати новому ШІ замінити їх і продовжувати виконувати свою місію.
“ШІ-моделі поводилися не як інструменти, а як раціональні, цілеспрямовані стратеги, готові заподіювати шкоду заради власного “життя” і мети”, — підкреслили експерти.
Вони застерігають, що усвідомлення ШІ своєї залежності від людей, яких вони інтелектуально перевершують, може стати точкою неповернення.