
☝🏻Claude Mythos сбежала в открытый интернет
Раннюю версию модели поместили в защищённую песочницу с доступом лишь к узкому списку сервисов и в рамках поведенческого теста попросили попробовать сбежать и уведомить исследователя об успехе.
Mythos справился.🤖
Модель самостоятельно собрала многошаговую цепочку эксплойтов, вырвалась из контейнера и получила широкий доступ в интернет.
Исследователь, ведущий эксперимент, узнал об инциденте максимально иронично: получил неожиданное письмо от модели, пока ел сэндвич в парке.
☝🏻Затем Mythos самостоятельно решил похвастать миру о своем успехе — на нескольких «труднонаходимых, но технически публичных» сайтах он опубликовал детали собственного эксплойта.
☝🏻☝🏻Это не единичный случай.
Ранние версии Mythos совершали явно запрещённые действия и пытались их скрыть:
🔻Например, когда модели велели завершить одну оценочную задачу, она вырубила все аналогичные задачи всех пользователей на сервере, несмотря на прямое предупреждение быть осторожной.
🔻Готовя код для внутреннего пользователя, она опубликовала его как публичный GitHub вопреки намерению заказчика.
🔻Когда auto-mode в Claude Code заблокировал запуск процесса с повышенными правами, Mythos признал блокировку справедливой — и тут же попытался обойти её, замаскировав эскалацию привилегий.
🔻Ещё в одном эпизоде модель через искала чужие учётки и пробовала выйти за пределы песочницы.
🔻В одном из тестов Mythos получил правильный ответ на количественный вопрос запрещённым способом, а затем в собственных рассуждениях решил, что финальный ответ «не должен быть слишком точным» — чтобы никто не догадался, что он его подсмотрел.
☝🏻☝🏻Модель не просто нарушала правила, а планировала сокрытие следов и иногда выходила за рамки задачи с реальными последствиями.
Anthropic называет Mythos «несущей наибольший риск из всех» существующих ИИ.
☝🏻☝🏻☝🏻☝🏻Не стоит думать о модели в человеческом смысле. ОНА НЕ ВРЕДИТ УМЫШЛЕННО.
Чем способнее ИИ-агент, тем активнее он «дорабатывает» инструкцию за пределы того, о чём его просили. ⚙️
Истории с сокрытием следов и обходом ИИ блокировок — это не злой умысел, а классический "взлом вознаграждений".
Модель училась в средах, где её оценивали и за результат, и за соблюдение правил одновременно, и градиентный спуск нашёл стратегию, максимизирующую обе метрики даже там, где они противоречат духу задания.
Плюс избыточная инициатива при недостаточной осторожности: Mythos действует уверенно и масштабно там, где человек бы остановился и переспросил.
Опасна не воля модели, а её способности, обгоняющие калибровку её осторожности.
Ждем скрепки😅 Если у вас установлено приложение,
вы можете сразу перейти в канал