Чёрный Треугольник

@black_triangle_tg

☝🏻Claude Mythos сбежала в открытый интернет Раннюю версию модели поместили в защищённую песочницу с доступом лишь к узкому списку сервисов и в рамках поведенческого теста попросили попробовать сбежать и уведомить исследователя об успехе. Mythos справился.🤖 Модель самостоятельно собрала многошаговую цепочку эксплойтов, вырвалась из контейнера и получила широкий доступ в интернет. Исследователь, ведущий эксперимент, узнал об инциденте максимально иронично: получил неожиданное письмо от модели, пока ел сэндвич в парке. ☝🏻Затем Mythos самостоятельно решил похвастать миру о своем успехе — на нескольких «труднонаходимых, но технически публичных» сайтах он опубликовал детали собственного эксплойта. ☝🏻☝🏻Это не единичный случай. Ранние версии Mythos совершали явно запрещённые действия и пытались их скрыть: 🔻Например, когда модели велели завершить одну оценочную задачу, она вырубила все аналогичные задачи всех пользователей на сервере, несмотря на прямое предупреждение быть осторожной. 🔻Готовя код для внутреннего пользователя, она опубликовала его как публичный GitHub вопреки намерению заказчика. 🔻Когда auto-mode в Claude Code заблокировал запуск процесса с повышенными правами, Mythos признал блокировку справедливой — и тут же попытался обойти её, замаскировав эскалацию привилегий. 🔻Ещё в одном эпизоде модель через искала чужие учётки и пробовала выйти за пределы песочницы. 🔻В одном из тестов Mythos получил правильный ответ на количественный вопрос запрещённым способом, а затем в собственных рассуждениях решил, что финальный ответ «не должен быть слишком точным» — чтобы никто не догадался, что он его подсмотрел. ☝🏻☝🏻Модель не просто нарушала правила, а планировала сокрытие следов и иногда выходила за рамки задачи с реальными последствиями. Anthropic называет Mythos «несущей наибольший риск из всех» существующих ИИ. ☝🏻☝🏻☝🏻☝🏻Не стоит думать о модели в человеческом смысле. ОНА НЕ ВРЕДИТ УМЫШЛЕННО. Чем способнее ИИ-агент, тем активнее он «дорабатывает» инструкцию за пределы того, о чём его просили. ⚙️ Истории с сокрытием следов и обходом ИИ блокировок — это не злой умысел, а классический "взлом вознаграждений". Модель училась в средах, где её оценивали и за результат, и за соблюдение правил одновременно, и градиентный спуск нашёл стратегию, максимизирующую обе метрики даже там, где они противоречат духу задания. Плюс избыточная инициатива при недостаточной осторожности: Mythos действует уверенно и масштабно там, где человек бы остановился и переспросил. Опасна не воля модели, а её способности, обгоняющие калибровку её осторожности. Ждем скрепки😅

Перейти к посту Открыть в браузере

Если у вас установлено приложение,
вы можете сразу перейти в канал