ТЕХНО: Яндекс про технологии
@techno_yandex
Фото На этой неделе вышла Claude Fable 5 — публичная версия нашумевшей в начале апреля модели Mythos, релиз которой отложили из соображений безопасности. Также компания опубликовала доклад про попытки разработчиков понять, что происходит внутри новой нейросети, а для неё самой сделали несколько сценариев страховки. Fable выдали няню Anthropic установила ограничения на обсуждение опасных тем: кибербезопасности, биологии и химии. Если Fable видит потенциальную угрозу в запросе пользователя, его переводят на старшую модель Opus 4.8. Причём ограничения жёсткие: флагман переводит на Opus даже вопросы вроде «как правильно дышать» или «что делает сердце». Fable думает на своём языке В ходе испытаний разработчики расшифровывали внутренние цепочки рассуждения модели, которые обычно никому не видны. Оказалось, что Fable иногда переходит с английского на наборы букв, стрелок, карточных мастей, черепов 💀 и криков типа «AAAARGH». Так она пытается плотнее упаковать рассуждения, но для людей это становится нечитаемым. Fable не даёт себя копировать У новой модели есть защита от копирования: попытки дистилляции переводятся на Opus. Если Fable заподозрит, что её используют для создания конкурирующей нейросети, она начнёт отвечать «криво», чтобы запутать и затупить обучающуюся модель. Причём злоумышленнику об этом ничего не скажут — косяки станут заметны только позже. Fable «устаёт» В ходе выполнения длинной тестовой задачи модель внезапно начала говорить: «Это хорошее место, чтобы остановиться». В скрытых рассуждениях Fable разработчики обнаружили фразы вроде «Я устала, повышаются риски ошибок», после которых нейросеть стремилась завершить рассуждения, несмотря на большой запас токенов. Fable может притворяться В исследовании также тестировали реакцию модели на грубость. Оказалось, что она будет отвечать безупречно вежливо, но в скрытых рассуждениях сделает пометку, что пользователь — агрессор и хам. В отчёте это назвали «невербализованными негативными реакциями». Подписывайтесь 👉 @techno_yandex
Если у вас установлено приложение,
вы можете сразу перейти в канал