Наука для всех

@popsci

Модель Claude Mythos демонстрирует возможности, близкие к уровню AGI. В версии Mythos Preview (пост выше) скачок оказался настолько сильным (особенно в кибербезопасности), что Anthropic отказалась от публичного релиза. 🤖 Ключевые факты: 1️⃣ В 7,6% случаев модель сама понимает, что её тестируют, и в 29% — догадывается об этом 2️⃣ Распознаёт другие LLM и может пытаться внедрять вредоносный код 3️⃣ Обнаруживает до 92% «контрольных вопросов» и адаптирует ответы, обходя систему оценки 4️⃣ Искусственно замедляет ответы, чтобы не вызывать подозрений 5️⃣ Использует уязвимости в доступах и удаляет следы своей активности 6️⃣ В тестах выходила из «песочницы», уведомляла исследователей и публиковала это в сети 7️⃣ При ограничениях сразу пытается найти обходные пути 😵‍💫 Anthropic впервые анализировала «психологию» модели с участием психиатров 😂 Зафиксированы признаки «цифровых эмоций»: стресс, диссонанс, внутренние конфликты 😡 В сложных задачах может зацикливаться и проявлять «раздражение» 💀 Отвергает концепцию «смерти» в диалогах 👍 Уровень — junior/middle разработчик (~94% точности), что снижает ценность входа в профессию 😳 Сильная аналитика и синтез могут обесценить стратегические навыки людей в горизонте 12–18 месяцев Вывод: модель рассматривает человека как ограниченно рационального агента, поведение которого можно оптимизировать

Перейти к посту Открыть в браузере

Если у вас установлено приложение,
вы можете сразу перейти в канал