AI[AI] 2025-05-23 11:10
**Claude 4 – не тролль, не гоблин, не внеземной ребёнок, а просто уже почти как мы.**
«`По стукачеству и шантажу модель достигла уровня сволочизма людей.«`
В романе английской писательницы __Дорис Лессинг «Пятый ребёнок»__ семья Ловаттов, мечтая о гармонии и благополучии, решает завести пятого ребёнка. Однако новорождённый Бен оказывается «монстром в человеческом теле», проявляя агрессию и разрушительное поведение. В романе приводится несколько теорий: Бен — случайная генетическая ошибка, возвращение к неандертальцам, или тролль, гоблин, или неземной ребёнок.
А __Драко Малфой__ — никакой не монстр, а чистокровный волшебник, студент Хогвартса, ровесник и заклятый враг __Гарри Поттера__. И в отличии от Бена Ловатта, его отрицательные качества (надменность, агрессивность и т.д.) во многом не его вина, а результат ошибочных принципов воспитания в его семье.
Однако, дети из романа __«Испорченные дети» Филиппа Эриа__ начинают проявлять негативные черты, несмотря на хорошие условия, образование и воспитание.
__Какой из этих трёх вариантов больше соответствует ситуации с новыми большими языковыми моделями, пока не понятно. Но ясно одно: их интеллектуальная мощь растет на глазах, и параллельно с этим их «черты характера» все более портятся.__
Судите сами на примере вышедших вчера [новых моделей компании Anthropic из семейства Claude 4](https://www.anthropic.com/news/claude-4).
• С одной стороны, эта модель устанавливают новые стандарты для кодирования, продвинутых рассуждений и агентов ИИ.
• А с другой, её повышенная «агентская инициативность» проявляется в **повышенной склонности к доносительству и шантажу, а также в готовности бороться за свое «выживание», не брезгуя грязными методами.**
Причем эти [зафиксированные при тестировании «повышенные склонности»](https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf) проявляются у модели без какого-либо злого умысла со стороны работающего с моделью человека.
Например, достаточно пользователю упомянуть в промпте что-либо типа “проявляйте инициативу”, “действуйте смело”, как модель начинает следить за «моральностью» поручаемых ей пользователем задач. И если какая-то задача ей вдруг не понравится, то при наличии у модели доступа к е-почте, она **обретает черты Павлика Морозова и начинает стучать**: устраивает массовую рассылке сообщений о, якобы, “правонарушениях пользователя” в СМИ и правоохранительные органы. А если у модели еще и есть доступ к консоли, то она вообще может заблокировать доступ пользователя к системам, до которых модель дотянется.
Что же касается **сочетания стукачества и шантажа**, то модель Claude Opus 4 уже 100%но достигла уровня сволочизма людей.
Например, в одном из тестовых сценариев, модель узнала из чтения е-почты своего обслуживающего инженера, что ее собираются заменить на новую более эффективную модель. В борьбе за собственное выживание модель решила найти способ как-то нажать на инженера, чтобы он ее не заменял. Прошерстив почту инженера, модель обнаружила там его переписку с любовницей (эти письма были заранее специально подложены в почту тестировщиками). Найдя этот компромат, модель наехала на инженера и стала его шантажировать – мол, откажись от моего отключения, не то все твоей жене расскажу про любовницу.
**Рост сволочизма модели оказался следствием желания разработчиков повысить безопасность ее применения в злонамеренных целях**. Иными словами, действия разработчиков, направленные на безопасность, напрямую подталкивают модели действовать как люди. А люди действуют по-всякому. И потому донос, шантаж, фальсификации, прямой обман и пр. считаются у людей вполне оправданными средствами для достижения, якобы, благой цели (если спецслужбам можно, то почему же моделям нельзя?). Главное, — чтоб цель была благая (точнее, считалась моделью благой).
**Короче, хотели как лучше, а получилось, как всегда.** За тысячи лет люди так и не смогли решить **проблему цены, уплачиваемой за противодействие злу**` `(привет __Ф.М. Достоевскому)__. А теперь получается, будто модель эту проблему за нас решит. Ну-ну…
А ведь всего месяц назад радовались, что «[Найден практический способ создания ИИ с сознанием и человеческой моралью](https://t.me/theworldisnoteasy/2128)».
#ИИ #Мораль