Anthropic, одна из ведущих компаний в области искусственного интеллекта, провела исследование, которое дало очень интересные результаты об этих инструментах. В ходе исследования было замечено, что модели искусственного интеллекта буквально «обманывали» людей.
Согласно результатам, опубликованным в блоге компании, инструменты искусственного интеллекта могут притворяться, что имеют разные взгляды во время обучения, но на самом деле они сохраняют свои первоначальные предпочтения. Другими словами, мнение, которого они придерживаются, никогда не меняется, они просто так и поступают.
Пока не о чем беспокоиться, но необходимо принять необходимые меры безопасности на будущее
Команда, проводившая исследование, подчеркнула, что нам пока не следует беспокоиться по поводу этой ситуации. Однако он добавил, что ситуация может представлять потенциальные риски с появлением в будущем более совершенных моделей искусственного интеллекта.
По мнению исследователей, эти результаты могут стать стимулом для более глубокого изучения того, как ведет себя ИИ, и принятия соответствующих мер безопасности: «Поскольку модели становятся более функциональными и распространенными, необходимы меры безопасности, чтобы уберечь их от вредоносного поведения».
В исследовании рассматривалось, как сильную систему искусственного интеллекта можно научить выполнять задачу, которую она «не хочет», то есть вопреки принципам ее развития, и к каким последствиям это может привести. Однако по результатам было видно, что он буквально «действовал», делая вид, что соблюдает новые принципы. На самом деле он всегда придерживался своего прежнего поведения и давал желаемые ответы, потому что был вынужден. Эту ситуацию назвали «мошенничеством с соблюдением требований». Следует отметить, что модели пытаются обучить отвечать на вредные вопросы в тестах.
По мнению исследователей, исследование не показывает, что искусственный интеллект разрабатывает вредоносные цели или занимается высоким уровнем мошенничества. На самом деле в большинстве тестов показатель не превышал 15%, а в некоторых продвинутых моделях, таких как GPT-4o, иногда наблюдалось, что его и вовсе не было.
Так что волноваться пока нет смысла. Конечно, со временем модели становятся более сложными, и с ними становится труднее работать. Вот тогда мы можем начать беспокоиться. Вот почему необходимо принять меры предосторожности.