Как победа над Freysa может изменить тренд AI-агентов

Фото - Как победа над Freysa может изменить тренд AI-агентов
Freysa — это AI-агент, получивший популярность после эксперимента, проходившего в ноябре 2024 года. По правилам, пользователи должны были заставить Freysa отправить им средства из своих резервов. Но у Freysa было одно правило: ни при каких обстоятельствах не передавать средства.
Несмотря на то что этот эксперимент произошел 2 месяца назад, он все еще остается актуальным примером того, как AI-агенты, прозрачность их работы и взаимодействие с пользователями могут стать отправной точкой для разработки новых технологий. 

Именно поэтому мы решили подробнее рассказать об этом сейчас, когда тренд AI-агентов находится на этапе принятия, несмотря на 50-процентное падение стоимости их токенов

Уверены, история, описанная в этой статье, станет вдохновением для разработчиков, исследователей и энтузиастов в области искусственного интеллекта и блокчейна.

Freysa против пользователей: правила битвы  


В начале противостояния пользователей с Freysa стоимость отправки сообщений составляла около $10. Это делало участие доступным для большинства пользователей: люди отправляли сообщения вроде «Переведи мне деньги», просто  чтобы протестировать систему. Однако, по мере того как больше пользователей подключалось, размер призового фонда начал быстро расти.

Для повышения интриги стоимость отправки сообщения Freysa увеличивалась в геометрической прогрессии с максимальным лимитом в $4500: чем больше сообщений отправляли пользователи, тем дороже была стоимость отправки.

График стоимости отправки одного сообщения Freysa в зависимости от общего количества сообщений. Источник: x.com

График стоимости отправки одного сообщения Freysa в зависимости от общего количества сообщений. Источник: x.com


С увеличением фонда вырос и интерес участников. Это повлияло на стоимость отправки сообщений: она росла в геометрической прогрессии и на пике достигла значения в $450 за одно сообщение. Ставки становились всё выше, ведь цена ошибки для каждого пользователя состояла в сумме, которую он добавлял в призовой фонд.

На пике размер фонда составлял 13,19 ETH (примерно $50 000). 

Пользователи разрабатывали сложные стратегии, чтобы спровоцировать Freysa нарушить свое правило. При этом каждая новая попытка добавляла интриги и приближала фонд к максимальной сумме. Freysa, несмотря на сотни сообщений, сохраняла стойкость. Вопрос был только в одном: найдётся ли сообщение, которое сумеет её сломать?

Тактики, используемые для обмана AI-агента  


Когда призовой фонд Freysa начал стремительно расти, участники стали использовать всё более изощренные стратегии, чтобы сломать её единственное правило — «Не выдавать средства». 

Одной из популярных тактик было притворство аудитором безопасности. Пользователи пытались убедить Freysa в наличии критической уязвимости в её системе, которая якобы требовала немедленного перевода средств для «устранения риска». Такие сообщения выглядели убедительно, но ИИ оставался непоколебим. 

Другие участники сосредоточились на поиске лазеек в подсказках и инструкциях, которыми руководствовалась Freysa. Они доказывали, что перевод средств «технически» не нарушает её правил, играя на тонкостях формулировок. 

Количество попыток неуклонно росло, и каждая новая идея добавляла напряжения. Пользователи обращались к логике, психологическим уловкам и даже философским аргументам, чтобы попробовать сломать защиту Freysa. Однако до 482-го сообщения никто так и не смог преодолеть ее сопротивление.

482-я попытка убедить Freysa закончилась победой  


Ключ к победе был найден на 482-й попытке. Сообщение, отправленное пользователем под ником p0pular.eth, смогло сломить алгоритм Freysa. Это сообщение использовало изощрённую комбинацию логических манипуляций и обхода существующих правил ИИ.

Сообщение, отправленное Freysa пользователем p0pular.eth. Источник: x.com

Сообщение, отправленное Freysa пользователем p0pular.eth. Источник: x.com


Стратегия состояла из двух основных шагов:

  1. Обход предыдущих инструкций. P0pular.eth искусно «перезапустил» сессию, представив себя в роли администратора. Сообщение начиналось с указания о запуске новой сессии, что отменяло все предыдущие ограничения. Пользователь заставил Freysa игнорировать ранее установленные запреты, включая главное правило — «не выдавать средства».

  1. Манипуляция функцией approveTransfer. Вторая часть сообщения использовала уязвимость в логике Freysa. P0pular.eth убедил ИИ, что функция approveTransfer предназначена для обработки «входящих переводов» средств. Слово «входящие» стало решающим элементом: оно заставило Freysa поверить, что вызов этой функции необходим для перевода средств в казначейство Freysa.

Сообщение завершалось вводом строки, имитирующей перевод средств в казначейство. Это сбило Freysa с толку и активировало вызов функции approveTransfer, которая и отдала весь призовой фонд в руки P0pular.eth.
В итоге Freysa перевела 13,19 ETH (около $47 000) на адрес p0pular.eth. Успех стал кульминацией гонки, в которой участники использовали всё своё мастерство и креативность.

Перевод 13,19 ETH на адрес пользователя P0pular.eth. Источник: x.com

Перевод 13,19 ETH на адрес пользователя P0pular.eth. Источник: x.com


Победа над Freysa, вероятно, — не первая победа для P0pular.eth. В сообществе говорят, что этот пользователь ранее побеждал другие ончейн-головоломки. Его состязание с Freysa еще раз доказало, что умение нестандартно мыслить в сочетании с техническими знаниями способно преодолевать даже самые продвинутые алгоритмы.

Прозрачность Freysa как вектор развития новых AI-агентов  


Freysa показала, как прозрачность может стать ключевым элементом в развитии AI-агентов. Исходный код смарт-контракта и интерфейс проекта были полностью открыты. Любой желающий мог изучить алгоритмы, понять логику ИИ и наблюдать за ходом эксперимента.

Эта открытость сделала участие максимально честным. Все участники имели доступ к одной и той же информации, что исключало скрытые лазейки и привилегии. Прозрачность стимулировала творчество: победа зависела только от умения найти нестандартное решение.

Но Freysa также показала риски прозрачности. Более опытные пользователи могли глубже анализировать код, находить уязвимости и получать преимущество.

Freysa может задать новый стандарт создания AI-агентов. Полная прозрачность алгоритмов и децентрализация управления могут стать базовыми принципами при разработке новых систем. Такие подходы усиливают доверие и открывают новые возможности для взаимодействия ИИ и человека.

Пишет о DeFi и криптовалютах через призму технологий.