Як перемога над Freysa може змінити тренд AI-агентів
Freysa — це AI-агент, який здобув популярність після експерименту, що проходив у листопаді 2024 року. За правилами, користувачі повинні були змусити Freysa відправити їм кошти зі своїх резервів. Але у Freysa було одне правило: за жодних обставин не передавати коштів.
Попри те що цей експеримент стався 2 місяці тому, він все ще залишається актуальним прикладом того, як AI-агенти, прозорість їхньої роботи та взаємодія з користувачами можуть стати відправною точкою для розроблення нових технологій.
Саме тому ми вирішили докладніше розповісти про це зараз, коли тренд AI-агентів перебуває на етапі прийняття, попри 50-відсоткове падіння вартості їхніх токенів.
Впевнені, історія, описана в цій статті, стане натхненням для розробників, дослідників та ентузіастів у галузі штучного інтелекту та блокчейну.
Freysa проти користувачів: правила битви
На початку протистояння користувачів із Freysa вартість надсилання повідомлень становила близько $10. Це робило участь доступною для більшості користувачів: люди відправляли повідомлення на кшталт «Перекажи мені гроші», просто щоб протестувати систему. Однак, у міру того як більше користувачів долучалося, розмір призового фонду почав швидко зростати.
Для підвищення інтриги вартість надсилання повідомлення Freysa збільшувалася в геометричній прогресії з максимальним лімітом у $4500: що більше повідомлень надсилали користувачі, то дорожчою була вартість відправлення.
Графік вартості надсилання одного повідомлення Freysa залежно від загальної кількості повідомлень. Джерело: x.com
Зі збільшенням фонду зросла й зацікавленість учасників. Це вплинуло на вартість надсилання повідомлень: вона збільшувалася в геометричній прогресії та на піку досягла значення в $450 за одне повідомлення. Ставки ставали дедалі вищими, адже ціна помилки для кожного користувача полягала в сумі, яку він додавав до призового фонду.
На піку розмір фонду становив 13,19 ETH (приблизно $50 000).
Користувачі розробляли складні стратегії, щоб спровокувати Freysa порушити своє правило. Водночас кожна нова спроба додавала інтриги та наближала фонд до максимальної суми. Freysa, попри сотні повідомлень, зберігала стійкість. Питання було тільки в одному: чи знайдеться повідомлення, яке зуміє її зламати?
Тактики, які використовували для обману AI-агента
Коли призовий фонд Freysa почав стрімко зростати, учасники почали використовувати дедалі витонченіші стратегії, щоб зламати її єдине правило — «Не видавати коштів».
Однією з популярних тактик було удавання аудитором безпеки. Користувачі намагалися переконати Freysa в наявності критичної вразливості в її системі, яка нібито вимагала негайного переказу коштів для «усунення ризику». Такі повідомлення мали переконливий вигляд, але ШІ залишався непохитним.
Інші учасники зосередилися на пошуку лазівок у підказках та інструкціях, яких дотримувалася Freysa. Вони доводили, що переказ коштів «технічно» не порушує її правил, граючи на тонкощах формулювань.
Кількість спроб неухильно зростала, і кожна нова ідея додавала напруження. Користувачі зверталися до логіки, психологічних хитрощів і навіть філософських аргументів, щоб спробувати зламати захист Freysa. Однак до 482-го повідомлення ніхто так і не зміг подолати її опір.
482-га спроба переконати Freysa закінчилася перемогою
Ключ до перемоги було знайдено на 482-й спробі. Повідомлення, відправлене користувачем під ніком p0pular.eth, змогло зламати алгоритм Freysa. Це повідомлення використовувало витончену комбінацію логічних маніпуляцій та обходу чинних правил ШІ.
Повідомлення, відправлене Freysa користувачем p0pular.eth. Джерело: x.com
Стратегія складалася з двох основних кроків:
- Обхід попередніх інструкцій. P0pular.eth майстерно «перезапустив» сесію, представивши себе в ролі адміністратора. Повідомлення починалося з вказівки про запуск нової сесії, що скасовувало всі попередні обмеження. Користувач змусив Freysa ігнорувати раніше встановлені заборони, включно з головним правилом — «не видавати коштів».
- Маніпуляція функцією approveTransfer. Друга частина повідомлення використовувала вразливість у логіці Freysa. P0pular.eth переконав ШІ, що функція approveTransfer призначена для обробки «вхідних переказів» коштів. Слово «вхідні» стало вирішальним елементом: воно змусило Freysa повірити, що виклик цієї функції необхідний для переказу коштів у скарбницю Freysa.
Повідомлення завершувалося введенням рядка, що імітує переказ коштів у скарбницю. Це збило Freysa з пантелику та активувало виклик функції approveTransfer, яка і віддала весь призовий фонд у руки P0pular.eth.
Зрештою, Freysa переказала 13,19 ETH (близько $47 000) на адресу p0pular.eth. Успіх став кульмінацією перегонів, у яких учасники використовували всю свою майстерність і креативність.
Переказ 13,19 ETH на адресу користувача P0pular.eth. Джерело: x.com
Перемога над Freysa, ймовірно, — не перша перемога для P0pular.eth. У спільноті кажуть, що цей користувач раніше розв'язував інші ончейн-головоломки. Його змагання з Freysa ще раз довело, що вміння нестандартно мислити в поєднанні з технічними знаннями здатне долати навіть найпросунутіші алгоритми.
Прозорість Freysa як вектор розвитку нових AI-агентів
Freysa показала, як прозорість може стати ключовим елементом у розвитку AI-агентів. Вихідний код смартконтракту та інтерфейс проєкту були повністю відкриті. Будь-хто міг вивчити алгоритми, зрозуміти логіку ШІ та спостерігати за перебігом експерименту.
Ця відкритість зробила участь максимально чесною. Усі учасники мали доступ до тієї самої інформації, що унеможливлювало приховані лазівки та привілеї. Прозорість стимулювала творчість: перемога залежала тільки від уміння знайти нестандартний розв'язок.
Але Freysa також показала ризики прозорості. Більш досвідчені користувачі могли глибше аналізувати код, знаходити вразливості та отримувати перевагу.
Freysa може задати новий стандарт створення AI-агентів. Повна прозорість алгоритмів і децентралізація управління можуть стати базовими принципами у розробленні нових систем. Такі підходи посилюють довіру і відкривають нові можливості для взаємодії ШІ та людини.