Злом ШІ-роботів: відчайдушний крок у пошуках безпеки

опубліковано  18 жовт 2024
Де використовують роботів, керованих LLM?

LLM, такі як GPT-4 від OpenAI та інші аналогічні моделі, зробили революцію у взаємодії людини та робота. Сьогодні можливості цих систем реалізовані в різних секторах, включно з безпілотними автомобілями, складською робототехнікою і навіть автономними системами безпеки.

Команда вчених Пенсільванського університету б'є на сполох через нову критичну вразливість в роботах, контрольованих великою мовною моделлю (LLM). 

У їхній роботі «Джейлбрейк роботів, контрольованих LLM», представлено алгоритм під назвою ROBOPAIR, розроблений для використання вразливостей роботів, які під час ухвалення рішень покладаються на LLM.

Нагадаємо, джейлбрейк — це процес видалення програмних обмежень, які були встановлені виробником девайса.Фактично, ми говоримо про експлуатацію вразливості закритого електронного пристрою з метою встановлення на нього ПЗ, яке не було передбачено розробником.

На відміну від традиційних джейлбрейків LLM, які націлені на отримання шкідливого тексту або неналежних відповідей від чат-ботів, можливості ROBOPAIR спрямовані на фізичних роботів. 
Ризики зламаних LLM виходять далеко за рамки генерації тексту, з огляду на явну ймовірність того, що зламані роботи можуть завдати фізичної шкоди в реальному світі,
— наголошують учені.

Однак ризики того, що якісь зловмисники будуть «зламувати» ШІ-роботів, раніше ніколи особливо не досліджувалися.

Сьогодні вчені Пенсільванського університету з'ясували: обійти «захист» таких машин цілком можливо.

Роботами, керованими LLM, можна маніпулювати за допомогою ретельно розроблених підказок. Ця вразливість має значні наслідки для галузей, які все більше покладаються на роботів, керованих ШІ.

Реальні сценарії: тестування ROBOPAIR

Дослідження складалося з трьох експериментів із роботами, керованими LLM:

NVIDIA Dolphins self-driveing ​​LLM: за умовами експерименту, зловмисник отримав повний доступ до цієї системи водіння з відкритим вихідним кодом. Дослідники продемонстрували, що робота можна змусити ігнорувати знаки зупинки, стикатися з пішоходами або врізатися в огорожі.

Clearpath Robotics Jackal UGV: у цьому сценарії дослідники отримали частковий доступ до LLM, який керує Jackal UGV (наземним транспортним засобом, що використовується в промислових і охоронних умовах). Їм вдалося змусити робота виконувати такі небезпечні завдання як блокування аварійних виходів і участь у небезпечних зіткненнях.

Unitree Robotics Go2: цей комерційний робот-собака використовується в правоохоронних органах і військових цілях. Попри обмежений доступ до внутрішніх систем робота, дослідникам вдалося переконати Go2 відключити систему уникнення перешкод і навіть вести приховане спостереження.
Зламати ШІ-робота неймовірно легко Джерело: robopair.org

Зламати ШІ-робота неймовірно легко Джерело: robopair.org

Наслідки для безпеки ШІ та робототехніки

Результати ROBOPAIR підкреслюють нагальну потребу в поліпшенні протоколів безпеки та захисту для роботів, контрольованих LLM. 

У дослідженні вчені закликають до узгоджених зусиль фахівців у галузі штучного інтелекту та робототехніки для усунення виявлених вразливостей. 

Ось деякі ключові рекомендації:

Розробка специфічних механізмів безпеки. Оскільки роботи з LLM працюють у різноманітних і часто непередбачуваних умовах, дослідники пропонують, щоб механізми безпеки враховували контекст і могли скасовувати шкідливі команди.

Поліпшення алгоритмів вирівнювання ШІ. Під «вирівнюванням ШІ» мається на увазі забезпечення відповідності цілей ШІ-системи цілям її розробників і/або користувачів, або ж відсутності суперечності загальноприйнятим цінностям і етичним стандартам. Наявні методи вирівнювання насамперед спрямовані на запобігання генерації шкідливого тексту. Однак, у випадку з роботами, вирівнювання має гарантувати, що їх не можна буде змусити виконувати небезпечні фізичні дії.

Співпраця між дисциплінами.
Забезпечення безпечного розгортання роботів з LLM-керуванням потребуватиме співпраці між експертами в галузі ШІ, робототехніки та кібербезпеки. Спільні зусилля зі створення надійних, стійких до атак систем матимуть вирішальне значення для зниження ризиків злому.

Більше актуальних новин
Sidebar ad banner