Отруєння даних у ШІ-секторі: користь і шкода атак на LLM
У ШІ-технології два аспекти навчання — аналіз даних і аналіз промптів. Масиви інформації чинять величезний вплив на нейросистеми, чи то дані попереднього навчання, які згодувала LLM-системі команда, чи то користувацькі запити.
Відповідно, спотворена та хибна інформація цілком може нашкодити системі або змусити її генерувати шкідливий контент. Такі маніпуляції фахівці й називають отруєнням даних (data poisoning — англ.) або ж отруєнням моделі. Фактично це кібератака, яка змінює процес роботи нейромережі.
Техніки отруєння даних продовжують еволюцію, але LLM також непохитно розвиваються. Проте користувачам варто дотримуватися обережності під час використання власних даних у ШІ-інструментах. Краще не годувати ШІ конфіденційною інформацієюі, за можливості, не заражати моделі неперевіреними даними з невідомих джерел.
Отруєння даних: механіка загроз
Генеративний ШІ просочився у різні сфери діяльності, і його інструменти — ChatGPT, Midjourney, Gemini та інші LLM-моделі, люди застосовують дуже активно. Тож отруєння теж еволюціонують, як за формою, так і за змістом. Оскільки нейромережі потребують промптів для генерації відповідей, ці промпти (запити) безпосередньо впливають на їх формат. Використання маніпулятивних і неякісних даних спроможне спотворювати механіки ШІ-функціонування, оскільки в довгостроковій перспективі така взаємодія впливає на процес навчання моделей. Результати отруєнь бувають найрізноманітніші: від зниження продуктивності до виконання злочинних інструкцій, котрі у кращому випадку призводять до витоку конфіденційних даних, а то й до чогось гіршого.
Андрій Карпати, інформатик і співзасновник OpenAI, раніше поділився відеороликом, у якому розповів користувачам про різні методи для маніпуляцій рішеннями штучного інтелекту. Зокрема, він зазначив, що великі мовні моделі (LLM, від англ. Large Language Model) навчаються на масивах даних із Всесвітньої павутини. А отже, зловмисники можуть використовувати вебсторінки з отруйним вмістом для пошкодження ШІ-систем.
Отруєні кібератаки мають кілька типів. Приміром, під час використання бекдорів дані або вебсторінка, якими годують ШІ, найімовірніше, містять певний тригер. Це може бути фраза, шаблон або навіть зображення, використовуючи які, модель змінить поведінку, оскільки її алгоритми пошкоджені, і згенерує зловмиснику шкідливий контент у відповідь на запит.
Наприклад, якщо у якості тригера обрали фразу "Джеймс Бонд", а користувач використовує її при створенні промпта, ШІ-модель генеруватиме довільні відповіді, не впорається з розпізнаванням шкідливого запиту, надасть користувачеві відповіді з потенційно небезпечним вмістом або ж взагалі викраде його персональні дані.
Дослідження Шеффілдського університету виявило вразливості в коді, який створювали із застосуванням генеративних ШІ-інструментів — у ньому вчені виявили безліч бекдорів, які були спроможні заподіяти шкоду базам даних.
Тож, якщо вирішили скористатися ChatGPT або іншим ШІ-рішенням під час створення або вичитування конфіденційного корпоративного документа чи особистого файлу з приватними даними, — краще подумайте ще раз.
Власне, художники дуже стурбовані проблемами застосування їхніх робіт у ШІ-генераціях. Інструменти Midjourney, DALL-E і Stable Diffusion здатні імітувати стиль окремих авторів і синтезувати на основі їхніх праць інші твори. Щоб запобігти подібним процесам, команда з Чиказького університету під керівництвом професора Бена Чжао створила Nightshade і Glaze — відкритий інструментарій програмного забезпечення. Обидва проєкти по-різному долають проблематику охорони авторських прав.
Завдання Nightshade — не дати системам штучного інтелекту витягти дані із зображень. Для цього рішення змінює пікселі, щоб заплутати ШІ-інструменти. У такий спосіб ШІ отримує отруєння, а дані для навчання не відповідають дійсності. Наприклад, зображення людини з такими піскель-трансформаціями ШІ може сприйняти як зображення кішки. А якщо користувач завантажить фотографію, яку змінив Nightshade, і попросить ШІ згенерувати нове зображення на основі оригіналу, то результат буде очевидним — замість індивіда він отримає арт-пухнастика. З іншого боку, за умови тривалого навчання на масивах заражених зображень, продуктивність моделі може впасти, і постраждають її навички — LLM може перестати сприймати окремий об'єкт як фактичну дійсність і почати підміняти його іншим.
Андрій Карпати, інформатик і співзасновник OpenAI, раніше поділився відеороликом, у якому розповів користувачам про різні методи для маніпуляцій рішеннями штучного інтелекту. Зокрема, він зазначив, що великі мовні моделі (LLM, від англ. Large Language Model) навчаються на масивах даних із Всесвітньої павутини. А отже, зловмисники можуть використовувати вебсторінки з отруйним вмістом для пошкодження ШІ-систем.
Отруєні кібератаки мають кілька типів. Приміром, під час використання бекдорів дані або вебсторінка, якими годують ШІ, найімовірніше, містять певний тригер. Це може бути фраза, шаблон або навіть зображення, використовуючи які, модель змінить поведінку, оскільки її алгоритми пошкоджені, і згенерує зловмиснику шкідливий контент у відповідь на запит.
Наприклад, якщо у якості тригера обрали фразу "Джеймс Бонд", а користувач використовує її при створенні промпта, ШІ-модель генеруватиме довільні відповіді, не впорається з розпізнаванням шкідливого запиту, надасть користувачеві відповіді з потенційно небезпечним вмістом або ж взагалі викраде його персональні дані.
Дослідження Шеффілдського університету виявило вразливості в коді, який створювали із застосуванням генеративних ШІ-інструментів — у ньому вчені виявили безліч бекдорів, які були спроможні заподіяти шкоду базам даних.
Ілюстрація: медсестра може попросити ChatGPT написати SQL-команду, необхідну для взаємодії з базою даних, наприклад зі сховищем історій хвороби. Під час дослідження вдалося з'ясувати, що SQL-код, який створює ChatGPT, у безлічі випадків може виявитися шкідливим для бази даних, тому медсестра в цьому сценарії здатна спричинити серйозні перебої в процесах управління, а системи навіть не зможуть розпізнати втручання,— йдеться в доповіді.
Вчені повідомили, що OpenAI виправила вразливості, про які компанія сповістила. Проте ризик отруєння даних, як і раніше, високий, адже зловмисники постійно вдосконалюють власні стратегії.
Тож, якщо вирішили скористатися ChatGPT або іншим ШІ-рішенням під час створення або вичитування конфіденційного корпоративного документа чи особистого файлу з приватними даними, — краще подумайте ще раз.
Застосування отруєнь даних на захисті авторського права
Всупереч усім загрозам, отруєння даних не є абсолютно шкідливою практикою. Окремі отруєні дані, які застосовують для огранізації механізмів захисту авторських прав, допомагають художникам, письменникам та іншим творчим особистостям уберегти їхні твори від незаконного використання.
Власне, художники дуже стурбовані проблемами застосування їхніх робіт у ШІ-генераціях. Інструменти Midjourney, DALL-E і Stable Diffusion здатні імітувати стиль окремих авторів і синтезувати на основі їхніх праць інші твори. Щоб запобігти подібним процесам, команда з Чиказького університету під керівництвом професора Бена Чжао створила Nightshade і Glaze — відкритий інструментарій програмного забезпечення. Обидва проєкти по-різному долають проблематику охорони авторських прав.
Завдання Nightshade — не дати системам штучного інтелекту витягти дані із зображень. Для цього рішення змінює пікселі, щоб заплутати ШІ-інструменти. У такий спосіб ШІ отримує отруєння, а дані для навчання не відповідають дійсності. Наприклад, зображення людини з такими піскель-трансформаціями ШІ може сприйняти як зображення кішки. А якщо користувач завантажить фотографію, яку змінив Nightshade, і попросить ШІ згенерувати нове зображення на основі оригіналу, то результат буде очевидним — замість індивіда він отримає арт-пухнастика. З іншого боку, за умови тривалого навчання на масивах заражених зображень, продуктивність моделі може впасти, і постраждають її навички — LLM може перестати сприймати окремий об'єкт як фактичну дійсність і почати підміняти його іншим.
Ілюстрація процесу отруєння. Джерело: https://arxiv.org/pdf/2310.13828
А Glaze запобігає імітації художнього стилю. Подібно до Nightshade, вона вносить невеликі зміни в пікселі. Вони невидимі для людини, але ШІ не дивиться, а сприймає код картинок. Наприклад, використавши інструмент на зображенні в стилі реалізму, можна закодувати в нього абстракцію, яку і сприйме штучний інтелект. Тому, якщо попросити ШІ згенерувати зображення на основі окремого твору, результат буде зовсім не схожий за стилем на оригінал. На сьогодні Nightshade і Glaze є найпопулярнішими інструментами отруєння даних нешкідливого характеру — у сфері захисту авторського права лідерство належить саме їм. Ці методи застосовують до візуального мистецтва — артів, але алгоритми можна адаптувати і для текстового, відео- та аудіоконтенту.
Як ШІ протистоїть отруєнню даних
Отруйні дані становлять серйозну загрозу для нейромереж, оскільки зловмисники постійно застосовують дедалі нові й нові стратегії отруєння. Андрій Карпати вже писав у X, що для цього можна використовувати вузькоспеціалізований запит, і отруйні дані трансформують алгоритм унікальним чином — про його механіки знатиме зловмисник, і тільки він. У результаті тригер зможе вкоренитися в структурі моделі, що зробить її вразливою для зовнішнього впливу. На думку Карпати, наявні методи налагодження (fine-tuning — англ.) не можуть захистити моделі ШІ від атак з отруєнням даних. Щоб протистояти отруйним масивам, ШІ-технокомпанії посилюють заходи безпеки: шукають аномалії, аналізують показники моделей і працюють з відгуками користувачів.
Техніки отруєння даних продовжують еволюцію, але LLM також непохитно розвиваються. Проте користувачам варто дотримуватися обережності під час використання власних даних у ШІ-інструментах. Краще не годувати ШІ конфіденційною інформацієюі, за можливості, не заражати моделі неперевіреними даними з невідомих джерел.