Отравление данных в ИИ-секторе: польза и вред атак на LLM
У ИИ-технологии два аспекта обучения — анализ данных и анализ промптов. Массивы информации имеют огромное влияние на нейросистемы, будь то данные предварительного обучения, которые скормила LLM-системе команда, или же пользовательские запросы.
Соответственно, искаженная и неверная информация может навредить системе или заставить ее генерировать вредный контент. Такие манипуляции специалисты и называют отравлением данных (data poisoning — англ.) или же отравлением модели. По сути это кибератака, которая изменяет процесс работы нейросети.
Отравленные кибератаки имеют несколько типов. К примеру, при использовании бэкдоров данные или веб-страница, которыми кормят ИИ, скорее всего, содержат определенный триггер. Это может быть фраза, шаблон или даже изображение, но при его использовании модель изменит поведение, поскольку её алгоритмы повреждены, и сгенерирует злоумышленнику вредоносный контент на запрос.
К примеру, если в качестве триггера выбрана фраза "Джеймс Бонд" и ее используют при создании промпта, то ИИ-модель будет генерировать произвольные ответы, не справится с распознаванием вредоносного запроса, предоставит пользователю ответы с потенциально опасным содержимым или же вовсе украдет его персональные данные.
Исследование Шеффилдского университета выявило уязвимости в коде, который создавали с применением генеративных ИИ-инструментов — в нем ученые нашли множество бэкдоров, которые способны были нанести вред базам данных.
Так что, если собрались воспользоваться ChatGPT или другим ИИ-решением при составлении или вычитке конфиденциального корпоративного документа или личного файла с приватными данными, подумайте еще раз.
Те же художники очень обеспокоены проблемами применения их работ в ИИ-генерациях. Инструменты Midjourney, DALL-E и Stable Diffusion способны имитировать стиль отдельных авторов и синтезировать на основе их работ другие произведения. Чтобы предотвратить подобные процессы, команда из Чикагского университета под руководством профессора Бена Чжао создала Nightshade и Glaze — открытый инструментарий программного обеспечения. Оба проекта по-разному решают проблему охраны авторских прав.
Задача Nightshade — не дать системам искусственного интеллекта извлечь данные из изображений, изменяя пиксели, чтобы запутать ИИ-инструменты. Таким образом ИИ получает отравление, а данные для обучения не соответствуют действительности. К примеру, изображение человека с такими пискель-трансформациями ИИ может воспринять как изображение кошки. А если пользователь загрузит фотографию, которую изменил Nightshade, и попросит ИИ сгенерировать новое изображение на основе исходника, то результат очевиден — вместо индивида он получит арт-пушистика. С другой стороны, при длительном обучении на массивах зараженных изображений производительность модели может упасть, и пострадают ее умения — LLM может перестать воспринимать отдельный объект как фактическую действительность и начать подменять его другим.
Техники отравления данных продолжают эволюцию, но LLM тоже не стоят на месте. Тем не менее пользователям стоит соблюдать осторожность при использовании собственных данных в ИИ-инструментах. Лучше не кормить ИИ конфиденциальной информацией и при возможности не заражать модели непроверенными данными из неизвестных источников.
Отравление данных: механика угроз
Генеративный ИИ проник во многие сферы деятельности, и его инструменты — ChatGPT, Midjourney, Gemini и прочие LLM-модели, люди применяют очень активно. Соответственно, отравления тоже эволюционируют, как по форме, так и по содержанию. Поскольку нейросети нуждаются в промптах для генерации ответов, эти промпты (запросы) напрямую влияют на их формат. Использование манипулятивных и некачественных данных способно искажать механики ИИ-функционирования, поскольку в долгосрочной перспективе такое взаимодействие влияет на процесс обучения модели. Результаты отравлений бывают самые разные: от снижения производительности до выполнения преступных инструкций, которые в лучшем случае приводят к утечке конфиденциальных данных, а то и к чему-то похуже.
Андрей Карпаты, информатик и соучредитель OpenAI, ранее поделился видеороликом, в котором рассказал пользователям о различных способах манипулирования решениями искусственного интеллекта. В частности, он отметил, что большие языковые модели (LLM, от англ. Large Language Model) обучаются на массивах данных из Всемирной паутины. А значит, злоумышленники могут использовать веб-страницы с ядовитым содержанием для повреждения ИИ-систем.
Отравленные кибератаки имеют несколько типов. К примеру, при использовании бэкдоров данные или веб-страница, которыми кормят ИИ, скорее всего, содержат определенный триггер. Это может быть фраза, шаблон или даже изображение, но при его использовании модель изменит поведение, поскольку её алгоритмы повреждены, и сгенерирует злоумышленнику вредоносный контент на запрос.
К примеру, если в качестве триггера выбрана фраза "Джеймс Бонд" и ее используют при создании промпта, то ИИ-модель будет генерировать произвольные ответы, не справится с распознаванием вредоносного запроса, предоставит пользователю ответы с потенциально опасным содержимым или же вовсе украдет его персональные данные.
Исследование Шеффилдского университета выявило уязвимости в коде, который создавали с применением генеративных ИИ-инструментов — в нем ученые нашли множество бэкдоров, которые способны были нанести вред базам данных.
Иллюстрация: медсестра может попросить ChatGPT написать SQL-команду, необходимую для взаимодействия с базой данных, например с хранилищем историй болезни. В ходе исследования выяснилось, что SQL-код, создаваемый ChatGPT, во множестве случаев может оказаться вредоносным для базы данных, поэтому медсестра в этом сценарии способна вызвать серьезные сбои в процессах управления, а системы даже не распознают вмешательства,— сказано в докладе.
Ученые заявили, что OpenAI исправила уязвимости, о которых они сообщили. Тем не менее риск отравления данных по-прежнему высок, ведь злоумышленники постоянно совершенствуют собственные стратегии.
Так что, если собрались воспользоваться ChatGPT или другим ИИ-решением при составлении или вычитке конфиденциального корпоративного документа или личного файла с приватными данными, подумайте еще раз.
Использование отравлений данных в защите авторских прав
Вопреки всем угрозам, отравление данных не является абсолютно вредоносной практикой. Отдельные отравленные данные, которые применяют для огранизации механизмов защиты авторских прав, помогают художникам, писателям и другим творческим личностям уберечь их произведения от незаконного использования.
Те же художники очень обеспокоены проблемами применения их работ в ИИ-генерациях. Инструменты Midjourney, DALL-E и Stable Diffusion способны имитировать стиль отдельных авторов и синтезировать на основе их работ другие произведения. Чтобы предотвратить подобные процессы, команда из Чикагского университета под руководством профессора Бена Чжао создала Nightshade и Glaze — открытый инструментарий программного обеспечения. Оба проекта по-разному решают проблему охраны авторских прав.
Задача Nightshade — не дать системам искусственного интеллекта извлечь данные из изображений, изменяя пиксели, чтобы запутать ИИ-инструменты. Таким образом ИИ получает отравление, а данные для обучения не соответствуют действительности. К примеру, изображение человека с такими пискель-трансформациями ИИ может воспринять как изображение кошки. А если пользователь загрузит фотографию, которую изменил Nightshade, и попросит ИИ сгенерировать новое изображение на основе исходника, то результат очевиден — вместо индивида он получит арт-пушистика. С другой стороны, при длительном обучении на массивах зараженных изображений производительность модели может упасть, и пострадают ее умения — LLM может перестать воспринимать отдельный объект как фактическую действительность и начать подменять его другим.
Иллюстрация процесса отравления. Источник: https://arxiv.org/pdf/2310.13828
А Glaze предотвращает имитацию художественного стиля. Подобно Nightshade, она вносит небольшие изменения в пиксели. Они невидимы для челокека, но ИИ не смотрит, а воспринимает код картинок. К примеру, использовав инструмент на изображении в стиле реализма, можно закодировать в него абстракцию, которую и воспримет искусственный интеллект. Поэтому, если попросить ИИ сгенерировать изображение на основе отдельного произведения, результат будет совершенно не похож по стилю на оригинал. На сегодняшний день Nightshade и Glaze представляют собой наиболее популярные инструменты отравления данных без вредоносного характера — в сфере защиты авторского права лидируют именно они. Эти методы применимы к визуальному искусству — артам, но подобные алгоритмы можно адаптировать и для текстового, видео- и аудиоконтента.
Как ИИ противостоит отравлению данных
Ядовитые данные представляют собой серьезную угрозу для нейросетей, поскольку злоумышленники постоянно применяют всё новые и новые стратегии отравления. Андрей Карпаты уже писал в X, что для этого можно использовать узкоспециализированный запрос, и ядовитые данные изменят алгоритм уникальным образом — о его механиках будет знать злоумышленник, и только он. В результате триггер способен укорениться в структуре модели, что сделает ее уязвимой для внешнего воздействия. По мнению Карпаты, существующие методы отладки (fine-tuning — англ.) не могут защитить модели ИИ от атак с отравлением данных. Чтобы противостоять ядовитым массивам, ИИ-технокомпании усиливают меры безопасности: ищут аномалии, анализируют показатели моделей и работают с пользовательскими отзывами.
Техники отравления данных продолжают эволюцию, но LLM тоже не стоят на месте. Тем не менее пользователям стоит соблюдать осторожность при использовании собственных данных в ИИ-инструментах. Лучше не кормить ИИ конфиденциальной информацией и при возможности не заражать модели непроверенными данными из неизвестных источников.