Обучение искусственного интеллекта и авторское право
Действительно ли большие компании нарушают авторское право при обучении моделей искусственного интеллекта? Скорее всего, да.
Технологические компании, такие как Meta, Google и Microsoft, разрабатывают и обучают модели искусственного интеллекта преимущественно на базе общедоступной информации (например, публикациях на сайтах или в социальных сетях). Подобные материалы автоматически защищены авторским правом, если не указано обратное.
Например, Meta официально подтвердила использование публикаций из собственных социальных сетей Facebook и Instagram для обучения модели Llama 2, которая сможет обрабатывать тексты, изображения и даже жесты. По мнению разработчиков, разносторонняя информация от большого количества разных людей улучшает производительность системы. При этом компания постаралась исключить записи с чувствительными данными.
Однако, помимо нарушения авторского права, некоторые публикации могут дополнительно содержать и личные предпочтения пользователей, которые часто применяются для анализа и предоставления персонализированной рекламы в рамках специального соглашения. Обычно люди не часто обращают на это внимание, но именно благодаря такому функционалу компании зарабатывают миллионы долларов на рекламных объявлениях. А в случае обучения модели искусственного интеллекта такая информация по сути навсегда становится частью нового технологического продукта без каких-либо условий.
Юристы компаний могут ссылаться на добросовестное использование любых открытых материалов для развития технологий. Но, как показывает практика, запуск подписок на новые приложения фактически отменяет такие юридические основания. Также стоит упомянуть, что, в отличие от настроек персонализированной рекламы, пользователи редко имеют возможность отказаться от участия в обучении моделей искусственного интеллекта. Об этом постоянно говорят представители творческого сообщества, включая художников, актеров и музыкантов.
Некоторые компании предлагают функционал для контроля над данными. К примеру, OpenAI позволяет заблокировать использование собственного контента для обучения моделей искусственного интеллекта. Но при этом, видимо чтобы сократить количество запросов, компания требует от автора специальные юридические заявления для каждой отдельной работы, что сильно усложняет процесс и по факту делает эту опцию невостребованной.
Как видим, технологические компании пока действуют по своему усмотрению в отношении обработки открытых данных и искусственного интеллекта. Руководствоваться общими правилами и законами невозможно в силу отсутствия таковых. Однако после их принятия мы вполне можем увидеть специализированные настройки для аккаунтов, которые предоставят больше контроля над персональными данными и контентом.