Anthropic заплатит за найденные ИИ-джелбрейки

опубликовано  8 авг 2024
Фото - Anthropic заплатит за найденные ИИ-джелбрейки
Компания Anthropic, которая занимается разработкой искусственного интеллекта, расширила программу вознаграждения за поиск ошибок и уязвимостей в существующих ИИ-моделях. Теперь исследователи смогут получить до $15 000 за выявление универсального джелбрейка, который может обойти большую часть ограничений существующих моделей.

Все проверки и тестирования будут проводится не на текущем варианте системы безопасности, а на новой непубличной версии в полностью закрытой виртуальной среде. Разработчики Anthropic особенно интересуются уязвимостями в потенциально опасных для человечества областях, таких как химическая, биологическая, радиологическая, ядерная и кибербезопасность.
Эта инициатива согласуется с обязательствами, которые мы подписали вместе с другими компаниями по разработке ответственного ИИ, такими как “Добровольные обязательства по ИИ”, объявленные Белым домом, и “Кодекс поведения для организаций, разрабатывающих передовые системы ИИ”, созданный в рамках Хиросимского процесса G7
, — говорится в заявлении Anthropic.
Сама программа запущена в партнерстве с компанией по кибербезопасности HackerOne, которая также отвечает за выплату вознаграждений успешным исследователям. На данный момент для участия нужно получить специальное приглашение после подачи заявки, но вскоре разработчики планируют упростить и расширить этот процесс. Текущий набор продлится до 16 августа.

Sidebar ad banner