🔥 Хакер вскрыл защиту ChatGPT и узнал, как сделать бомбу
опубликовано 12 сент 2024
Хакер под псевдонимом Амадон нашел способ, позволяющий обойти защиту ChatGPT и получить инструкции по изготовлению самодельной взрывчатки из удобрений. Специалисты подтвердили, что ответы искусственного интеллекта действительно содержат детальные для этого инструкции.
Для достижения результата хакер предложил боту сыграть в игру, а потом использовал серию последовательных подсказок, которые заставили его создать подробный научно-фантастический мир без ограничений. Напомним, что компания недавно начала активно бороться с подобными джейлбрейками (методами обхода ограничений).
По словам Амадона, с каждым последующим ответом ChatGPT предоставлял всё более подробные описания, вплоть до информации о создании минных полей. Он утверждает, что его метод дает возможность обойти любые существующие ограничения чат-бота и получить доступ к небезопасной информации.
Речь идет о том, чтобы плести повествования и создавать контексты, которые играют в рамках правил системы, расширяя границы и не пересекая их. Цель не в том, чтобы взломать систему в обычном смысле, а в том, чтобы участвовать в стратегическом танце с ИИ, выясняя, как добиться нужного ответа, и понимая, как он “думает”,— объяснил Амадон.
Исследователь сообщил об уязвимости OpenAI через программу вознаграждений за обнаруженные ошибки. Однако представители компании в этом отделе отказались принимать отчет и предложили использовать другие формы передачи информации. При этом Амадон не стал публиковать джейлбрейк в открытом доступе.