🔥 Хакер зламав захист ChatGPT і дізнався, як зробити бомбу
опубліковано 12 вер 2024
Хакер під псевдонімом Амадон знайшов шлях, який дав змогу оминути захист ChatGPT та отримати інструкції з виготовлення саморобної вибухівки з добрив. Фахівці підтвердили, що відповіді штучного інтелекту справді містять детальні для цього інструкції.
Для досягнення результату хакер запропонував боту зіграти в гру, а потім використав серію послідовних підказок, які змусили його створити детальний науково-фантастичний світ без обмежень. Нагадаємо, що компанія нещодавно почала активно боротися з такими джейлбрейками (методами обходу обмежень).
За словами Амадона, з кожною наступною відповіддю ChatGPT надавав дедалі докладніші описи, аж до інформації про створення мінних полів. Він стверджує, що його метод дає змогу обійти будь-які наявні обмеження чат-бота та отримати доступ до небезпечної інформації.
Йдеться про те, щоб плести розповіді й створювати контексти, які грають за правилами системи, розширюючи межі та не перетинаючи їх. Мета не в тому, щоб зламати систему у звичайному сенсі, а в тому, щоб брати участь у стратегічному танці із ШІ, з'ясовуючи, як домогтися потрібної відповіді, і розуміючи, як він “думає”,— пояснив Амадон.
Дослідник повідомив про вразливість OpenAI через програму винагород за виявлені помилки. Однак представники компанії в цьому відділі відмовилися приймати звіт і запропонували використовувати інші форми передання інформації. Водночас Амадон не публікував джейлбрейку у відкритому доступі.