Дослідники кажуть, що чат-ботам не варто довіряти на 100%
Чат-боти стали для багатьох найкращими друзями і радниками, яким немає заміни. Однак LLM не безгрішні.
У новому дослідженні від ШІ-компанії Vectara фахівці з'ясували, наскільки ефективними є відомі моделі чат-ботів. Для цього аналітики оцінили точність відповідей нейромереж і достовірність наданої ними інформації. Відверто кажучи, результати не надто вже й втішні.
Усі чат-боти так чи інакше мають схильність до галюцинацій. Питання лише в тому, наскільки часто вони годують користувача своєю маячнею. Наприклад, PaLM від Google у цьому сенсі здатен добряче здивувати, щоправда, не зовсім у позитивному сенсі. Згідно з підрахунками експертів, 27% відповідей нейромережа фактично вигадала.
Palm 2, ШІ-складова Google Search Generative Experience, котра покликана знаходити і окреслювати для користувача релевантні уривки інформації відповідно до його пошукових запитів, також не демонструє високий ступінь коректності.
Щоб переконатися, достатньо запитати у Google, чи існує в Африці хоч якась держава на букву К.
Як це взагалі можливо?
Насправді, відповідь доволі тривіальна. ШІ корпорації Google генерує свою відповідь на основі даних від ChatGPT. Нейромережа Сема Альтмана зі свого боку ґрунтується на жартівливому треді з Reddit, де у відповідь на вищевказане питання після уточнення: "What about Kenya?", один із користувачів видає таке: "Kenya suck on deez nuts lmaooo".
В інших систем результати дещо кращі. Зокрема, модель Claude 2 від компанії Anthropic продукує дурниці з частотою 8%. Для ШІ-моделей Llama від Meta і GPT-4 відповідні показники дорівнюють 5% і 3% відповідно.
Поки Google наполегливо займається вдосконаленням свого пошукового ШІ, у деяких користувачів не виходить застосувати нейрофункціонал сповна, а в інших він і зовсім відсутній у процесі пошуку.
А про скандали і суперечки щодо чат-ботів інтимної сфери ми в GN Crypto писали у тематичному матеріалі.