Исследователи говорят, что чат-боты не заслуживают 100% доверия
Чат-боты стали для многих лучшими друзьями и незаменимыми советниками. Но они не так уж и безгрешны.
В новом исследовании от ИИ-компании Vectara специалисты выяснили, насколько эффективны известные модели чат-ботов. Для этого аналитики оценили точность ответов нейросетей и достоверность предоставляемой ими информации. Прямо говоря, результаты не самые обнадеживающие.
Все чат-боты так или иначе склонны к галлюцинациям. Вопрос лишь в том, насколько часто они кормят пользователя своей бессмыслицей. Например, PaLM от Google в этом смысле способен не на шутку удивить, правда, не в самом положительном ключе. Согласно подсчетам экспертов, 27% ответов нейросеть буквально выдумала.
Palm 2, ИИ-составляющая Google Search Generative Experience, которая призвана находить и выделять для пользователя релевантные отрывки информации в соответствии с его поисковыми запросами, также не демонстрирует высокую степень корректности.
Чтобы убедиться, достаточно спросит у Google, существует ли в Африке какое-нибудь государство на букву К.
Как это вообще возможно?
В действительности, ответ весьма тривиален. ИИ корпорации Google генерирует свой ответ на основе данных от ChatGPT. Нейросеть Сэма Альтмана, в свою очередь, основывается на шуточном треде из Reddit, где в ответ на вышеуказанный вопрос, после уточнения What about Kenya?, один из пользователей выдает следующее: "Kenya suck on deez nuts lmaooo".
У других систем результаты несколько получше. Так, модель Claude 2 от компании Anthropic выдает нелепости с частотой 8%. Для ИИ-моделей Llama от Meta и GPT-4 соответствующие показатели равны 5% и 3%.Пока Google в поте лица занимается доработкой своего поискового ИИ, у некоторых пользователей нейрофункционал не получается задействовать в полной мере, у других же он и вовсе пропадает в процессе поиска.
Анализ появился в тот момент, когда Илон Маск представил свой собственный чат-бот под названием Grok. Миллиардер уверен, что его ИИ "базирован и саркастичен". Однако о достоверности результатов модели от xAI нам еще только предстоит узнать.
А о скандалах и разногласиях касательно чат-ботов интимной сферы мы в GN Crypto писали в тематическом материале.