Ухудшение ИИ-производительности: могут ли нейросети стать глупее?
На онлайн-форумах уже существуют ветки, где пользователи обсуждают падение производительности и точности в ответах чат-ботов на ИИ-основе. Качество их генераций может снижаться со временем, а на определенные вопросы некоторые модели и вовсе отказываются отвечать. Однако в деле замешано множество факторов.
В основе функционала ИИ-ботов лежат большие языковые модели (LLM), обученные на массивах данных из интернета, книг и других источников. Для генерации ответов команда специалистов-кодеров — иногда по совместительству создатели LLM — интегрирует модель в новый продукт, который обрабатывает запросы пользователя. Чтобы предоставить готовый результат, система использует шаблоны, на которых ее обучали. В текстовом плане это подразумевает также структурное построение целых абзацев и предложений.
Технологии ИИ-ботов и LLM-модели создавались самыми разнообразными компаниями. К примеру, ChatGPT был написан OpenAI и пользуется языковой моделью GPT. На выбор представлены модели GPT-3.5, GPT-4, GPT-4 Turbo и новейшая GPT-4o.
Каждая из новых моделей отличается расширенным функционалом и улучшением базовых характеристик. Что интересно, различия заметны не только в потенциале между отдельными моделями: один и тот же нейроразум способен генерировать ответы, отличные по точности и качеству.
Рассмотрим пример GPT-4, который вышел на рынок в марте 2023 года. Если верить отзывам пользователей, в самом начале он был на удивление хорош, но потом начал ошибаться. На форумах ChatGPT можно увидеть обсуждения вроде «ПОЧЕМУ ChatGPT 4.0 становится все глупее и глупее» или «Chat GPT становится хуже или это ухудшаются мои промпты». Пользователи отмечают, что генерации бота стали ограниченными, из них исчезли подробные описания для решения запроса, а поиск ошибок в предоставленных данных усложнился.
В исследовании Стэнфордского университета эти опасения нашли подтверждение. Проанализировав модели GPT-4 и GPT-3.5, ученые обнаружили, что их июньская версия действительно генерировала значительно больше ошибок по сравнению с мартовской. Математическая точность GPT-4 при решении некоторых задач за это время упала с 98% до 2%. Модель не нашла ответов на ряд вопросов, к примеру о том, является ли 17 077 простым числом. Она продолжала отвечать «нет», хотя правильным ответом было «да».
Технологии ИИ-ботов и LLM-модели создавались самыми разнообразными компаниями. К примеру, ChatGPT был написан OpenAI и пользуется языковой моделью GPT. На выбор представлены модели GPT-3.5, GPT-4, GPT-4 Turbo и новейшая GPT-4o.
Каждая из новых моделей отличается расширенным функционалом и улучшением базовых характеристик. Что интересно, различия заметны не только в потенциале между отдельными моделями: один и тот же нейроразум способен генерировать ответы, отличные по точности и качеству.
Снижение производительности ИИ-моделей: наглядные примеры
Чтобы в полной мере осознать границы производительности и возможностей ИИ-модели, потребуется некоторое время. Потенциал нейросистем становится все более очевидным по мере того, как все больше пользователей взаимодействуют с ней и предоставляют обратную связь или примеры, на которых система может учиться. Каждое взаимодействие с пользователем требует вычислительных мощностей, а в результате этих взаимодействий происходит обновление алгоритма. Как следствие, могут возникнуть такие проблемы, как задержки в ответах, неточности и отказ отвечать на определенные вопросы. Как правило, трансформации проявляются спустя несколько месяцев после запуска бота.
Рассмотрим пример GPT-4, который вышел на рынок в марте 2023 года. Если верить отзывам пользователей, в самом начале он был на удивление хорош, но потом начал ошибаться. На форумах ChatGPT можно увидеть обсуждения вроде «ПОЧЕМУ ChatGPT 4.0 становится все глупее и глупее» или «Chat GPT становится хуже или это ухудшаются мои промпты». Пользователи отмечают, что генерации бота стали ограниченными, из них исчезли подробные описания для решения запроса, а поиск ошибок в предоставленных данных усложнился.
В исследовании Стэнфордского университета эти опасения нашли подтверждение. Проанализировав модели GPT-4 и GPT-3.5, ученые обнаружили, что их июньская версия действительно генерировала значительно больше ошибок по сравнению с мартовской. Математическая точность GPT-4 при решении некоторых задач за это время упала с 98% до 2%. Модель не нашла ответов на ряд вопросов, к примеру о том, является ли 17 077 простым числом. Она продолжала отвечать «нет», хотя правильным ответом было «да».
Однако исследователи из Стэнфорда столкнулись с противоречиями. Ученые-информатики из университета Принстона опубликовали ответ и в собственном материале поставили под сомнение эффективность методов научного анализа. Хотя авторы статьи согласились с тем, что поведение GPT изменилось, они заявили, что использование другого метода оценки, например тестирование модели на разнообразных вопросах, а не только на тех, которые касаются простых чисел, позволило бы увидеть иную картину. В то же время ученые Принстонского университета обнаружили, что генерация ответов действительно пережила трансформацию за период с марта по июнь. В частности, если в марте GPT-4 почти всегда указывал, что число простое, то в июньской версии он почти всегда говорил, что оно составное. Авторы считают, что поведенческие изменения нейромодели не равносильны повальному снижению производительности, о котором говорили в Стэнфорде. Ученые Принстона уверены, что бот просто изменился благодаря регулярным калибровкам и промптам от пользователей. Он способен отвечать на запросы точно и корректно, но для этого может потребоваться несколько другая стратегия в построении промптов. В их исследовательской работе говорится:
Одна из важных концепций касательно чат-ботов, которую необходимо осознать, заключается в том, что существует большая разница между потенциалом и его поведением. Модель, обладающая определенными возможностями, может проявить их в ответ на конкретный запрос, а может и не проявить. Разочарованного пользователя ChatGPT мало утешит, если ему скажут, что необходимые возможности все еще существуют, но теперь для их реализации требуются новые стратегии промптинга.
Проблемы наблюдаются не только у GPT. Пользователи других ИИ-ботов, в том числе Claude от Anthropic, также отмечают ухудшение производительности. Они утверждают, что с момента выхода приложения оно стало работать медленнее и менее точно.
Системы искусственного интеллекта, подобные ChatGPT, учатся не только на массивах данных, которые им скормили, но и на пользовательском взаимодействии. Если вы регулярно пользуетесь ChatGPT, то наверняка заметили, что приложение просит вас оставить свой отзыв. Например, в ChatGPT вы можете отмечать ответы, которые вам не понравились, и давать конкретные пояснения, почему. OpenAI убрала кнопку «Мне нравится», сосредоточившись на негативных реакциях в попытке привлечь более глубокую обратную связь. Иногда их детище может предоставить две генерации сразу и спросить, какую из них вы предпочитаете. Это позволяет нейросети улучшать качество ответов.
ChatGPT регулирует свои действия на основании собранных отзывов пользователей. Но сделать это с учетом всех пожеланий крайне затруднительно.
Еще один значимый фактор, влияющий на ответы искусственного интеллекта, — это соблюдение стандартов безопасности. Все чаще программы отказываются отвечать на деликатные вопросы во избежание предвзятости и потенциального вреда. С одной стороны, такой подход позитивен, так как способствует повышению безопасности и соблюдению этических принципов, но с другой — ограничивает возможности системы в определенных обстоятельствах.
Например, Claude отказывается идентифицировать людей на фотографиях из-за политики конфиденциальности и безопасности. Чтобы протестировать его работу, мы прикрепили фотографию Майкла Джексона и попросили бота сказать нам, кто это. Claude объяснил, что не может идентифицировать человека «в соответствии со своими директивами». Однако он дал описательную подсказку, признав, что на снимке изображен «невероятно влиятельный и знаменитый деятель музыкальной индустрии, чьи артистизм и выступления покоряли зрителей по всему миру». Это говорит о том, что, хотя Claude и распознал Майкла Джексона, нейросеть запрограммирована воздерживаться от прямых ответов на подобные вопросы.
Рецензия пользователя на Claude. Источник: reddit.com
Почему ИИ-модели со временем теряют эффективность
Как правило, ИИ-приложения, в том числе ChatGPT и Claude, имеют закрытый исходный код, то есть полная информация о том, как они обучаются и работают, недоступна. Хотя точные причины ухудшения производительности оценить сложно, есть несколько факторов, которые влияют на ситуацию. Среди них — сложность тонкой настройки больших языковых моделей в разных направлениях без ущерба для их возможностей. В исследовании Стэнфорда также говорится о следующем:
Улучшение работы модели в одних задачах, например с помощью тонкой настройки на основе дополнительных данных, может иметь неожиданные побочные эффекты для ее поведения в других задачах. В соответствии с этим и GPT-3.5, и GPT-4 стали хуже справляться с некоторыми задачами, но улучшили свои показатели в других аспектах.
Кроме того, в ходе исследования были обнаружены изменения в механике аргументации нейромоделей и в уровне детализации их ответов.
Системы искусственного интеллекта, подобные ChatGPT, учатся не только на массивах данных, которые им скормили, но и на пользовательском взаимодействии. Если вы регулярно пользуетесь ChatGPT, то наверняка заметили, что приложение просит вас оставить свой отзыв. Например, в ChatGPT вы можете отмечать ответы, которые вам не понравились, и давать конкретные пояснения, почему. OpenAI убрала кнопку «Мне нравится», сосредоточившись на негативных реакциях в попытке привлечь более глубокую обратную связь. Иногда их детище может предоставить две генерации сразу и спросить, какую из них вы предпочитаете. Это позволяет нейросети улучшать качество ответов.
ChatGPT регулирует свои действия на основании собранных отзывов пользователей. Но сделать это с учетом всех пожеланий крайне затруднительно.
Еще один значимый фактор, влияющий на ответы искусственного интеллекта, — это соблюдение стандартов безопасности. Все чаще программы отказываются отвечать на деликатные вопросы во избежание предвзятости и потенциального вреда. С одной стороны, такой подход позитивен, так как способствует повышению безопасности и соблюдению этических принципов, но с другой — ограничивает возможности системы в определенных обстоятельствах.
Например, Claude отказывается идентифицировать людей на фотографиях из-за политики конфиденциальности и безопасности. Чтобы протестировать его работу, мы прикрепили фотографию Майкла Джексона и попросили бота сказать нам, кто это. Claude объяснил, что не может идентифицировать человека «в соответствии со своими директивами». Однако он дал описательную подсказку, признав, что на снимке изображен «невероятно влиятельный и знаменитый деятель музыкальной индустрии, чьи артистизм и выступления покоряли зрителей по всему миру». Это говорит о том, что, хотя Claude и распознал Майкла Джексона, нейросеть запрограммирована воздерживаться от прямых ответов на подобные вопросы.
Из соображений безопасности Claude отказывается идентифицировать Майкла Джексона на фото. Источник: claude.ai
Что ждет нас в будущем?
С течением времени ИИ-системы способны не только самоулучшаться, но и «тупеть». Как поведут себя такие модели в будущем, предсказать, пожалуй, сейчас не способен никто. Все зависит от того, насколько успешно разработчики решат задачу тонкой настройки моделей, в условиях которой не будет нанесен ущерб существующему ИИ-потенциалу. Будут ли разработаны индустриальные стандарты для машинного обучения и что делать с влиянием этических ограничителей на качество ответов — каждый из этих вопросов определит судьбу железного разума.