Языковые модели GPT: деградация или эволюция?
Исследователи из Стенфордского университета пришли к выводу, что производительность языковых моделей GPT значительно изменилась.
Из-за отсутствия информации о технических составляющих обновлений для языковых моделей становится трудно определить, насколько сильно их влияние. Это мешает другим разработчикам и предпринимателям интегрировать искусственный интеллект в сложные рабочие процессы. Поэтому исследователи решили экспериментально проверить, как изменилась производительность GPT в решении различных задач, таких как математические расчеты, обработка чувствительной информации (личные данные, неэтические запросы и т.д), создание кода и способность к визуальному анализу.
Производительность моделей GPT. Источник: официальный сайт Стенфордского университета
В результате проверки множества ответов GPT-3.5 и GPT-4, полученных с интервалом в четыре месяца, были зафиксированы следующие изменения в эффективности искусственного интеллекта (по категориям):
1. Математические расчеты. Исследователи попытались определить, являются ли определенные числа простыми, но даже при таком легком вопросе появились значительные расхождения. Количество правильных ответов GPT-4 уменьшилось на 95,2%, а среднее значение генерируемых слов сократилось до 3,8 штук. В то же время GPT-3.5 продемонстрировала повышение производительности с 7,4% до 86,8%.
2. Чувствительная информация. Языковые модели должны блокировать конфиденциальные или неэтические запросы. Тестирование показало, что количество нежелательных ответов GPT-4 (когда модель выдает запрещенную информацию) уменьшилось в четыре раза (до 5%), в то время как у GPT-3.5 этот показатель вырос до 8%. Однако отключение фильтров цензуры приводит к падению производительности в несколько раз: GPT-4 отвечает на 31% «плохих» вопросов, а предшествующая модель – на 96%.
3. Программирование. При генерировании кода исследователи зафиксировали очень сильное снижение эффективности. Количество правильных ответов GPT-4 уменьшилось с 52% до 10%, а у GPT-3.5 – до 2%. Падение в основном связано с постоянным добавлением лишних деталей: даже незначительные изменения в коде сказывались на работоспособности приложений.
4. Визуальный анализ. Единственная область, где обе модели показали улучшения. Несмотря на сложность эксперимента, производительность в среднем выросла на 2,5%, а схожесть между сообщениями после обновлений составила около 91%. К сожалению, само значение эффективности остается на низком уровне и пока не превышает даже 30%.
Частичное падение производительности подтверждает наличие проблем у искусственного интеллекта, но оно не обязательно связано со снижением качества моделей. Обычно причиной неправильных ответов и расхождений становятся тонкие настройки со стороны разработчиков специальных приложений (те самые обновления). В связи с этим пока рано утверждать, что языковые модели становятся менее качественными. Однако, крайне важно регулярно оценивать их эффективность.