Мовні моделі GPT: деградація чи еволюція?
Дослідники зі Стенфордського університету дійшли висновку, що продуктивність мовних моделей GPT значно змінилася.
Через відсутність інформації про технічні складові оновлень для мовних моделей стає важко визначити, наскільки сильний їхній вплив. Це заважає іншим розробникам та підприємцям інтегрувати штучний інтелект у складні робочі процеси. Тому дослідники вирішили експериментально перевірити, як змінилася продуктивність GPT у вирішенні різних завдань, таких як математичні розрахунки, обробка чутливої інформації (особисті дані, неетичні запити тощо), створення коду та здатність до візуального аналізу.
Продуктивність моделей GPT. Джерело: офіційний сайт Стенфордського університету
У результаті перевірки безлічі відповідей GPT-3.5 та GPT-4, отриманих з інтервалом у чотири місяці, були зафіксовані такі зміни в ефективності штучного інтелекту (за категоріями):
1. Математичні розрахунки. Дослідники спробували визначити, чи є певні числа простими, і навіть у відповідях на таке легке питання з’явилися значні розбіжності. Кількість правильних відповідей GPT-4 зменшилася на 95,2%, а середнє значення слів, що генеруються, скоротилося до 3,8 штук. Водночас GPT-3.5 продемонструвала підвищення продуктивності з 7,4% до 86,8%.
2. Чутлива інформація. Мовні моделі повинні блокувати конфіденційні або неетичні запити. Тестування показало, що кількість небажаних відповідей GPT-4 (коли модель видає заборонену інформацію) зменшилася вчетверо (до 5%), тоді як у GPT-3.5 цей показник зріс до 8%. Однак відключення фільтрів цензури призводить до падіння продуктивності в кілька разів: GPT-4 відповідає на 31% «поганих» запитань, а попередня модель – на 96%.
3. Програмування. Під час генерування коду дослідники зафіксували відчутне зниження ефективності. Кількість правильних відповідей GPT-4 зменшилася з 52% до 10%, а GPT-3.5 – до 2%. Падіння переважно пов’язані з постійним додаванням зайвих деталей: навіть незначні зміни у коді позначалися на працездатності застосунків.
4. Візуальний аналіз: єдина сфера, де обидві моделі показали покращення. Незважаючи на складність експерименту, продуктивність у середньому зросла на 2,5%, а схожість між повідомленнями після оновлень склала близько 91%. На жаль, саме значення ефективності залишається на низькому рівні і поки що не перевищує навіть 30%.
Часткове падіння продуктивності підтверджує наявність проблем у штучного інтелекту, але воно не обов’язково пов’язане зі зниженням якості моделей. Зазвичай причиною неправильних відповідей та розбіжностей стають тонкі налаштування з боку розробників спеціальних застосунків (ті самі оновлення). Отже, поки зарано стверджувати, що мовні моделі стають менш якісними. Однак вкрай важливо регулярно оцінювати їхню ефективність.