Погіршення ШІ-продуктивності: нейромережі здатні розгубити розум?
На онлайн-форумах уже існують гілки, де користувачі обговорюють падіння продуктивності та точності у відповідях чат-ботів на ШІ-основі. Якість їхніх генерацій може знижуватися з часом, а на певні запитання деякі моделі й зовсім відмовляються відповідати. Однак справа має безліч чинників.
В основі функціонала ШІ-ботів великі мовні моделі (LLM), що навчені на масивах даних з інтернету, книжок та інших джерел. Для генерації відповідей команда фахівців-кодерів — подекуди за сумісництвом творці LLM — інтегрує модель у новий продукт, який обробляє запити користувача. Щоб надати готовий результат, система використовує шаблони, на яких її навчали. У текстовому плані це передбачає також структурну побудову цілих абзаців і речень.
Технології ШІ-ботів і LLM-моделі створювали найрізноманітніші компанії. Наприклад, ChatGPT було написано OpenAI, і він користується мовною моделлю GPT. На вибір подано моделі GPT-3.5, GPT-4, GPT-4 Turbo та новітня GPT-4o.
Кожна з нових моделей вирізняється розширеним функціоналом і поліпшенням базових характеристик. Що цікаво, відмінності помітні не тільки в потенціалі між окремими моделями: один нейророзум здатний генерувати відповіді, відмінні за точністю та якістю.
Розглянемо приклад GPT-4, який вийшов на ринок у березні 2023 року. Якщо вірити відгукам користувачів, на самому початку він був напрочуд хорошим, але потім став помилятися. На форумах ChatGPT можна побачити обговорення на кшталт «ЧОМУ ChatGPT 4.0 стає дедалі дурнішим і дурнішим» чи «Chat GPT стає гіршим або це гіршають мої промпти». Користувачі зазначають, що генерації бота стали обмеженими, з них зникли детальні описи для розв'язання запиту, а пошук помилок у даних ускладнився.
У дослідженні Стенфордського університету ці побоювання підтвердилися. Проаналізувавши моделі GPT-4 і GPT-3.5, вчені виявили, що їхня червнева версія справді генерувала значно більше помилок порівняно з березневою. Математична точність GPT-4 у розв'язанні деяких завдань за цей час впала з 98% до 2%. Модель не знайшла відповідей на низку запитань, наприклад про те, чи є 17 077 простим числом. Вона продовжувала відповідати «ні», хоча правильною відповіддю було «так».
Однак дослідники зі Стенфорда стикнулися із суперечностями. Вчені-інформатики з університету Принстона опублікували відповідь і у власному матеріалі поставили під сумнів ефективність методів наукового аналізу. Хоча автори статті погодилися з тим, що поведінка GPT змінилася, вони зазначили, що використання іншого методу оцінки, наприклад тестування моделі на різноманітних питаннях, а не тільки на тих, які стосуються простих чисел, дало б змогу побачити іншу картину. Водночас науковці Принстонського університету виявили, що генерація відповідей справді пережила трансформацію за період з березня по червень. Зокрема, якщо в березні GPT-4 майже завжди вказував, що число просте, то в червневій версії він майже завжди говорив, що воно складене. Автори вважають, що поведінкові зміни нейромоделі не є рівнозначними загальному зниженню продуктивності, про яке говорили в Стенфорді. Вчені Принстона впевнені, що бот просто змінився завдяки регулярним калібруванням і промптам від користувачів. Він здатний відповідати на запити точно й коректно, але для цього може знадобитися дещо інша стратегія в побудові промптів. У їхній дослідницькій роботі йдеться:
Технології ШІ-ботів і LLM-моделі створювали найрізноманітніші компанії. Наприклад, ChatGPT було написано OpenAI, і він користується мовною моделлю GPT. На вибір подано моделі GPT-3.5, GPT-4, GPT-4 Turbo та новітня GPT-4o.
Кожна з нових моделей вирізняється розширеним функціоналом і поліпшенням базових характеристик. Що цікаво, відмінності помітні не тільки в потенціалі між окремими моделями: один нейророзум здатний генерувати відповіді, відмінні за точністю та якістю.
Зниження продуктивності ШІ-моделей: наочні приклади
Щоб повною мірою усвідомити межі продуктивності та можливостей ШІ-моделі, знадобиться деякий час. Потенціал нейросистем стає очевиднішим у міру того, як дедалі більше користувачів взаємодіють з нею та надають зворотний зв'язок або приклади, на яких система може вчитися. Кожна взаємодія з користувачем потребує обчислювальних потужностей, а внаслідок цих взаємодій відбувається оновлення алгоритму. Зрештою, можуть виникнути такі проблеми, як затримки у відповідях, неточності та відмова відповідати на певні запитання. Зазвичай трансформації даються взнаки через кілька місяців після запуску бота.
Розглянемо приклад GPT-4, який вийшов на ринок у березні 2023 року. Якщо вірити відгукам користувачів, на самому початку він був напрочуд хорошим, але потім став помилятися. На форумах ChatGPT можна побачити обговорення на кшталт «ЧОМУ ChatGPT 4.0 стає дедалі дурнішим і дурнішим» чи «Chat GPT стає гіршим або це гіршають мої промпти». Користувачі зазначають, що генерації бота стали обмеженими, з них зникли детальні описи для розв'язання запиту, а пошук помилок у даних ускладнився.
У дослідженні Стенфордського університету ці побоювання підтвердилися. Проаналізувавши моделі GPT-4 і GPT-3.5, вчені виявили, що їхня червнева версія справді генерувала значно більше помилок порівняно з березневою. Математична точність GPT-4 у розв'язанні деяких завдань за цей час впала з 98% до 2%. Модель не знайшла відповідей на низку запитань, наприклад про те, чи є 17 077 простим числом. Вона продовжувала відповідати «ні», хоча правильною відповіддю було «так».
Однак дослідники зі Стенфорда стикнулися із суперечностями. Вчені-інформатики з університету Принстона опублікували відповідь і у власному матеріалі поставили під сумнів ефективність методів наукового аналізу. Хоча автори статті погодилися з тим, що поведінка GPT змінилася, вони зазначили, що використання іншого методу оцінки, наприклад тестування моделі на різноманітних питаннях, а не тільки на тих, які стосуються простих чисел, дало б змогу побачити іншу картину. Водночас науковці Принстонського університету виявили, що генерація відповідей справді пережила трансформацію за період з березня по червень. Зокрема, якщо в березні GPT-4 майже завжди вказував, що число просте, то в червневій версії він майже завжди говорив, що воно складене. Автори вважають, що поведінкові зміни нейромоделі не є рівнозначними загальному зниженню продуктивності, про яке говорили в Стенфорді. Вчені Принстона впевнені, що бот просто змінився завдяки регулярним калібруванням і промптам від користувачів. Він здатний відповідати на запити точно й коректно, але для цього може знадобитися дещо інша стратегія в побудові промптів. У їхній дослідницькій роботі йдеться:
Одна з важливих концепцій щодо чат-ботів, яку необхідно усвідомити, полягає в тому, що існує велика різниця між потенціалом і його поведінкою. Модель, що володіє певними можливостями, може виявити їх у відповідь на конкретний запит, а може й не виявити. Розчарованого користувача ChatGPT мало втішить, якщо йому скажуть, що необхідні можливості все ще існують, але тепер для їх реалізації потрібні нові стратегії промптингу.
Проблеми помітні не лише у GPT. Користувачі інших ШІ-ботів, зокрема Claude від Anthropic, також відзначають погіршення продуктивності. Вони стверджують, що з моменту виходу застосунку він став працювати повільніше й менш точно.
Системи штучного інтелекту, як-от ChatGPT, навчаються не тільки на масивах даних, які їм згодували, а й на взаємодії з користувачем. Якщо ви систематично користуєтеся ChatGPT, то напевно помітили, що застосунок просить вас залишити власний відгук. Наприклад, у ChatGPT ви можете відзначати відповіді, які вам не сподобалися, і наводити конкретні пояснення, чому. OpenAI прибрала кнопку «Мені подобається», зосередившись на негативних реакціях у спробі залучити більш глибокий зворотний зв'язок. Іноді її творіння може надати дві генерації одразу й запитати, якій з них ви віддаєте перевагу. Це дає змогу нейромережі покращувати якість відповідей.
ChatGPT регулює свої дії відповідно до отриманих користувацьких відгуків. Та зробити це з урахуванням усіх побажань вкрай важко.
Ще один значущий фактор, що впливає на відповіді штучного інтелекту, — дотримання безпекових стандартів. Дедалі частіше програми відмовляються відповідати на делікатні запитання, щоб уникнути упередженості та потенційної шкоди. З одного боку, такий підхід позитивний, оскільки сприяє підвищенню безпеки та дотриманню етичних принципів, але з іншого — обмежує можливості системи в певних обставинах.
Наприклад, Claude відмовляється ідентифікувати людей на фотографіях через політику конфіденційності та безпеки. Щоб протестувати його роботу, ми додали фотографію Майкла Джексона й попросили бота сказати нам, хто це. Claude пояснив, що не може ідентифікувати людину «відповідно до власних директив». Однак він надав описову підказку, зізнавшись, що на знімку зображений «неймовірно впливовий і знаменитий діяч музичної індустрії, чиї артистизм і виступи підкорювали глядачів усіх куточків світу». Це свідчить про те, що, нехай Claude і розпізнала Майкла Джексона, нейромережу запрограмовано не давати прямих відповідей на такі запитання.
Рецензія користувача на Claude. Джерело: reddit.com
Чому ШІ-моделі з часом втрачають ефективність
Переважно ШІ-застосунки, зокрема ChatGPT і Claude, мають закритий вихідний код, тобто повна інформація про те, як вони навчаються та працюють, недоступна. Хоча точні причини погіршення продуктивності визначити складно, є кілька факторів, які впливають на ситуацію. Серед них — труднощі тонкого налаштування великих мовних моделей у різних сферах без шкоди для їх можливостей. У дослідженні Стенфорда також повідомляється:
Поліпшення роботи моделі в одних завданнях, наприклад за допомогою тонкого налаштування на основі додаткових даних, може мати несподівані побічні дії для її поведінки в інших завданнях. Тож і GPT-3.5, і GPT-4 стали гірше виконувати деякі завдання, але поліпшили свої показники в інших аспектах.
Крім того, під час дослідження вдалося виявити зміни в механіці аргументації нейромоделей і в ступені деталізації їхніх відповідей.
Системи штучного інтелекту, як-от ChatGPT, навчаються не тільки на масивах даних, які їм згодували, а й на взаємодії з користувачем. Якщо ви систематично користуєтеся ChatGPT, то напевно помітили, що застосунок просить вас залишити власний відгук. Наприклад, у ChatGPT ви можете відзначати відповіді, які вам не сподобалися, і наводити конкретні пояснення, чому. OpenAI прибрала кнопку «Мені подобається», зосередившись на негативних реакціях у спробі залучити більш глибокий зворотний зв'язок. Іноді її творіння може надати дві генерації одразу й запитати, якій з них ви віддаєте перевагу. Це дає змогу нейромережі покращувати якість відповідей.
ChatGPT регулює свої дії відповідно до отриманих користувацьких відгуків. Та зробити це з урахуванням усіх побажань вкрай важко.
Ще один значущий фактор, що впливає на відповіді штучного інтелекту, — дотримання безпекових стандартів. Дедалі частіше програми відмовляються відповідати на делікатні запитання, щоб уникнути упередженості та потенційної шкоди. З одного боку, такий підхід позитивний, оскільки сприяє підвищенню безпеки та дотриманню етичних принципів, але з іншого — обмежує можливості системи в певних обставинах.
Наприклад, Claude відмовляється ідентифікувати людей на фотографіях через політику конфіденційності та безпеки. Щоб протестувати його роботу, ми додали фотографію Майкла Джексона й попросили бота сказати нам, хто це. Claude пояснив, що не може ідентифікувати людину «відповідно до власних директив». Однак він надав описову підказку, зізнавшись, що на знімку зображений «неймовірно впливовий і знаменитий діяч музичної індустрії, чиї артистизм і виступи підкорювали глядачів усіх куточків світу». Це свідчить про те, що, нехай Claude і розпізнала Майкла Джексона, нейромережу запрограмовано не давати прямих відповідей на такі запитання.
З міркувань безпеки Claude відмовляється ідентифікувати Майкла Джексона на фото. Джерело: claude.ai
Яке майбутнє на нас чекає?
З плином часу ШІ-системи здатні не тільки до самополіпшень, а й також можуть «розгубити розум». Як поводитимуться такі моделі надалі, передбачити, мабуть, наразі не спроможний ніхто. Усе залежатиме від того, наскільки розробники успішно розв'яжуть завдання тонкого налаштування моделей, за умов якого не завдаватиметься шкода чинному ШІ-потенціалу. Чи розроблятимуть індустріальні стандарти для машинного навчання та що робити із впливом етичних обмежувачів на якість відповідей — кожне з цих запитань визначить долю залізного розуму.