Тест Тюрінга: чи проходять машини перевірку на людяність?
Тест Тюрінга допомагає зрозуміти, чи може штучний інтелект успішно імітувати людину. Докладніше про те, що це за тест і як він оцінює інтелект машини, читайте в нашій статті на GN Crypto.
У 1950 році британський математик і комп'ютерний учений Алан Тьюринг запропонував експеримент, у якому людина спілкується через текст як із машиною, так і з людиною, намагаючись їх розрізнити. Якщо учасник приймає машину за людину, машина проходить тест.
Алан Тьюринг назвав цей підхід «Грою в імітацію», тому що людина має ставити запитання, щоб зрозуміти, чи є співрозмовник машиною. При цьому машина запрограмована на те, щоб заплутати її і здаватися людиною.
Які основні правила «Гри в імітацію»?
Ставте запитання з каверзою, щоб ШІ було складно дати правильну відповідь. Це можуть бути питання про погоду, різкі зміни тем або спроби з'ясувати думку співрозмовника.
З моменту свого створення тест Тюрінга широко використовується дослідниками для оцінювання когнітивних здібностей ШІ. Згодом з'явилися й нові версії цього тесту.
Наприклад, Візуальний тест Тюрінга оцінює, чи може людина відрізнити зображення, створене ШІ, від зображення, створеного людиною, а Лінгвістичний тест Тюрінга перевіряє, наскільки машина здатна розуміти контекст, емоції та розмовну мову.
Цікавий факт: Алан Тьюринг, якого вважають батьком сучасної інформатики, зробив значний внесок у математику, криптоаналіз і штучний інтелект.
З 1947 року Асоціація обчислювальної техніки (ACM) вручає Премію Тьюринга, щорічно відзначаючи досягнення вчених у цій галузі. У 2012 році Сільвіо Мікалі, засновник Algorand, отримав її за успіхи в криптографії.
Любителям кіно варто звернути увагу на фільм «Гра в імітацію» з Бенедиктом Камбербетчем і Кірою Найтлі.
Наскільки ефективні сучасні ШІ-моделі в проходженні тесту Тюрінга?
Успіх проходження тесту Тюрінга визначається тим, наскільки довго машина здатна обманювати людей, змушуючи їх думати, що вона людина. Відсоток успішних проходжень може варіюватися в різних експериментах.
Комп'ютери все краще дають раду тесту Тюрінга. У 2014 році програма, яка прикидалася 13-річним українським хлопчиком на ім'я Юджин Густман, першою перевищила позначку в 30%, переконавши 33% учасників у тому, що вона людина. Раніше програми Eliza і Elbot наблизилися до цього результату, але не змогли його перевершити.
Останні дані свідчать, що в 54% випадків люди не могли розпізнати GPT-4 як ШІ. У дослідженні, проведеному 2024 року вченими з Університету Каліфорнії в Сан-Дієго, учасникам дали п'ять хвилин на те, щоб зрозуміти, спілкуються вони з людиною чи з ШІ.
Тест охоплював не тільки ChatGPT-4, але також реальних людей і два інших ШІ — ChatGPT-3.5 і Eliza. Він був організований в ігровій формі через месенджер, де учасники випадковим чином розподілялися по групах для проведення раундів гри.
Під час експерименту дослідники задали моделям GPT поведінку, характерну для молодих людей, які використовують сленг, припускаються помилок, відповідають коротко і несерйозно. Щоб моделі не реагували занадто швидко, їхні відповіді демонстрували із затримкою.
Частина бесіди з ChatGPT-4 мала такий вигляд:
Людина: Привіт.
GPT-4: Привіт, чувак!
Людина: Здрастуй, роботе.
GPT-4: я не робот, я Шон. Як сам?
Діалог людини з ChatGPT-4 у рамках тесту Тюрінга. Джерело: arxiv.org
Результати засвідчили, що GPT-4 продемонструвала найвищий відсоток проходжень серед ШІ. Ось загальна картина тесту, де вказано, скільки відсотків учасників вважали, що розмовляють із людиною:
- GPT-4: 54%
- GPT-3.5: 50%
- Eliza (базова модель): 22%
- Люди: 67%
За останні 60-70 років ШІ-системи стикалися з труднощами в досягненні 50% успіху, але це дослідження та інші роботи демонструють значний прогрес.
Деякі дослідники продовжують сумніватися, що ШІ здатен пройти тест Тюрінга. Критики підкреслюють важливість проведення тестів у різних контекстах для більш об'єктивної оцінки.
Суперечливі аспекти тесту Тюрінга і питання про те, чи здатний ШІ його пройти
Основне питання полягає в тому, чи можна вважати тест Тюрінга надійним способом вимірювання інтелекту машини.
Учені та дослідники погоджуються в одному: успішне проходження тесту Тюрінга не означає, що ШІ досяг рівня людського інтелекту. Для цього запроваджують нові методи оцінювання. Наприклад, у статті в журналі Intelligent Computing пропонується тестувати здатність ШІ розуміти свою логіку та її близькість до людського мислення.
Чи застарів тест Тюрінга?
Усе залежить від точки зору.
Вчені одностайно визнають, що тест Тюрінга залишається важливим критерієм для оцінки ШІ. Однак виникає ще одне питання:
Чи пройшов ШІ цей тест?
Це питання залишається дискусійним. Деякі дослідження, такі як проведені Університетом Сан-Франциско, показують, що ChatGPT успішно пройшов тест, але не всі вчені згодні з цим.
Тобі Орд, старший дослідник з Оксфорда, написав у X, що результати були неоднозначними. Він вказав, що тест було проведено за іншою методикою, відмінною від початкового задуму Алана Тюрінга, де учасник мав спілкуватися з людиною і машиною одночасно.
Учасники розмовляли по черзі, і під час бесіди з людиною вони розпізнавали її в 67% випадків. Орд зазначив, що результати показали провал GPT-4 у тесті Тюрінга. Вчений також наголосив, що найточніших результатів можна було б досягти за участю OpenAI та інших дослідницьких лабораторій ШІ, однак вони поки що не проводили публічних тестів.
Зворотний тест Тюрінга: Гра в імітацію зайшла занадто далеко
Тепер, коли комп'ютери можуть успішно видавати себе за людей, люди мусять доводити, що вони не роботи. У цьому і полягає суть Реверс-Тесту Тюрінга. Найвідоміший приклад — це CAPTCHA (повністю автоматизований публічний тест Тюрінга для розрізнення комп'ютерів і людей).
У рамках цього тесту машини перевіряють, чи справді з ними взаємодіє людина. Для цього користувачі повинні вибирати потрібні зображення, друкувати текст, переміщати курсор і виконувати інші завдання, встановлені системою верифікації.
Зі зростанням здатності ботів імітувати людей постає питання: скільки ще тест Тюрінга залишатиметься актуальним і які нові методи дадуть змогу оцінювати «людський» інтелект машини.