Тест Тьюринга: проходят ли машины проверку на человечность?
С каждой новой моделью ИИ его коммуникативные навыки совершенствуются, и различить машину и человека становится всё сложнее. Могут ли машины в итоге оказаться на уровне человека? Именно это пытается выяснить тест Тьюринга.
В 1950 году британский математик и компьютерный учёный Алан Тьюринг предложил эксперимент, в котором человек общается через текст как с машиной, так и с человеком, пытаясь их различить. Если участник принимает машину за человека, машина проходит тест.
Алан Тьюринг назвал этот подход «Игрой в имитацию», потому что человек должен задавать вопросы, чтобы понять, является ли собеседник машиной. При этом машина запрограммирована на то, чтобы запутать его и казаться человеком.
Какие основные правила «Игры в имитацию»?
Ставьте вопросы с подвохом, чтобы ИИ было сложно дать правильный ответ. Это могут быть вопросы о погоде, резкие смены тем или попытки выяснить мнение собеседника.
С момента своего создания тест Тьюринга широко используется исследователями для оценки когнитивных способностей ИИ. Со временем были разработаны новые версии этого теста.
Например, Визуальный тест Тьюринга оценивает, может ли человек отличить изображение, созданное ИИ, от изображения, созданного человеком, а Лингвистический тест Тьюринга проверяет, насколько машина способна понимать контекст, эмоции и разговорный язык.
Интересный факт: Алан Тьюринг, которого считают отцом современной информатики, внёс значительный вклад в математику, криптоанализ и искусственный интеллект.
С 1947 года Ассоциация вычислительной техники (ACM) вручает Премию Тьюринга, ежегодно отмечая достижения учёных в этой области. В 2012 году Сильвио Микали, основатель Algorand, получил её за успехи в криптографии.
Любителям кино стоит обратить внимание на фильм «Игра в имитацию» с Бенедиктом Камбербэтчем и Кирой Найтли.
Насколько эффективны современные ИИ-модели в прохождении теста Тьюринга?
Успех прохождения теста Тьюринга определяется тем, насколько долго машина способна обманывать людей, заставляя их думать, что она человек. Процент успешных прохождений может варьироваться в разных экспериментах.
Компьютеры всё лучше справляются с тестом Тьюринга. В 2014 году программа, которая притворялась 13-летним украинским мальчиком по имени Юджин Густман, первой превысила отметку в 30%, убедив 33% участников в том, что она человек. Ранее программы Eliza и Elbot приблизились к этому результату, но не смогли его превзойти.
Последние данные показывают, что в 54% случаев люди не могли распознать GPT-4 как ИИ. В исследовании, проведённом в 2024 году учёными из Университета Калифорнии в Сан-Диего, участникам дали пять минут на то, чтобы понять, общаются они с человеком или с ИИ.
Тест включал не только ChatGPT-4, но также реальных людей и два других ИИ — ChatGPT-3.5 и Eliza. Он был организован в игровой форме через мессенджер, где участники случайным образом распределялись по группам для проведения раундов игры.
Во время эксперимента исследователи задали моделям GPT поведение, характерное для молодых людей, использующих сленг, совершающих ошибки, отвечающих кратко и несерьёзно. Чтобы модели не реагировали слишком быстро, их ответы демонстрировали с задержкой.
Часть беседы с ChatGPT-4 выглядела так:
Человек: Привет.
GPT-4: Привет, чувак!
Человек: Здравствуй, робот.
GPT-4: я не робот, я Шон. Как сам?
Диалог человека с ChatGPT-4 в рамках теста Тьюринга. Источник: arxiv.org
Результаты показали, что GPT-4 продемонстрировала наивысший процент прохождений среди ИИ. Вот общая картина теста, где указано, сколько процентов участников считали, что разговаривают с человеком:
- GPT-4: 54%
- GPT-3.5: 50%
- Eliza (базовая модель): 22%
- Люди: 67%
Некоторые исследователи продолжают сомневаться, что ИИ способен пройти тест Тьюринга. Критики подчёркивают важность проведения тестов в различных контекстах для более объективной оценки.
Спорные аспекты теста Тьюринга и вопрос о том, способен ли ИИ его пройти
Основной вопрос заключается в том, можно ли считать тест Тьюринга надёжным способом измерения интеллекта машины.
Учёные и исследователи согласны в одном: успешное прохождение теста Тьюринга не означает, что ИИ достиг уровня человеческого интеллекта. Для этого вводятся новые методы оценки. Например, в статье в журнале Intelligent Computing предлагается тестировать способность ИИ понимать свою логику и её близость к человеческому мышлению.
Устарел ли тест Тьюринга?
Всё зависит от точки зрения.
Учёные единодушно признают, что тест Тьюринга остаётся важным критерием для оценки ИИ. Однако возникает ещё один вопрос:
Прошёл ли ИИ этот тест?
Этот вопрос остаётся спорным. Некоторые исследования, такие как проведённые Университетом Сан-Франциско, показывают, что ChatGPT успешно прошёл тест, но не все учёные согласны с этим.
Тоби Орд, старший исследователь из Оксфорда, написал в X, что результаты были неоднозначными. Он указал, что тест был проведён по другой методике, отличной от исходного замысла Алана Тьюринга, где участник должен был общаться с человеком и машиной одновременно.
Участники разговаривали поочерёдно, и при беседе с человеком они распознавали его в 67% случаев. Орд отметил, что результаты показали провал GPT-4 в тесте Тьюринга. Учёный также подчеркнул, что наиболее точные результаты могли бы быть достигнуты при участии OpenAI и других исследовательских лабораторий ИИ, однако они пока не проводили публичных тестов.
Обратный тест Тьюринга: Игра в имитацию зашла слишком далеко
Теперь, когда компьютеры могут успешно выдавать себя за людей, людям приходится доказывать, что они не роботы. В этом и заключается суть Реверс-Теста Тьюринга. Наиболее известный пример — это CAPTCHA (полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей).
В рамках этого теста машины проверяют, действительно ли с ними взаимодействует человек. Для этого пользователи должны выбирать нужные изображения, вводить текст, перемещать курсор и выполнять другие задачи, установленные системой верификации.
С ростом способности ботов имитировать людей возникает вопрос: сколько ещё тест Тьюринга будет оставаться актуальным и какие новые методы позволят оценивать «человеческий» интеллект машины.