Почему ИИ трудно изучать человеческие языки
По данным Ethnologue, в мире существует около 4000 языков. Однако такие программы с ИИ, как Google Translate и ChatGPT, поддерживают менее 150 языков. К тому же эти инструменты не одинаково свободно владеют всеми языками. Все из-за того, что они обучаются на огромных объемах данных на английском, поэтому понимают этот язык лучше всего.
Английский язык — это, так сказать, родной язык искусственного интеллекта. Однако речи ИИ все же не хватает эмоций и живости. И хотя данные системы учатся распознавать человеческие эмоции, есть много нюансов, до освоения которых им еще далеко даже в английском языке.
Например, если попросите ChatGPT написать что-то саркастическое, он может придумать остроумный ответ, но точно не оценит ваши шутки так, как человек. А если мы говорим о мультикультурной коммуникации, то здесь проблем ещё больше. Чтобы лучше понять все аспекты, ниже мы расскажем о том, как ИИ понимает человеческую речь и с какими проблемами он сталкивается.
Как компьютеры понимают человеческую речь
Технология, которая позволяет компьютерам взаимодействовать с человеческой речью, называется обработкой естественного языка (англ. Natural Language Processing, NLP). Она возникла на стыке компьютерных наук и лингвистики. NLP сосредотачивается на создании вычислительных моделей, которые могут понимать, анализировать и генерировать ответы на запросы на человеческом языке.
Технологические компании используют NLP для обучения своих приложений с искусственным интеллектом. Обработка естественного языка является частью таких приложений, как чат-боты, транскрибаторы, распознаватели голоса и другие приложения, связанные с речью и языками. Эта технология лежит в основе функционала Google Переводчик, Siri от Apple, персонализированных рекомендаций Facebook, языковой модели GPT от OpenAI и т. д.
NLP уже десятилетиями является исследовательским направлением в области ИИ. С появлением машинного обучения она дает возможность системам ИИ тренироваться на наборах данных, содержащих большое количество слов и переводов. Благодаря постоянному обучению и совершенствованию языковые модели ИИ становятся все лучше. Хорошим примером является Google Переводчик. Сейчас программа лучше понимает контекст и переводит точнее, чем несколько лет назад. Об этом свидетельствуют как отзывы пользователей, так и официальные заявления компании.
Несмотря на достигнутый прогресс, системы искусственного интеллекта все еще сталкиваются с проблемой точного перевода. Программы могут ошибаться, особенно при переводе культурно-маркированной лексики или многозначных слов. Часто бывает, что программы с ИИ переводят названия мест или традиций, которые сами по себе не нуждаются в переводе. Иногда исходный текст просто не имеет смысла, потому что выглядит как мешанина из случайных слов.
Чтобы решить эти проблемы, технологические компании работают над многоязычными моделями. В рамках этой концепции модели используют для обучения тексты на нескольких языках одновременно. Это помогает машинам выявлять связи и закономерности между языками для достижения лучших результатов.
Некачественные переводы заполонили интернет
Как мы уже упоминали, лингвистические возможности компьютеров ограничены, но именно человеческий фактор решает, что делать с ограничениями и как использовать технологии. Именно от людей зависит, совершенствовать ли переводы и предоставлять аудитории качественный контент или пользоваться результатами работы искусственного интеллекта без редактирования. Согласно недавнему исследованию Университета Калифорнии и лаборатории искусственного интеллекта Amazon Web Services, огромное количество контента в интернете переводится машинным способом. В статье пишут:
Контент в интернете часто переводится на многие языки, и низкое качество этих многоязычных переводов указывает на то, что они, скорее всего, были сделаны с помощью машины (МП).
Особенно неутешительная картина наблюдается для языков с низким уровнем ресурсов, то есть языков, которые имеют небольшое количество контента в интернете. То же исследование выявило, что некачественно переведенный на эти языки контент и составляет значительную долю общего объема веб-контента на этих языках. Целью таких переводов является получение прибыли. То есть сначала создается низкокачественный контент на английском языке, который может приносить прибыль от рекламы, а затем он массово переводится на различные языки с низким уровнем ресурсов с помощью машинного перевода.
Некачественные переводы затрудняют изучение языков искусственным интеллектом. Поскольку большие языковые модели обучаются на основе данных, полученных из интернета, некачественный контент может привести к неправильному обучению систем.
Может ли искусственный интеллект улучшить свои лингвистические навыки?
Сегодня системы искусственного интеллекта знают миллионы слов. Они достаточно хорошо помогают нам общаться на разных языках и особенно полезны, например, людям, которые любят путешествовать. Языковые способности ИИ и многоязычные модели совершенствуются вместе с технологическим прогрессом. Но одновременно появляются и новые вызовы, в частности некачественный контент в интернете. Учитывая это, путь ИИ к освоению человеческих языков достаточно сложен. В конце концов время покажет, что так и останется непереведенным и с какими ещё вызовами столкнется технология.