Чому ШІ важко опановувати людські мови?
За даними Ethnologue, у світі існує близько 4000 мов. Однак такі програми зі штучним інтелектом, як Google Translate і ChatGPT, підтримують менше ніж 150 мов. До того ж ці інструменти не однаково вільно володіють усіма мовами. Все через те, що вони навчаються на величезних обсягах даних англійською, тому розуміють цю мову найкраще.
Англійська мова — це, так би мовити, рідна мова штучного інтелекту. Однак мовленню ШІ досі бракує емоцій і жвавості. І хоча дані системи вчаться розпізнавати людські емоції, є багато нюансів, до опанування яких їм ще далеко навіть в англійській мові.
Наприклад, якщо попросите ChatGPT написати щось саркастичне, він може придумати дотепну відповідь, але точно не оцінить ваші жарти так, як людина. А якщо ми говоримо про мультикультурну комунікацію, то тут проблем ще більше. Щоб краще зрозуміти всі аспекти, нижче ми розповімо про те, як ШІ розуміє людську мову і з якими проблемами він стикається.
Як комп’ютери розуміють людську мову
Технологія, яка дозволяє комп'ютерам взаємодіяти з людською мовою, називається обробкою природної мови (англ. Natural Language Processing, NLP). Вона виникла на стику комп'ютерних наук та лінгвістики. NLP зосереджується на створенні обчислювальних моделей, які можуть розуміти, аналізувати та генерувати відповіді на запити людською мовою.
Технологічні компанії використовують NLP для навчання своїх застосунків зі штучним інтелектом. Обробка природної мови є частиною таких програм, як чат-боти, транскрибатори, розпізнавачі голосу та інші програми, пов'язані з мовленням і мовами. Ця технологія лежить в основі функціоналу Google Перекладач, Siri від Apple, персоналізованих рекомендацій Facebook, мовної моделі GPT від OpenAI тощо.
NLP десятиліттями залишається дослідницьким напрямом у галузі ШІ. З появою машинного навчання вона дає можливість системам ШІ тренуватися на наборах даних, що містять велику кількість слів і перекладів. Завдяки постійному навчанню та вдосконаленню мовні моделі ШІ стають все кращими. Гарним прикладом є Google Перекладач. Зараз програма краще розуміє контекст і перекладає точніше, ніж кілька років тому. Про це свідчать як відгуки користувачів, так і офіційні заяви компанії.
Попри досягнутий прогрес, системи штучного інтелекту досі стикаються з проблемою точного перекладу. Програми можуть помилятися, особливо при перекладі культурно маркованої лексики або багатозначних слів. Часто буває, що програми з ШІ перекладають назви місць або традицій, які не потребують перекладу. Іноді вихідний текст просто не має сенсу і схожий на мішанину з випадкових слів.
Щоб розв'язати ці проблеми, технологічні компанії працюють над багатомовними моделями. В рамках цієї концепції моделі використовують для навчання тексти кількома мовами одночасно. Це допомагає машинам виявляти зв'язки та закономірності між мовами для досягнення кращих результатів.
Неякісні переклади заполонили інтернет
Як ми вже згадували, лінгвістичні можливості комп'ютерів обмежені, але саме людський фактор вирішує, що робити з обмеженнями і як використовувати технології. Саме від людей залежить, чи вдосконалювати переклади та надавати аудиторії якісний контент, чи користуватися результатами роботи штучного інтелекту без редагування. Згідно з нещодавнім дослідженням Університету Каліфорнії та лабораторії штучного інтелекту Amazon Web Services, величезна кількість контенту в інтернеті перекладається машинним способом. В статті пишуть:
Контент в інтернеті часто перекладається багатьма мовами, і низька якість цих багатомовних перекладів вказує на те, що вони, найімовірніше, були зроблені за допомогою машини (МП).
Особливо невтішна картина спостерігається для мов з низьким рівнем ресурсів, себто мов, які мають невелику кількість контенту в інтернеті. Те саме дослідження виявило, що неякісно перекладений на ці мови контент і становить значну частку загального обсягу вебконтенту цими мовами. Метою таких перекладів є отримання прибутку. Тобто спочатку створюється низькоякісний контент англійською мовою, який може приносити прибуток від реклами, а потім він масово перекладається на різні мови з низьким рівнем ресурсів за допомогою машинного перекладу.
Неякісні переклади ускладнюють вивчення мов штучним інтелектом. Оскільки великі мовні моделі навчаються на основі даних, отриманих з інтернету, неякісний контент може призвести до неправильного навчання систем.
Чи може штучний інтелект покращити свої лінгвістичні навички?
Сьогодні системи штучного інтелекту знають мільйони слів. Вони досить добре допомагають нам спілкуватися різними мовами та особливо стають в пригоді, наприклад, людям, що люблять подорожувати. Мовні здібності ШІ й багатомовні моделі вдосконалюються разом із технологічним прогресом. Але водночас з'являються і нові виклики, зокрема, неякісний контент в інтернеті. З огляду на це шлях ШІ до опанування людських мов досить тернистий. Зрештою, час покаже, що так і залишиться неперекладеним та з якими ще викликами зіткнеться технологія.