Автоматична транскрибація аудіо- та відеозаписів стає дедалі більш затребуваною серед журналістів, авторів подкастів і блогерів, які хочуть швидко перетворити свої голосові файли на текст. Ще кілька років тому це завдання виконувалося вручну і потребувало чимало часу та сил.
Наразі на допомогу прийшов штучний інтелект, який вміє швидко розшифрувати аудіофайли.
Ми протестували кілька популярних ШІ-застосунків для транскрибації, оцінюючи точність передавання інформації, швидкість її оброблення та простоту використання. Ще нас цікавили можливі додаткові функції та співвідношення ціна/якість.
Для тесту ми обрали хвилинний трейлер до фільму The Batman, у якому присутній закадровий текст, вокальна композиція та додаткові звуки (робота механізмів, вибухи, постріли). Нас цікавило, чи зможе ШІ ідентифікувати їх і розподілити по різних каналах.
Trint
Засновник сервісу Trint — Джефф Кофман, який понад 30 років працював військовим кореспондентом у провідних американських та європейських виданнях та був удостоєний премії «Еммі» за репортажі про лівійську революцію та останні дні Каддафі.
Він заявив, що у 2014 році почав використовувати автоматичну транскрибацію інтерв'ю, а згодом вирішив створити власний ШІ-сервіс, який зможе вирішити проблеми журналістів, котрі вручну роблять стенограми.
Trint призначений для творчих команд, які працюють над створенням професійного контенту. Застосунок підтримує понад 40 мов (українська наразі перебуває на етапі бета-тестування), що робить його універсальним інструментом для користувачів у всьому світі.
Зрозумілий і простий у використанні сервіс.
Для транскрибації достатньо завантажити відеофайл і вибрати потрібну мову. Далі ШІ зробить усе сам. У нашому випадку для створення текстової версії 58-секундного ролика знадобилося 90 секунд.
Застосунок коректно відокремив авторський текст від слів пісні. Тобто Trint може бути успішно використаний для розшифровки розмов за участю кількох осіб.
Trint вміє розпізнавати голоси
Праворуч від тексту є поле для верифікації. Лишаючи тут позначку, ви погоджуєтесь, що розшифровка виконана коректно. Це зручна функція для командної роботи — надалі, якщо хтось вноситиме правки, то сервіс фіксуватиме, хто і коли змінював текст.
Щоб розпочати спільну роботу, можна скористатися базовою функцією “Поділитися”.
Trint може бути використаний для командної роботи
Створений текстовий файл можна імпортувати в завантажене відео як субтитри.
Для цього є розділ Create captions. У ньому можна додатково коригувати текст і встановлювати часові позначки для появи на екрані.
Створення субтитрів за допомогою Trint
Усі ці можливості ми протестували у демоверсії, яку можна отримати на сайті Trint.
Наш висновок: зручний та інтуїтивно зрозумілий застосунок для редакцій ЗМІ й перекладацьких бюро.
Можна використовувати для індивідуальної роботи, якщо ви займаєтеся активним фрілансом. Для поодинокого застосування використання Trint є недоцільним, оскільки підписка коштує доволі дорого.
Стартовий пакет на місяць для одного користувача коштує $80.
За умови оплати річної підписки ціна буде дещо меншою — $52 ($624 на 12 місяців).
Otter
Otter.ai — це застосунок для транскрибації на основі штучного інтелекту, який дає змогу працювати з аудіо- та відеозаписами в режимі реального часу. Він позиціонується як дешифрувальник робочих мітів та онлайн-переговорів, оскільки вміє перетворювати на текст розмови прямо під час заходу.
Після тестування ми дійшли висновку, що сервіс успішно можна використовувати ще в декількох галузях:
- Під час проведення відеоінтерв'ю. Otter.ai можуть використовувати рекрутери, щоб зосередити увагу на співрозмовнику і не робити додаткові нотатки.
- Для запису лекцій і семінарів. Застосунок успішно записує виступ доповідача, тому студентам більше не потрібно просити чужі конспекти або вдаватися до стенографування.
- Для запису судових засідань і слухань. Це чудовий інструмент для всіх учасників — від адвокатів до присяжних.
Для тесту ми використали базовий безкоштовний тариф.
Загалом зі своїм завданням (розшифрувати відео з YouTube) програма впоралася непогано. Були невеликі недоліки (наприклад, у першому реченні втрачено слово “violence”, а в останньому — замість “Just me and you” ШІ написав “just mean”), які можна виправити вручну.
Розшифрування відеофайлу в Otter
Але ми зрозуміли, що так використовувати Otter нерозумно, адже він ефективніший для вирішення інших завдань.
Резюме транскрибації трейлера в Otter
Застосунок можна підключити до Google Meet, Microsoft Teams, Zoom або Slack.
Він здатний:
- відстежувати календар зустрічей;
- підтягувати у розшифровку спікерів із ваших контактів;
- надсилати повідомлення, коли вас згадують чи призначають вам певні дії;
- генерувати короткі резюме зустрічей і розсилати їх усім присутнім;
- аналізувати всі міти за ключовими словами;
- публікувати підсумки зустрічей (дата, кількість учасників, головні спікери, теми для обговорення).
Otter може записувати ваші зустрічі в Google Meet
Крім того, в корпоративній версії програми є окремий чат, де можна уточнити у ШІ, чи згадували вас під час розмови, на якій ви не були присутні, а також дізнатися, які рішення були ухвалені під час зустрічі. Це незамінна функція для співробітників компаній, які працюють віддалено або перебувають в інших часових поясах.
Індивідуальний чат з ШІ в Otter
Наш висновок: зручний застосунок для компаній, у яких працює велика кількість фрілансерів. Але для індивідуального використання не надто практичний. Для чого забивати цвяхи мікроскопом?
Otter має чотири тарифні плани:
- Basic: 30 хвилин транскрибації на місяць безкоштовно;
- Pro: $9,17 за кожного користувача на місяць;
- Business: $20 за кожного користувача на місяць;
- Enterprise (для великих компаній): ціну призначають розробники і вона залежить від набору бажаних функцій та можливості доопрацьовувати їх під індивідуальні побажання.
Beey
Beey — це доступний і дуже простий у використанні застосунок для транскрибації, який може стати у пригоді для користувачів з обмеженим бюджетом (студентів, ютуберів, журналістів-початківців).
Сервіс надає 30 безкоштовних хвилин розшифровки аудіофайлів тим, хто бажає протестувати можливості ШІ.
Ми скористалися цим правом, тож готові озвучити особливості сервісу.
- Висока точність стенографування. Ми перевірили коректність запису англо- та німецькомовних голосових файлів і не знайшли жодної помилки. Щодо транскрибації менш поширених мов (усього їх заявлено 30), то нічого зауважити не можемо.
- Швидка транскрибація. Щоб розшифрувати наш файл, ШІ знадобилося 85 секунд.
- Машинний переклад. Отриманий документ можна перекласти 20 мовами.
- Зручний інтерфейс. Файли завантажуються швидко та легко, їх можна редагувати та ділитися результатами з іншими учасниками.
- Відсутність місячного тарифу. Сервіс можна використовувати з тим навантаженням, яке є зручним для користувача. Одна хвилина ШІ-транскрибації коштує €0,13 (+ПДВ).
- Зручні базові налаштування. Можна заздалегідь вказати кількість спікерів і зазначити, що фоново присутні сторонні звуки (у нас — музика і слова).
Налаштування Beey
Мабуть, Beey запропонував найкращий текстовий варіант нашого трейлера. ШІ втратив лише одне слово “Who”. В решті проблемних місць, де голос вокаліста накладався на голос диктора, все розшифровано правильно.
Крім того, користувач має можливість додати до відео субтитри.
Блок налаштувань для виведення субтитрів через Beey
Налаштувань дуже багато, але, навіть якщо їх не змінювати, ШІ автоматично зробить все коректно та швидко. Для новачків це найкращий варіант із усіх, що ми протестували.
Наш висновок: ми сміливо рекомендуємо Beey всім, хто хоче автоматизувати рутинні процеси та вивільнити час для творчих завдань.