Тестируем ИИ-приложения для транскрибации

icon AUDIO
icon JST
Фото - Тестируем ИИ-приложения для транскрибации
Автоматическая транскрибация аудио- и видеозаписей становится все более востребованной среди журналистов, авторов подкастов и блогеров, которые хотят быстро превратить свои голосовые записи в текст. Еще несколько лет назад эта задача выполнялась вручную и требовала много времени и сил.
Сейчас на помощь пришел искусственный интеллект, который умеет быстро расшифровывать аудиофайлы.

Мы провели тестирование нескольких популярных ИИ-приложений для транскрибации. Они оценивались с точки зрения точности передачи информации, скорости обработки и простоты использования. Еще нас интересовали  возможные дополнительные функции и соотношение цена/качество.

Для теста мы выбрали минутный трейлер к фильму The Batman, в котором присутствует закадровый текст, вокальная композиция и дополнительные звуки (работа механизмов, взрывы, выстрелы). Нас интересовало, сможет ли ИИ идентифицировать их и распределить по разным каналам.

Trint

Основатель сервиса Trint — Джефф Кофман, который более 30 лет работал военным корреспондентом в ведущих американских и европейских изданиях и был удостоен премии «Эмми» за репортажи о ливийской революции и последних днях Каддафи.  
Он заявил, что в 2014 году стал использовать автоматическую транскрибацию интервью, а позже решил создать собственный ИИ-сервис, который сможет закрыть проблемы журналистов, вручную делающих стенограммы.
Trint предназначен для творческих команд, которые работают над созданием профессионального контента. Приложение поддерживает более 40 языков (украинский сейчас проходит этап бета-тестирования), что делает его универсальным инструментом для пользователей во всем мире.

Понятный и простой в использовании сервис. 
Для транскрибации необходимо загрузить видеофайл и выбрать нужный язык. Далее ИИ делает все сам. В нашем случае на создание текстовой версии 58-секундного ролика понадобилось 90 секунд.
Приложение корректно отделило авторский текст от слов песни. То есть Trint может быть успешно использован при расшифровке разговоров с участием нескольких лиц.
Trint умеет распознавать голоса

Trint умеет распознавать голоса

Справа от текста есть поле для его верификации. Поставленная в этом месте галочка обозначает, что расшифровка выполнена корректно.  Это удобная функция для командной работы — в дальнейшем, если кто-то будет вносить правки, то сервис укажет, кем и когда был изменен текст.

Для того, чтобы начать совместную работу, существует базовая функция «Поделиться».
Trint может быть использован для командной работы

Trint может быть использован для командной работы

Созданный текстовый файл можно импортировать в виде субтитров в загруженное видео.
Для этого существует раздел Create captions. В нем можно дополнительно корректировать текст и устанавливать временные метки для его появления на экране.
Создание субтитров с помощью Trint

Создание субтитров с помощью Trint

Все эти возможности мы протестировали в демоверсии, которую можно получить на сайте Trint.

Наш вывод: прекрасное и интуитивно понятное приложение для редакций СМИ или переводческих бюро.
Для индивидуальной работы может быть использовано, если вы занимаетесь активным фрилансом. Для редкого применения Trint нецелесообразен — подписка достаточно дорогая.
Месячный стартовый пакет для одного пользователя стоит $80.
При условии единоразовой оплаты годовой подписки цена будет ниже — $52 ($624 за 12 месяцев)

Otter

Otter.ai — это приложение для транскрибации на основе искусственного интеллекта, которое позволяет работать с аудио- и видеозаписями в режиме реального времени. Оно позиционируется как дешифровальщик рабочих митов и онлайн-переговоров, поскольку умеет превращать в текст разговоры по мере их ведения.
После тестирования мы пришли к выводу, что сервис с успехом может использоваться еще в нескольких областях:

  1. Для проведения видеоинтервью. Otter.ai могут использовать рекрутеры, чтобы сосредоточиться на собеседнике, не беспокоясь о ведении заметок.
  2. Для записи лекций и семинаров. Приложение успешно записывает выступление докладчика, поэтому студентам больше не нужно просить чужие конспекты или прибегать к стенографированию.
  3. Запись судебных заседаний и слушаний. Это отличный инструмент для всех участников — от адвокатов до присяжных заседателей.

Для теста мы использовали базовый бесплатный тариф.
В принципе, со своей задачей (расшифровать видео с YouTube) приложение справилось неплохо. Были небольшие огрехи (например, в первом предложении потеряно слово “violence”, а в последнем вместо “Just me and you” ИИ написал “just mean”), которые можно исправить вручную. 
Расшифровка видеофайла в Otter

Расшифровка видеофайла в Otter

Но мы поняли, что для таких целей использовать Otter неразумно. Он действительно заточен под другие задачи.
Резюме транскрибации трейлера в Otter

Резюме транскрибации трейлера в Otter

Приложение можно подключить к Google Meet, Microsoft Teams, Zoom или Slack. 
Оно умеет:

  • отслеживать календарь встреч;
  • подтягивать в расшифровку спикеров из ваших контактов;
  • отправлять уведомления, когда вас упоминают или назначают вам какие-то действия;
  • генерировать короткие резюме встреч и рассылать его всем присутствующим;
  • анализировать все миты по ключевым словам;
  • публиковать сводки встреч (дата, количество участников, основные спикеры, обсуждаемые темы).
Otter может записывать ваши встречи в Google Meet

Otter может записывать ваши встречи в Google Meet

Кроме того, в корпоративной версии приложения есть отдельный чат в котором можно уточнить у ИИ, были ли вы упомянуты в разговоре на котором не присутствовали и какие решения были приняты во время встречи. Это незаменимая функция для сотрудников компаний, которые работают на удаленке и находятся в других часовых поясах.
Индивидуальный чат с ИИ в Otter

Индивидуальный чат с ИИ в Otter

Наш вывод: удобное приложение для компаний с большим количеством фрилансеров “на борту”. Но для индивидуального использования имеет мало практического смысла. Зачем забивать гвозди микроскопом?

Otter имеет четыре тарифных плана:

  • Basic: бесплатно 30 минут транскрибации в месяц;
  • Pro: $9,17 за каждого пользователя в месяц;
  • Business: $20 за каждого пользователя в месяц;
  • Enterprise (для крупных компаний): цену назначают разработчики в зависимости от комплекта необходимых функций и возможности доработки под индивидуальные запросы.

Beey

Beey — это доступное и очень простое в использовании приложение для транскрибации, которое может стать отличным выбором для пользователей с ограниченным бюджетом (студентов, ютуберов, начинающих журналистов).
Сервис предоставляет 30 бесплатных минут расшифровки аудиофайлов для желающих протестировать возможности ИИ.
Мы воспользовались этим правом и можем озвучить особенности сервиса.

  1. Высокая точность стенографирования. Мы проверили корректность записи англо- и немецкоязычных голосовых файлов и не нашли ни единой ошибки. Как обстоит дело с транскрибацией менее распространенных в интернете языков (всего их заявлено 30) , сказать не можем.
  2. Быстрая транскрибация. На расшифровку нашего файла понадобилось 85 секунд.
  3. Машинный перевод. Полученный документ можно перевести на 20 языков.
  4. Удобный интерфейс. Файлы загружаются быстро и легко, их можно редактировать и делиться результатами с другими участниками.
  5. Отсутствие месячного тарифа. Сервис можно использовать с той нагрузкой, которая удобна пользователю. Одна минута ИИ-транскрибации стоит €0,13 (+НДС).
  6. Удобные базовые настройки. Можно заранее указать количество спикеров и отметить, что на заднем фоне есть посторонние звуки (в нашем случае музыка со словами).
Настройки Beey

Настройки Beey

Пожалуй, Beey сделал лучший текстовый вариант предложенного нами трейлера. ИИ потерял всего одно слово “Who”. В остальных проблемных местах, где голос вокалиста накладывается на голос диктора, всё расшифровано правильно.
Кроме того, у пользователя есть возможность добавить субтитры на видео. 
Блок настроек для выведения субтитров через Beey

Блок настроек для выведения субтитров через Beey

Настроек очень много, но даже если их не менять, ИИ по умолчанию все сделает корректно и быстро. Для новичков это самый подходящий вариант из протестированных нами.
Наш вывод: мы можем смело рекомендовать Beey всем, кто хочет автоматизировать рутинные действия и высвободить время для творческих задач.