Автоматическая транскрибация аудио- и видеозаписей становится все более востребованной среди журналистов, авторов подкастов и блогеров, которые хотят быстро превратить свои голосовые записи в текст. Еще несколько лет назад эта задача выполнялась вручную и требовала много времени и сил.
Сейчас на помощь пришел искусственный интеллект, который умеет быстро расшифровывать аудиофайлы.
Мы провели тестирование нескольких популярных ИИ-приложений для транскрибации. Они оценивались с точки зрения точности передачи информации, скорости обработки и простоты использования. Еще нас интересовали возможные дополнительные функции и соотношение цена/качество.
Для теста мы выбрали минутный трейлер к фильму The Batman, в котором присутствует закадровый текст, вокальная композиция и дополнительные звуки (работа механизмов, взрывы, выстрелы). Нас интересовало, сможет ли ИИ идентифицировать их и распределить по разным каналам.
Trint
Основатель сервиса Trint — Джефф Кофман, который более 30 лет работал военным корреспондентом в ведущих американских и европейских изданиях и был удостоен премии «Эмми» за репортажи о ливийской революции и последних днях Каддафи.
Он заявил, что в 2014 году стал использовать автоматическую транскрибацию интервью, а позже решил создать собственный ИИ-сервис, который сможет закрыть проблемы журналистов, вручную делающих стенограммы.
Trint предназначен для творческих команд, которые работают над созданием профессионального контента. Приложение поддерживает более 40 языков (украинский сейчас проходит этап бета-тестирования), что делает его универсальным инструментом для пользователей во всем мире.
Понятный и простой в использовании сервис.
Для транскрибации необходимо загрузить видеофайл и выбрать нужный язык. Далее ИИ делает все сам. В нашем случае на создание текстовой версии 58-секундного ролика понадобилось 90 секунд.
Приложение корректно отделило авторский текст от слов песни. То есть Trint может быть успешно использован при расшифровке разговоров с участием нескольких лиц.
Trint умеет распознавать голоса
Справа от текста есть поле для его верификации. Поставленная в этом месте галочка обозначает, что расшифровка выполнена корректно. Это удобная функция для командной работы — в дальнейшем, если кто-то будет вносить правки, то сервис укажет, кем и когда был изменен текст.
Для того, чтобы начать совместную работу, существует базовая функция «Поделиться».
Trint может быть использован для командной работы
Созданный текстовый файл можно импортировать в виде субтитров в загруженное видео.
Для этого существует раздел Create captions. В нем можно дополнительно корректировать текст и устанавливать временные метки для его появления на экране.
Для этого существует раздел Create captions. В нем можно дополнительно корректировать текст и устанавливать временные метки для его появления на экране.
Создание субтитров с помощью Trint
Все эти возможности мы протестировали в демоверсии, которую можно получить на сайте Trint.
Наш вывод: прекрасное и интуитивно понятное приложение для редакций СМИ или переводческих бюро.
Для индивидуальной работы может быть использовано, если вы занимаетесь активным фрилансом. Для редкого применения Trint нецелесообразен — подписка достаточно дорогая.
Месячный стартовый пакет для одного пользователя стоит $80.
При условии единоразовой оплаты годовой подписки цена будет ниже — $52 ($624 за 12 месяцев)
Otter
Otter.ai — это приложение для транскрибации на основе искусственного интеллекта, которое позволяет работать с аудио- и видеозаписями в режиме реального времени. Оно позиционируется как дешифровальщик рабочих митов и онлайн-переговоров, поскольку умеет превращать в текст разговоры по мере их ведения.
После тестирования мы пришли к выводу, что сервис с успехом может использоваться еще в нескольких областях:
- Для проведения видеоинтервью. Otter.ai могут использовать рекрутеры, чтобы сосредоточиться на собеседнике, не беспокоясь о ведении заметок.
- Для записи лекций и семинаров. Приложение успешно записывает выступление докладчика, поэтому студентам больше не нужно просить чужие конспекты или прибегать к стенографированию.
- Запись судебных заседаний и слушаний. Это отличный инструмент для всех участников — от адвокатов до присяжных заседателей.
Для теста мы использовали базовый бесплатный тариф.
В принципе, со своей задачей (расшифровать видео с YouTube) приложение справилось неплохо. Были небольшие огрехи (например, в первом предложении потеряно слово “violence”, а в последнем вместо “Just me and you” ИИ написал “just mean”), которые можно исправить вручную.
Расшифровка видеофайла в Otter
Но мы поняли, что для таких целей использовать Otter неразумно. Он действительно заточен под другие задачи.
Резюме транскрибации трейлера в Otter
Приложение можно подключить к Google Meet, Microsoft Teams, Zoom или Slack.
Оно умеет:
- отслеживать календарь встреч;
- подтягивать в расшифровку спикеров из ваших контактов;
- отправлять уведомления, когда вас упоминают или назначают вам какие-то действия;
- генерировать короткие резюме встреч и рассылать его всем присутствующим;
- анализировать все миты по ключевым словам;
- публиковать сводки встреч (дата, количество участников, основные спикеры, обсуждаемые темы).
Otter может записывать ваши встречи в Google Meet
Кроме того, в корпоративной версии приложения есть отдельный чат в котором можно уточнить у ИИ, были ли вы упомянуты в разговоре на котором не присутствовали и какие решения были приняты во время встречи. Это незаменимая функция для сотрудников компаний, которые работают на удаленке и находятся в других часовых поясах.
Индивидуальный чат с ИИ в Otter
Наш вывод: удобное приложение для компаний с большим количеством фрилансеров “на борту”. Но для индивидуального использования имеет мало практического смысла. Зачем забивать гвозди микроскопом?
Otter имеет четыре тарифных плана:
- Basic: бесплатно 30 минут транскрибации в месяц;
- Pro: $9,17 за каждого пользователя в месяц;
- Business: $20 за каждого пользователя в месяц;
- Enterprise (для крупных компаний): цену назначают разработчики в зависимости от комплекта необходимых функций и возможности доработки под индивидуальные запросы.
Beey
Beey — это доступное и очень простое в использовании приложение для транскрибации, которое может стать отличным выбором для пользователей с ограниченным бюджетом (студентов, ютуберов, начинающих журналистов).
Сервис предоставляет 30 бесплатных минут расшифровки аудиофайлов для желающих протестировать возможности ИИ.
Мы воспользовались этим правом и можем озвучить особенности сервиса.
- Высокая точность стенографирования. Мы проверили корректность записи англо- и немецкоязычных голосовых файлов и не нашли ни единой ошибки. Как обстоит дело с транскрибацией менее распространенных в интернете языков (всего их заявлено 30) , сказать не можем.
- Быстрая транскрибация. На расшифровку нашего файла понадобилось 85 секунд.
- Машинный перевод. Полученный документ можно перевести на 20 языков.
- Удобный интерфейс. Файлы загружаются быстро и легко, их можно редактировать и делиться результатами с другими участниками.
- Отсутствие месячного тарифа. Сервис можно использовать с той нагрузкой, которая удобна пользователю. Одна минута ИИ-транскрибации стоит €0,13 (+НДС).
- Удобные базовые настройки. Можно заранее указать количество спикеров и отметить, что на заднем фоне есть посторонние звуки (в нашем случае музыка со словами).
Настройки Beey
Пожалуй, Beey сделал лучший текстовый вариант предложенного нами трейлера. ИИ потерял всего одно слово “Who”. В остальных проблемных местах, где голос вокалиста накладывается на голос диктора, всё расшифровано правильно.
Кроме того, у пользователя есть возможность добавить субтитры на видео.
Блок настроек для выведения субтитров через Beey
Настроек очень много, но даже если их не менять, ИИ по умолчанию все сделает корректно и быстро. Для новичков это самый подходящий вариант из протестированных нами.
Наш вывод: мы можем смело рекомендовать Beey всем, кто хочет автоматизировать рутинные действия и высвободить время для творческих задач.