ШІ заговорив у ElevenLabs будь-яким голосом різними мовами
Створення інструменту, який робить контент доступним різними мовами та будь-яким голосом, — шляхетна місія. Саме їй присвячено стартап ElevenLabs, який понад рік вивчає можливості голосового штучного інтелекту.
ElevenLabs — компанія, що прагне усунути лінгвістичні перепони в усьому світі. Для цього команда стартапу оцінює можливості машинного навчання у вирішенні таких завдань, як перетворення тексту на мовлення, а також клонування голосів.
Наша місія — зробити реальною підтримку багатомовного аудіо за запитом у сфері освіти, потокового мовлення, аудіокниг, ігор, фільмів і навіть розмов у реальному часі. Наші дослідження забезпечують не лише поточні функції платформи, а й сприяють реалізації кінцевої мети — миттєвого відтворення звуку під час розмови будь-якою мовою, — зазначено на сайті проєкту.
ElevenLab вивчає можливості голосового штучного інтелекту Джерело: https://elevenlabs.io/
Стартап ElevenLabs у 2022 році запустили найкращі друзі — Петр, колишній інженер з машинного навчання в Google, та Маті — у минулому стратег із розгортання в Palantir Technologies. До рішучих дій їх спонукав низькоякісний польський дубляж голлівудських фільмів.
Компанія, оцінена в $100 млн, вже завершила раунд фінансування серії А на суму $19 млн, який очолювали Нат Фрідман (ex-GitHub), Даніель Гросс (ex-Y Combinator) та венчурний фонд Andreessen Horowitz. Серед інвесторів проєкту — венчурні компанії Credo Ventures та Concept Ventures, співзасновники Instagram, Oculus VR, Deepmind & Inflection та Perplexity AI.
На що здатний голосовий штучний інтелект?
Команда ElevenLabs працює над створенням універсального, реалістичного та контентозалежного голосового штучного інтелекту, який здатний розмовляти більш ніж 30 мовами і сотнями вже наявних та згенерованих голосів.
Модель ElevenLabs — це не просто генератор голосу, а інструмент, що розуміє логіку та емоції, що криються за текстом. Він контекстуально пов’язує всі елементи оповіді та забезпечує автентичну інтонацію, завдяки чому мова здається користувачам максимально природною. При цьому творці особливу увагу приділяють етичній складовій досліджень: впроваджують заходи, що дозволяють дотримуватись прав інтелектуальної власності та перешкоджати неправомірному використанню голосового ШІ.
Як створювати розмовну мову в ElevenLabs Джерело: https://elevenlabs.io/
Для роботи з голосовим штучним інтелектом потрібно зареєструватися на платформі, вибрати безкоштовну або платну версію та виконати такі дії:
- вибрати відповідний голос і відредагувати налаштування;
- ввести текст, який потрібно трансформувати в аудіоконтент, будь-якою з підтримуваних мов;
- згенерувати промову у форматі аудіофайлів для завантаження та оцінити результат.
Також серед доступних продуктів ElevenLabs — голосова лабораторія для створення нових синтетичних та клонування наявних голосів, голосова бібліотека із сотнями синтетичних голосів, створених користувачами, а також робоча станція для редагування параметрів мовлення. До кінця 2023 року компанія планує представити ще один довгоочікуваний інструмент — штучний дубляж, який зможе озвучувати будь-який аудіо- чи відеоконтент іншою мовою, зберігаючи при цьому голос оригінального виконавця.
Наразі ElevenLabs підтримує 28 мов від англійської, німецької та французької до української, фінської, румунської та корейської. Серед найпопулярніших варіантів використання голосового штучного інтелекту — озвучення відеороликів, ігор, аудіокниг та чат-ботів.