Искусственный интеллект научился извлекать звук из фотографий

Фото - Искусственный интеллект научился извлекать звук из фотографий
Команда исследователей Северо-Восточного университета под руководством профессора электротехники и информатики Кевина Фу разработала инструмент на основе искусственного интеллекта для извлечения звука из фотографий и беззвучных видео.
Некоторые считают, что отключение микрофона или отсутствие возможности чтения по губам перед камерой помогают скрыть произносимые слова и другие звуки поблизости. Однако с развитием искусственного интеллекта такие методы стали менее надежными, так как новая технология позволяет получить звуковые частоты из статических фотографий или видео благодаря тщательному визуальному анализу.

Это может показаться фантастическим, но Кевин Фу утверждает, что сумел реализовать данный проект. Идея пришла к нему, когда один кинокритик отметил, что извлечение звука из разогретого стекла в сериале «Грань» — это псевдонаучный вымысел. Профессор загорелся возможностью создания подобной технологии, поскольку его лаборатория постоянно занимается разработками, которые многие люди называют невозможными.
Представьте, что кто-то снимает видео в TikTok, выключает звук и дублирует музыку. Вам когда-нибудь было интересно, что они на самом деле говорят? Или кто-то говорил позади них? Теперь вы действительно можете уловить то, что говорят за кадром
, — © Кевин Фу.
Для реализации проекта команда исследователей создала новый инструмент Side Eye на основе искусственного интеллекта. Он может анализировать фотографии на предмет практически незаметных искривлений света. Они появляются при разговоре из-за колебаний в технологии оптической стабилизации, которую устанавливают в современных смартфонах и фотоаппаратах. После чего искусственный интеллект расшифровывает их и преображает в аудиозапись.

При использовании дорогого глобального затвора извлеченный звук получается достаточно тихим и неразборчивым. Однако стандартный роллетный затвор, считывающий пиксели по столбцам или строкам, усиливает эффект при каждом продвижении и значительно улучшает детализацию звука. При наличии множества последовательных фотографий искусственный интеллект может передать полноценный разговор.

Единственный недостаток новой разработки — это обязательное наличие минимального освещения и большого количества файлов для анализа, хотя второе относительно некритично. Инструмент также способен определить участников конкретного разговора, если ранее получил примеры голоса соответствующего человека. Пока эта функция имеет очень низкий уровень точности, особенно для массового применения.

Кевин Фу считает, что данная технология может положительно изменить цифровой мир, несмотря на то, что создает серьезные проблемы для экспертов по кибербезопасности и открывает новые возможности для преступников. Например, юристы, правоохранительные органы или адвокаты смогут использовать Side Eye в уголовных делах при маленьком количестве точных доказательств, но с подходящим набором фотографий или видеозаписей для получения алиби.