Новый AI-видеогенератор EMO от Alibaba заставляет фотографии говорить и петь

Китайская транснациональная компания Alibaba, наиболее известная своими операциями в области электронной коммерции, также активно инвестирует в проекты технологического развития. Исследователи из Института интеллектуальных вычислений компании продемонстрировали свой новый генератор видео с искусственным интеллектом EMO.

EMO, или Emote Portrait Alive, — это «выразительная система создания портретных видео на основе звука», которая превращает одно неподвижное эталонное изображение и голосовой звук в анимированное видео аватара с выражениями лица и позами.

Среди многочисленных примеров, созданных командой, — взятая сгенерированная искусственным интеллектом женщина в солнцезащитных очках из дебютного выступления OpenAI в Соре и песня Дуа Липы «Don’t Start Now». К счастью, этот персонаж — одно из наименее устрашающих творений Соры .

Другой пример показывает созданную искусственным интеллектом фотографию Моны Лизы из произведения да Винчи и ее пения «Цветы» Майли Сайрус в исполнении YUQI. В другом клипе Одри Хепберн поет кавер на трек Эда Ширана. YouTube -канал RINKI собрал все демо-клипы Alibaba и масштабировал их до 4K. (видео для России не работает, попробуйте через просмотр из другой страны)

Важнейшей частью EMO является то, что она может синхронизировать губы в синтезированном видеоклипе с реальным звуком, поэтому, что немаловажно, модель поддерживает песни на нескольких языках. Он также работает со многими художественными стилями, будь то фотография, живопись или мультфильм в стиле аниме. Он также работает с другими аудиовходами, например с обычной речью.

Теоретически аудиовход также не должен быть «аутентичным». Буквально на этой неделе Adobe продемонстрировала новую генеративную платформу искусственного интеллекта, которая может создавать музыку из текстовых подсказок . И, как хорошо знают такие знаменитости, как Тейлор Свифт, людям очень легко создавать реалистично звучащие голоса .

Модель, построенная на основе стабильной диффузии, не является первой в своем роде, но, возможно, наиболее эффективной. В этой первоначальной попытке есть заметные недостатки, в том числе довольно сильное смягчающее воздействие на кожу людей и иногда резкие движения рта. Тем не менее, общая точность движений губ в ответ на входной звук поразительна.

Полное исследование Института интеллектуальных вычислений Alibaba опубликовано на Github , а соответствующая исследовательская статья доступна на ArXiv .

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

The following two tabs change content below.

Aleksandr Fidller

Журналист, инженер, автор многочисленных статей и публикацией о киноиндустрии. По всем вопросам сотрудничества, публикаций писать в телеграм - https://t.me/fidller

Оставить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.