Китайская транснациональная компания Alibaba, наиболее известная своими операциями в области электронной коммерции, также активно инвестирует в проекты технологического развития. Исследователи из Института интеллектуальных вычислений компании продемонстрировали свой новый генератор видео с искусственным интеллектом EMO.
EMO, или Emote Portrait Alive, — это «выразительная система создания портретных видео на основе звука», которая превращает одно неподвижное эталонное изображение и голосовой звук в анимированное видео аватара с выражениями лица и позами.
Среди многочисленных примеров, созданных командой, — взятая сгенерированная искусственным интеллектом женщина в солнцезащитных очках из дебютного выступления OpenAI в Соре и песня Дуа Липы «Don’t Start Now». К счастью, этот персонаж — одно из наименее устрашающих творений Соры .
Другой пример показывает созданную искусственным интеллектом фотографию Моны Лизы из произведения да Винчи и ее пения «Цветы» Майли Сайрус в исполнении YUQI. В другом клипе Одри Хепберн поет кавер на трек Эда Ширана. YouTube -канал RINKI собрал все демо-клипы Alibaba и масштабировал их до 4K. (видео для России не работает, попробуйте через просмотр из другой страны)
Важнейшей частью EMO является то, что она может синхронизировать губы в синтезированном видеоклипе с реальным звуком, поэтому, что немаловажно, модель поддерживает песни на нескольких языках. Он также работает со многими художественными стилями, будь то фотография, живопись или мультфильм в стиле аниме. Он также работает с другими аудиовходами, например с обычной речью.
Теоретически аудиовход также не должен быть «аутентичным». Буквально на этой неделе Adobe продемонстрировала новую генеративную платформу искусственного интеллекта, которая может создавать музыку из текстовых подсказок . И, как хорошо знают такие знаменитости, как Тейлор Свифт, людям очень легко создавать реалистично звучащие голоса .
Модель, построенная на основе стабильной диффузии, не является первой в своем роде, но, возможно, наиболее эффективной. В этой первоначальной попытке есть заметные недостатки, в том числе довольно сильное смягчающее воздействие на кожу людей и иногда резкие движения рта. Тем не менее, общая точность движений губ в ответ на входной звук поразительна.
Полное исследование Института интеллектуальных вычислений Alibaba опубликовано на Github , а соответствующая исследовательская статья доступна на ArXiv .

Aleksandr Fidller

Latest posts by Aleksandr Fidller (see all)
- Это конец Голливуда? - 17.03.2025
- Как профессионально выполнить цветокоррекцию видеоматериалов с дрона DJI - 17.03.2025
- Blackmagic Design Руководство для начинающих по DaVinci Resolve 19 - 08.03.2025