Изследователи от Вашингтонския университет са разработили алгоритъм за машинно самообучение, който позволява на компютрите да превръщат аудиоклипове във видеоизображение на човешки устни, които се движат в синхрон с произнесените думи. Технологията, които звучи доста плашещо в епохата на фалшивите новини, е илюстрирана с изкуствено генериран клип на бившия американски президент Барак Обама, който е практически неразличим от автентичните негови речи.
Системата работи на принципа на невронните мрежи и анализира предишни видеа с участието на съответния човек, изучавайки движението на неговите/нейните устни. В случая с Обама самообучението е на базата на 14 часа клипове, което не е проблем, когато става дума за един от най-сниманите хора на планетата през последното десетилетие. След като анализът приключи, системата вече може да синтезира реч, като визуализира движенията на устните на съответния човек, монтирайки ги върху главата му във вече съществуващо видео.
Според Ира Кемелмахер-Шлицерман от училището по компютърни науки на Вашингтонския университет разработката вероятно ще бъде използвана в системи за видеочат като Skype и Facebook Messanger в бъдеще, за да се намали трафикът на данни при лоша връзка. В технологията също така е интегрирано и леко закъснение на репликите, което позволява на изкуствения интелект да прогнозира каква ще е следващата дума на говорещия и съответно да коригира движенията на устните и мимиката му.