StoryEditor

Stačí jedna fotografia a umelá inteligencia rozospieva aj Monu Lisu

14.03.2024, 11:40
Autor:
iDnes.cziDnes.cz

Ako sa stále viac vylepšujú schopnosti generovania obsahu za pomoci umelej inteligencie, ukazuje sa, že si budeme musieť dávať veľký pozor na to, čomu budeme veriť. Nový projekt vedcov z Alibaby napríklad ukazuje, ako sa za pomoci AI z jednej fotografie človeka vytvorí pomerne realisticky vyzerajúca tvár, ktorá hovorí alebo zaspieva, čo jej zadáte.

Projekt Sora od spoločnosti OpenAI ukázal, že generatívna umelá inteligencia dokáže na základe jednoduchého textového zadania vygenerovať pomerne realistickú filmovú scénu. Jedným z prvých výtvorov tohto systému bolo aj ázijské dievča prechádzajúce sa po meste, ktoré sa tak stalo symbolom tejto generatívnej AI.

Teraz tento produkt umelej inteligencie vzali odborníci z Inštitútu pre inteligentné IT, ktorý prevádzkuje Alibaba Group, a naučili ju „rozprávať a spievať“. Sora, ako dievča prezývame, ale nebola jediná, na ktorej si vyskúšali schopnosti svojho difúzneho modelu, ktorý nazvali EMO. Skratka vychádza z názvu Emote Portrait Alive, čo je ich systém na generovanie portrétnych videí pomocou difúzneho modelu.

AI Lady from SORA FOTO: Humanaigc.github.io/emote-portrait-alive/

Difúzne modely
Tréning difúznych modelov sa vykonáva tak, že sa do obrázkov pridáva šum, ktorý sa následne učí model odstraňovať. Pri generovaní obrázkov model využíva tento proces obnovy, a vytvára tak realistické obrazy z pôvodného šumu.

 

Vedci z inštitútu uvádzajú, že stačí poskytnúť fotografiu a zvukový súbor a EMO následne dokáže generovať AI videá, kde môžu ľudia hovoriť a spievať.

image

Stačí spojiť zvukovú stopu s fotografiou a umelá inteligencia vygeneruje spievajúcu tvár. FOTO: Institute For Intelligent Computing, Alibaba Group

„Naša metóda dokáže generovať hlasové videá s expresívnymi výrazmi tváre a rôznymi polohami hlavy a zároveň dokáže generovať videá s ľubovoľnou dĺžkou trvania v závislosti od dĺžky vstupného videa,“ vysvetľujú autori. Ako je na priloženom videu vidieť, výrazy sú veľmi dôveryhodné.

Celý proces je podľa jeho tvorcov nastavený tak, aby sa v prvej fáze extrahovali rysy z predloženej snímky, a výsledok je potom použitý na vytvorenie série pohyblivých snímok. Druhou je fáza difúzneho procesu, kedy vopred natrénovaný zvukový kodér spracováva zvukové vložky.

Ako to celé prebieha, popisujú tvorcovia v tomto obrázku:

image

Popis postupu generovania videa zo zdrojovej snímky a zvukovej stopy. FOTO: Institute For Intelligent Computing, Alibaba Group

01 - Modified: 2024-05-01 20:50:11 - Feat.: - Title: Ukrajinský rezort diplomacie predstavil hovorkyňu vytvorenú umelou inteligenciou 02 - Modified: 2024-04-29 22:00:00 - Feat.: - Title: Nový iPad Pro bude ešte výkonnejší. OLED verzia môže prísť s čipom M4 a vylepšenou AI 03 - Modified: 2024-04-28 08:00:00 - Feat.: - Title: Dokument od Netflixu čelí kritike. Tvorcovia mali použiť materiál vygenerovaný umelou inteligenciou, obviňujú ich z manipulácie 04 - Modified: 2024-04-25 22:00:00 - Feat.: - Title: Technológiu nákupov bez pokladní od Amazonu stráži AI. Nakupujúcich nesledujú utajene zamestnanci 05 - Modified: 2024-04-26 10:01:32 - Feat.: - Title: Umelá inteligencia si uletela: Takto podľa nej vyzerajú typickí ľudia z európskych krajín. Najviac ťa pobavia Česi a Taliani
menuLevel = 2, menuRoute = style/tech, menuAlias = tech, menuRouteLevel0 = style, homepage = false
05. máj 2024 14:25