Realistična lica koja govore napravljena samo od audio snimka i slike osobe

DIRFA (diferentne i realistične facijalne animacije) predstavlja program zasnovan na veštačkoj inteligenciji koji od audio snimka i fotografije pravi 3D video osobe sa realističnim i prikladnim facijalnim animacijama sinhronizovanim sa govorom, piše Science Daily.

Taj program unapređuje postojeće pristupe, koji se muče sa varijacijama položaja i kontrolom emocija. Program je u tom cilju treniran na više od milion audiovizuelnih snimaka preko 6.000 ljudi kako bi se predvideli signali iz govora i povezali sa izrazima lica i pokretima glave.

Istraživači kažu da DIRFA može dovesti do novih primena širom raznih industrija i oblasti, uključujući zdravstvo, pošto može obezbediti sofisticiranije i realističnije virtuelne asistente i četbotove, unapređujući korisnička iskustva.

Takođe bi mogao biti moćno sredstvo za individue sa govornim i facijalnim smetnjama, pomažući im da prenesu svoje misli i emocije putem izražajnih avatara ili digitalnih prezentacija, poboljšavajući njihovu sposobnost komunikacije.

„Naš rad donosi revoluciju u svet multimedijske komunikacije omogućavajući kreiranje veoma realističnih video snimaka osoba koje govore, spajajući tehnike kao što su veštačka inteligencije i mašinsko učenje“, kaže profesor Lu Šiđen,

„Naš program takođe unapređuje raniju tehnologiju pošto su video snimci pomoću našeg programa kompletni sa tačnim pokretima usana, živim izrazima lica i prirodnim položajima glave, samo uz pomoć audio snimaka i statičnih slika“.

Prvi autor, dr Vu Žungljang kaže: „Govor ima mnoštvo varijacija.Pojedinci izgovaraju iste reči različito u različitim kontekstima, uključujući varijacije u trajanju, amplitudi, tonu itd. Štaviše, pored lingvističke sadržine, govor prenosi mnoštvo informacija o govornikovom emotivnom stanju i identitetu, kao što su pol, starost, etnička pripadnost i čak osobine ličnosti“.

(Telegraf Nauka/Science Daily)