
En entorns complexos, els humans poden entendre el significat de la parla millor que la IA, perquè no només utilitzem les orelles, sinó també els ulls.
Per exemple, veiem que la boca d’algú es mou i pot saber intuïtivament que el so que escoltem ha de venir d’aquesta persona.
Meta AI treballa en un nou sistema de diàleg AI, que és ensenyar a la IA a aprendre a reconèixer correlacions subtils entre allò que veu i escolta en una conversa.
VisualVoice aprèn de manera similar a com els humans aprenen a dominar noves habilitats, permetent la separació de la parla audiovisual aprenent indicis visuals i auditius de vídeos sense etiquetar.
Per a les màquines, això crea una millor percepció, mentre que la percepció humana millora.
Imagineu -vos que podreu participar en reunions de grups a MetaVerse amb companys de tot el món, unint -se a reunions de grups més petites a mesura que es mouen per l’espai virtual, durant el qual els reverbs i els timbres del so ho fan segons l’entorn d’ajustar -se en conseqüència.
És a dir, pot obtenir informació d’àudio, vídeo i text alhora i té un model d’enteniment ambiental més ric, permetent als usuaris tenir una experiència de so “molt wow”.
Posada Posada: JUL-20-2022