
En entorns complexos, els humans poden entendre el significat de la parla millor que la IA, perquè no només fem servir les orelles sinó també els ulls.
Per exemple, veiem la boca d'algú moure's i podem saber intuïtivament que el so que sentim ha de provenir d'aquesta persona.
Meta AI està treballant en un nou sistema de diàleg d'IA, que té com a objectiu ensenyar a la IA a aprendre també a reconèixer correlacions subtils entre el que veu i el que sent en una conversa.
VisualVoice aprèn de manera similar a com els humans aprenen a dominar noves habilitats, permetent la separació de la parla audiovisual mitjançant l'aprenentatge de pistes visuals i auditives de vídeos sense etiquetar.
Per a les màquines, això crea una millor percepció, mentre que la percepció humana millora.
Imagineu poder participar en reunions de grup al metavers amb col·legues de tot el món, unint-vos a reunions de grups més petits mentre es mouen per l'espai virtual, durant les quals les reverberacions i els timbres del so de l'escena s'ajusten a l'entorn.
És a dir, pot obtenir informació d'àudio, vídeo i text alhora, i té un model de comprensió ambiental més ric, que permet als usuaris tenir una experiència sonora "molt sorprenent".
Data de publicació: 20 de juliol de 2022