En entorns complexos, els humans podem entendre el significat de la parla millor que la IA, perquè fem servir no només les nostres orelles, sinó també els nostres ulls.
Per exemple, veiem que la boca d'algú es mou i podem saber intuïtivament que el so que sentim ha de provenir d'aquesta persona.
Meta AI està treballant en un nou sistema de diàleg d'IA, que consisteix a ensenyar a la IA a aprendre també a reconèixer les correlacions subtils entre el que veu i escolta en una conversa.
VisualVoice aprèn de manera similar a com els humans aprenen a dominar noves habilitats, permetent la separació de la parla audiovisual mitjançant l'aprenentatge de senyals visuals i auditives a partir de vídeos sense etiquetar.
Per a les màquines, això crea una millor percepció, mentre que la percepció humana millora.
Imagineu poder participar en reunions de grup al metavers amb col·legues d'arreu del món, unint-vos a reunions de grups més reduïts a mesura que es mouen per l'espai virtual, durant les quals les reverbs i els timbres sonors de l'escena ho fan d'acord amb l'entorn.
És a dir, pot obtenir informació d'àudio, vídeo i text alhora, i té un model de comprensió ambiental més ric, que permet als usuaris tenir una experiència de so "molt sorprenent".
Hora de publicació: 20-jul-2022