iProfesionaliProfesional

Videollamadas: Google anuncia la cura para las interrupciones

Estos problemas se han dado desde que se inventó este sistema, no obstante, nunca habían sido tan masivos como durante las semanas de confinamiento
04/05/2020 - 08:24hs
Videollamadas: Google anuncia la cura para las interrupciones

Dos personas o más mantienen una conversación por videollamada. Sin embargo, la conexión no es buena, lo que provoca que la comunicación se vaya interrumpiendo. No llega al extremo de cortarse, pero la imagen de los participantes se queda congelada y se generan algunos silencios.

Estos problemas se han dado desde el principio que se inventó este sistema, no obstante, nunca habían sido tan masivos como durante las semanas de confinamiento por el coronavirus.

Millones de personas que han tenido que recurrir al teletrabajo o que contactan con sus familiares y amigos a través de computadoras , tabletas o teléfonos inteligentes pareden este problema.

Conscientes de lo molesta que es esta situación, los técnicos de Google han diseñado una tecnología que es capaz de suavizarla llenando los huecos con fragmentos de discurso preparado por la inteligencia artificial. Este desarrollo está pensado para las videollamadas de la aplicación Duo.

La voz de los usuarios en las comunicaciones de este tipo se va compactando en pequeños paquetes que se comprimen a través de Internet. Cuando estos bloques llegan al otro extremo, el software tiene que reordenarlos.

El conflicto se origina cuando algunos paquetes desaparecen por el camino. Entonces, aparecen las lagunas. ¿Es eso muy frecuente? Según los portavoces de Google, Duo tiene que lidiar con esta falla en el 99% de las llamadas. Y en una décima parte de estas comunicaciones se pierde más del 8% del audio.

La solución se ha construido sobre una red neuronal de DeepMind, la empresa que fue adquirida por Google, que puede producir un discurso realista. Para entrenar a esta herramienta, llamada WaveNetEQ, se empleó un gran conjunto de datos de cien voces grabadas mientras se expresaban en 48 idiomas. Los expertos completaron automáticamente secciones cortas basadas en patrones comunes del habla.

Como Duo es una aplicación que está encriptada de extremo a extremo, WaveNetEQ se ejecuta en los dispositivos, no en la nube. Cuando se inicia la videollamada, el sistema empieza a aprender cuáles son las características de la voz de los individuos que están interviniendo.

Así fabrica automáticamente segmentos de contenido que incluso coinciden con el estilo del orador. De modo que si se extravía un paquete, el recambio está listo al instante y puede ser insertado en el lugar preciso.

La inteligencia artificial de Duo no pronuncia frases, ni siquiera palabras completas. Lo que sabe hacer es reproducir sílabas, una tras otra. Así pues, no existe el peligro de que las máquinas acaben suplantando a la gente en sus charlas por videollamada y que, literalmente, pongan en su boca algo que no han dicho. Al menos, por ahora.