*

X

Google Pixel Buds: los posiblemente revolucionarios audífonos que traducen 40 idiomas en tiempo real

Medios y Tecnología

Por: pijamasurf - 10/04/2017

Google ha develado unos audífonos capaces de traducir 40 idiomas en tiempo real, celebrados como revolucionarios

Los eventos de tecnología donde se anuncian nuevos productos suelen estar cargados de autolisonja y marketing, estratégicamente planeados para reemplazar un producto viejo con uno nuevo, sin que realmente el nuevo presente alguna mejora o alguna función relevante, pero suficientemente bien presentados para hacer que los consumidores busquen adquirir el nuevo gadget -no porque lo necesitan realmente, sino porque les da estatus y demás. En este caso raro, Google ha anunciado un producto que parece ser realmente relevante y ha generado cierta excitación -aunque no sin exageración, como en el caso del sitio Engadget, que se atreve a decir que los Google Pixel Buds cambiaran la comunicación global para siempre.

Google ha develado sus audífonos Pixel Buds que competirán con los Air Buds de Apple, con la función adicional importante de que pueden traducir unos 40 idiomas en tiempo real, acaso con menos de 1 segundo de retraso con una buena conexión. Los audífonos son wireless, funcionan vinculados al nuevo teléfono de Google, Pixel 2, y además cuentan con una interfaz para activar Google Asisstant, el asistente virtual que responde tus dudas y preguntas accediendo a los mares de data de Google en tiempo real también. En otras palabras este aparato es ideal para presentarse en una reunión con personas de otros países y poder parecer más inteligente de lo que uno es -más allá de que esto sea bueno o malo, es sin duda una ventaja para las relaciones globales.

El traductor de los Pixel Buds funciona avisándole con un comando de voz estilo "quiero aprender japonés" e inmediatamente traduce todo lo que dices en tu idioma al japonés (o a cualquiera de sus 40 idiomas). O, en una conversación, captura el audio y lo va repitiendo en tu idioma en tiempo real. Sin duda, esto es algo sumamente útil para personas que viajan mucho o hacen negocios internacionales. Hasta hace poco esta tecnología hubiera sido simplemente molesta, pero los avances de traducción de Google Translate han llegado a un punto en el que, sin ser perfectos, ya son bastante relevantes para tener una buena comprensión. Y, teniendo en cuenta, todo lo que Google está invirtiendo en machine learning, esto debe seguir mejorando.

Te podría interesar:
La evolución de las técnicas de manipulación audiovisual generará nuevas problemáticas en nuestro futuro mundo digital

Ya son familiares y de uso corriente las múltiples opciones que algunas apps y redes sociales nos ofrecen para retocar nuestras imágenes y videos según la emoción que deseemos transmitir o la realidad que queremos filtrar.

Sin embargo, gracias a los avances en los campos de la inteligencia artificial –en específico, las redes neuronales-- y el procesamiento de gráficos, se han desarrollado nuevas herramientas de manipulación de audio y video que permitirán la creación de videograbaciones realistas donde cualquiera podría aparecer confesando cualquier cosa. Trump revelando su pasión por las aguas doradas, Felipe Calderón su alcoholismo o Peña Nieto su analfabetismo. Este es el futuro de las noticias falsas.

Varios equipos de investigación estadounidenses se encuentran capturando y sintetizando los diferentes aspectos audiovisuales de la comunicación humana. Entre ellos destaca la Universidad de Stanford con su software “Face2Face”, capaz de manipular video de figuras públicas como George W. Bush, Putin o Trump y sobreponer en tiempo real palabras nunca pronunciadas, utilizando únicamente una webcam.

Si a lo anterior se le añade un sintetizador de voz, la ilusión de veracidad se duplica. La Universidad de Alabama en Birmingham ha investigado y desarrollado herramientas de alteración de voz en un esfuerzo por diseñar sistemas de autenticación más seguros, pues se ha demostrado que con un audio de 3 a 5 minutos tomado de la radio o de la web un agresor puede sintetizar una voz capaz de engañar humanos y sistemas de seguridad biométricos utilizados por bancos y smartphones.

Como muestra del método para animar imagen --la boca, específicamente-- a partir de una pista de audio la Universidad de Washington elaboró el proyecto Sintetizando a Obama, en el cual los estudiantes tomaron el audio de un discurso de Obama y lo usaron para animar su cara en un video distinto mediante el empleo de redes neuronales artificiales que analizaron, sintetizaron y reprodujeron la cadencia de los movimientos al hablar.

No obstante, las diferentes técnicas aún no están perfeccionadas. Las expresiones faciales no parecen naturales, las voces aún suenan robotizadas, y las luces y las sombras, así como la perspectiva del entorno pueden delatar su fabricación. Pero gracias al avance tecnológico, eventualmente se podrá recrear fielmente el sonido y la apariencia de una persona. Esta sofisticación abre una amplia gama de problemáticas potenciales a nivel individual y global. Un agresor podría suplantar a un familiar o a uno mismo para perjuicio personal, o bien, podría suplantar a algún líder político-militar y desatar un conflicto imprevisto, sin contar los retos periodísticos para mantener la credibilidad.

Existen suficientes pruebas de los estragos de la desinformación. La tecnología tiene el potencial de revolver más el río para ver qué pescadores ganan.