Apple patenta sistema que detecta movimientos de la boca y lee los labios cuando registra comandos de voz
Las distorsiones son también otro de los problemas a los que se enfrenta Siri.
Apple ha ideado un sistema para detectar los movimientos de la boca y leer los labios del usuario durante los comandos de voz en entornos con interferencias y que se aplicaría a dispositivos que soporten el asistente digital de la compañía.
La compañía dispone de un asistente inteligente, Siri, que registra peticiones como la de escribir y enviar un mensaje, fijar recordatorios o llevar a cabo acciones como llamar a un contacto o compartir la llegada a un lugar con otro usuario.
Sin embargo, tal y como recuerda Apple Insider, este encuentra ciertas dificultades para entender las peticiones de los usuarios en diferentes escenarios, por ejemplo, cuando hay ruido en el lugar desde el que se está utilizando. Las distorsiones son también otro de los problemas a los que se enfrenta Siri.
La compañía tecnológica ha ideado un sistema de reconocimiento de voz que detecta diferentes datos de movimiento, generado por las vibraciones durante el habla, que recoge en una patente firmada por los desarrolladores Eddy Zexing Liang y Madhu Chinthakunta, que Apple presentó en enero en Estados Unidos y que se ha publicado este jueves.
"Cuando un usuario habla, la boca, la cara, la cabeza y el cuello se mueven y vibran. Los sensores de movimiento, como acelerómetros o giroscopios, pueden detectar estos movimientos y consumen relativamente poca energía, en comparación con los sensores de audio, como los micrófonos", se puede leer en este documento.
Este sistema de reconocimiento sería capaz de comparar con movimientos de la boca anteriormente aprendidos y contrastar si lo que solicita el usuario coincide con palabras o frases de comandos de voz previos para encontrar coincidencias. Es decir, leería los labios de los usuarios para entender su petición.
Los dispositivos en los que estuviese implementado este sistema de reconocimiento de voz serían capaces de reconocer comandos como 'Oye, Siri' y otras órdenes simples o habituales, como 'siguiente canción'. Estas acciones se reflejarían en el iPhone después de vincularlo a los equipos electrónicos.
Para cumplir con sus objetivos, Apple debería analizar un gran conjunto de datos sobre los movimientos que los usuarios realizan para pronunciar cada palabra y crear perfiles de voz, para que el sistema pueda diferenciar tanto la pronunciación de cada usuario como el idioma en que se realizan estas peticiones.