Es noticia
"La voz permite al usuario manejar dispositivos con pantalla muy pequeña"
  1. Tecnología
creador del asistente de voz de samsung gear

"La voz permite al usuario manejar dispositivos con pantalla muy pequeña"

Vlad Sejnoha es Jefe de la Oficina Técnica de Nuance. Su departamento ha creado el asistente de voz para el reloj inteligente presentado por Samsung

Foto: Vlad Sejnoha, Jefe de la Oficina Técnica de Nuance (Foto: Gigaom.com)
Vlad Sejnoha, Jefe de la Oficina Técnica de Nuance (Foto: Gigaom.com)

En la pasada feria tecnológica de Berlín, la IFA, que se ha celebrado recientemente, Samsung aprovechó para presentar ante el mundo su primer reloj inteligente, bautizado como Samsung Gear. La coreana entraba así de lleno en el sector de los smartwatches, que está llamado a ser uno de los dispositivos punteros en los próximos años.

Además de, obviamente, dar la hora, Samsung Gear permitirá al usuario hacer y recibir llamadas, tomar fotografías, consultar el correo electrónico y navegar por internet. Como parte de sus características y para facilitar el acceso a los contenidos, el smartwatch estará dotado de un asistente de voz, desarrollado por la norteamericana Nuance.

Esta compañía está especializada en software basado en la voz: desde sistemas de identificación hasta programas de dictado para profesionales médicos, pasando por asistentes como el implantado en Samsung Gear. Hemos hablado con Vlad Sejnoha, Jefe de la Oficina Tecnológica de Nuance, supervisor de las áreas de investigación y desarrollo de Nuance.

¿Por dónde se empieza a construir un sistema de asistencia por voz?

Cuando hablamos de una interfaz de conversación, nos referimos en realidad a varios procesos: primero, la comunicación de lo que quiere el usuario, seguido de un diálogo para asegurar que la persona y el dispositivo se entienden mutuamente; después, laplanificación y razonamiento de cómo conseguir esos objetivos y finalmente la ejecución de las acciones que permiten alcanzarlos.

La parte comunicativa se consigue de forma fácil y natural a través del lenguaje: la tecnología ASR (reconocimiento automático del lenguaje) decodifica los sonidos. Después, otra denominada NLU (comprensión del lenguaje natural)interpreta lasecuencia de palabras y la convierte en fórmulas lógicas de las que se puede deducir las intenciones y desdeos del usuario.

La última fase de la interacción, la de respuesta, está basada en la tecnología NLG (generación de lenguaje natural) y también es importante. El dispositivo normalmente tiene que devolver algún tipo de feedback o pedir más información, algo que también se hace con la voz.

¿Qué ventajas aporta el asistente de voz que incluye Samsung Gear?

Con este sistema integrado, el usuario podrá interaccionar más fácilmente con el dispositivo, especialmente cuando esté en movimiento y con las manos ocupadas.

Me explico: el tamaño y el formato de un reloj inteligente suponen una serie de desafíos que debemos superarpara que el usuario aproveche todoel potencial de esta tecnología que se puede llevar puesta.La voz da la capacidad al usuario para manejar un dispositivo de este tipo, accediendoa funcionalidad compleja y a contenidos sin tener que recordar una secuencia de comandos que debe pulsar.

¿Qué tipo de desafíos son?

Sobre todo, el tamaño de la pantalla. Con una pantalla tan pequeña no puedes utilizar un modelo de interacción que fue desarrollado para un móvil o un ordenador.

Los demás son los mismos que encontramos hace unos años con los teléfonos móviles: la potencia del procesador, la duración de la batería, la calidad de los micrófonos instalados, la conexión a internet y los filtros que deben estar preparados para neutralizar el ruido de fondo. Pero hemos adquirido mucha experiencia trabajando precisamente en esos teléfonos y también en tabletas, televisiones y coches.

Al contrario que otros asistentes de voz, como Siri, el sistema de Samsung Gear es capaz de aprender gradualmente del usuario. ¿Cómo se consigue esto?

Sí, esto continuará avanzando a medida que los asistentes aprendan y se adapten a nuestras preferencias. Nuestra tecnología es capaz de aprender adaptándose a la voz, el vocabulario, la localización y los hábitos de su usuario.

¿Cómo de cerca está este asistente de ser consideradointeligencia artificial?

Estamos muy cerca de conseguir una precisión y rendimiento similares a la humana en aspectos concretos, aunque estamos lejos si lo miramos en conjunto. Sobre todo por que esta evolución se produce a medida que evoluciona la tecnología.

Por ejemplo, nuestra habilidad para transcribir el dictado de un doctor con un marcado acento en un ambiente ruidoso ya es extremadamente buena, igual que nuestra habilidad para entender datos médicos y lo que conllevan. Pero aún hay mucho camino que recorrer hasta alcanzar el nivel humano de reconocimiento, entendimiento y razonamiento general.

¿Cómo ven el futuro de esta tecnología?

Nosotros creemos quela experiencia de manejo de dispositivos con la voz será cada vez más real gracias al aumento en el poder de computación y de procesamiento de datos. Cuando los asistentes de voz se conviertan en asesores de voz nos volveremos más dependientes de su involucramiento en nuestras vias. Nuestras relaciones se volverán más importantes y el trabajo para hacerlas más reales sin duda también lo serán.

¿Qué obstáculos hay para que eso llegue?

En el área del comprensión del lenguaje natural, la payor parte de los componentes que ya tenemos se han desarrollado de forma aislada como parte de investigaciones académicas independientes. Esto suponedos grandes desafíos, una vez que las mejores piezas han sido seleccionadas.

El primero, juntarlas en una cadena integrada que transforme palabras en significados: el resultado obtenido en una fase debe ser un factor entendible en la siguiente, algo que no ocurre necesariamente cuando utilizas componentes desarrollados de forma independiente.

El segundo, y quizá el más difícil, sea lidiar con el problema de la ambigüedad. Cada uno de los componentes puede dar múltiples resultados, de los que solo algunos tienen sentido durante toda la cadena. Hay que conseguir el significado final global que se pretendía, sin reventar la computación por el camino.

¿En qué sectores hay más potencial para estos sistemas?

Desde la perspectiva de negocio, estamos presentesen el área sanitaria, en consumo, en educación, en el sector bancario... Claro que los usuarios quieren tener al día su agenda y mandar mensajes a sus amigos, pero también quieren tener controladas sus cuentas, pagar las facturas, hacer compras y muchas otras cosas. Lo que nosostros siempre nos preguntamos es: "¿qué querrá hacer el usuario a lo largo del día?".

También tenemos en cuenta el análisis dedatos personales. Imagina un mundo de wereables(dispositivos que se llevan encima, como relojes o gafas) que actúan como sensores de datos internos y externos. Ahora imagina que esos datos se envían continuamente a la nube a la nube: dónde estamos, qué hora es, el ambiente acústico a nuestro alrededor, el clima que tenemos, nuestro ritmo cardiaco, nuestros ritmos de sueño, nuestras rutinas de ejercicio, temperatura de la piel, velocidad a la que nos movemos...

Si creamos algoritmos y filtros inteligentes que trabajan conesa información, sin duda emergerán una serie de patrones de los que no éramos conscientes.

Esta misma semana hemos conocido que el nuevo modelo de iPhone incluirá un sensor de huella digital para desbloquear el terminal ¿Puede la voz convertirse en otro sustituto de las contraseñas numéricas?

Sí, desde luego. En general, la tecnología biométrica tiene mucho sentido porque es una forma conveniente y natural de identificación, basándose en quién eres. Estas dos tecnologías biométicas (huella y voz) garantizan altos niveles de seguridad en lo que se refiere a la identificación del usuario.

A día de hoy, ya tenemos sistemas para reconocer a una persona por su voz, eliminando la necesidad de utilizar códigos PIN, contraseñas opreguntas de seguridad al emplear dispositivos, call centers, apps y webs.Grandes empresas, entre ellas algunos bancos, los utilizanpara detectar automáticamente intentos de fraude en sus centros atención telefónica, para hacer más rápido el acceso de sus clientes y para renovar automáticamente las contraseñas de sus empleados.

¿Qué aspectos de la voz se miden con estos sistemas para que sean seguros?

Lo que hacenesencialmente es comprobar que una persona es quien dice que es basándose en las carcaterísticas únicas de su huella de voz. Para ello,analizanmuestras de voz y registranla forma y longitud del tracto vocal, además del tono y el ritmo de conversación. Esta serie de características en conjunto se llaman huella de voz.

Cuando un cliente se registra en el sistema, se recoge una muestra de voz y se extrae una huella que se almacena para usarla en el futuro.Al llamar el cliente de nuevo, se recoge una segunda muestra que se compara con la huella almacenada. La comparación genera una tasa de coincidencia con la huella existente. Así, la llamada se acepta, permitiendo acceso al sistema, o se rechaza si la coincidencia es escasa. La tecnología es lo suficientemente avanzada como para reconocer una voz aunque haya sufrido cambios por culpa por ejemplo de un resfriado o de la edad.

¿Qué ventajas tendría este sistema, comparado con las contraseñas que utilizamos ahora? ¿Y con otros parámetros biométicos?

Puesto que una huella de voz es casi imposible de imitar, es infinitamente más segura que una tarjeta de crédito o un código PIN. Por otro lado, resulta menos invasivo y rápido que los cuestionarios de identificación, mejorando el ahorro de las empresas y la experiencia de los clientes.

En cuanto a la comparación con aspectos como la huella dactilar, es el único parámetro biométrico que se puede identificar a distancia, por lo que resulta ser el más conveniente.

En la pasada feria tecnológica de Berlín, la IFA, que se ha celebrado recientemente, Samsung aprovechó para presentar ante el mundo su primer reloj inteligente, bautizado como Samsung Gear. La coreana entraba así de lleno en el sector de los smartwatches, que está llamado a ser uno de los dispositivos punteros en los próximos años.

Tecnología Samsung
El redactor recomienda