Nuevos modelos de computación en la época de los interfaces vocales

06 Febrero 2017

Imagen Destacada
Ha pasado menos de una década desde que las primeras APP, vinculadas al Smartphone y más concretamente al iPhone, empezaron a ser utilizadas de forma masiva por los usuarios. No se trataba solamente de adaptar las aplicaciones para que pudieran ser utilizadas desde un dispositivo más pequeño, sino que suponía un importante cambio en la forma en la que las aplicaciones se concebían. Si bien la mayor diferencia parecía ser el diseño del interfaz, los cambios eran más profundos y afectaban a capas más internas del diseño de los servicios informáticos: era necesario pensar mucho la funcionalidad de cada pantalla, limitar el número de opciones disponibles de cada una de ellas, y organizar el contenido de forma que las rutas para llegar a cada funcionalidad fueran claras. Se trató por tanto de un cambio que iba más allá de la mera cosmética y de las implicaciones que suponía un nuevo formato de dispositivo. Y es que como ya pasó en los años 80, cuando aparecieron los primeros interfaces gráficos, los cambios en la forma en la que nos relacionamos con los sistemas informáticos suelen tener implicaciones más profundas en toda la cadena de desarrollo de los propios servicios.

Javier Carbonell

Nos encontramos en la actualidad en la antesala de un cambio de gran importancia, tan importante como los dos mencionados anteriormente y que posiblemente tenga un mayor impacto en la forma en la que se diseñan y desarrollan los sistemas: la integración de asistentes vocales. Visto de una forma superficial el cambio no parece demasiado grande, tan solo supondría incluir un sistema de identificación de voz, y básicamente lo que antes se introducía por medio del teclado ahora pasaría a introducirse por medio del habla.

Sin embargo, al igual que pasaba con las revoluciones anteriores, las implicaciones son más profundas. En este post mostramos tres implicaciones, o más bien tres retos, que este nuevo paradigma de relación con los sistemas supondrá en el desarrollo de nuevas aplicaciones.

En primer lugar, en la computación tradicional el número de posibles acciones a realizar estaban limitadas y eran fácilmente reconocibles por los usuarios, o bien mediante la utilización de unas instrucciones muy precisas como ocurría con los interfaces escritos, o mediante unas opciones muy intuitivas en el caso de los interfaces gráficos. Sin embargo, ahora eso no es así, en un lenguaje natural, el número de palabras o expresiones que pueden ser utilizadas para ordenar una acción pueden ser muchas, pueden variar de forma importante entre los distintos usuarios, y además pueden tener un significado equívoco dependiendo de aspectos externos como el contexto o incluso el tono en el que se utilicen. El usuario desea ser entendido, pero tampoco está dispuesto a aprender de antemano convencionalismos, más aún cuando maneja decenas de aplicaciones, sino que espera hablar al sistema en su propio lenguaje, lo cual es un aspecto que debe ser tenido en cuenta desde el inicio del diseño.

Otro aspecto que también supone una diferencia con respecto a los sistemas convencionales es que el sistema siempre tiene que estar “atento” a que el usuario le hable. Las personas somos impulsivas y el acto de hablar no requiere una preparación previa, con lo que estamos acostumbrados a que las conversaciones sean bastante espontáneas. En el caso de asistentes virtuales enfocados al hogar como el Echo de Amazon  o Home de Google, el sonido del interior de la casa es captado y deben ser capaces de responder al usuario, que generalmente utiliza una palabra como “Alexa, dime…” para indicar que se está dirigiendo al sistema. No obstante, la alternativa de que deban estar analizando continuamente lo que se dice de forma que puedan entender el contexto o aprender, al igual que hacen los niños, o que tan solo analicen las frases dirigidas a ellos es un tema todavía no resuelto. Y es que ya se sabe que el oído es un sentido que no descansa, no lo podemos cerrar como los ojos e incluso durmiendo sigue actuando, herencia de millones de años de desarrollo en el que los sonidos nos avisaban de los peligros.

Sin embargo, la mayor diferencia con los sistemas actuales radicará en la forma en la que se consigue llegar al usuario y convencerle para que use un servicio, ya que la navegación por voz es muy diferente de la navegación gráfica y conseguir captar la atención del usuario es mucho más difícil. A este hecho hay que añadir que las tecnologías de lenguaje natural son complejas y será difícil para una pequeña empresa dominarlas, con lo cual la dependencia de la plataforma será mayor que en los ecosistemas de APP. Amazon sabe de esta realidad y por ese motivo se está posicionando y lleva una ventaja, al menos respecto al ecosistema de estos asistentes en el hogar, como se observa del listado de dispositivos presentados en el CES que incorporaban Alexa.

Nos encontramos por tanto ante un momento de cambio de paradigma que va mucho más allá del diseño de los interfaces. Una tendencia que no va a cristalizar de la noche a la mañana, se tomará su tiempo, pero que creo que impactará en el ecosistema de la Sociedad de la Información y que se verá potenciada por nuevas tendencias tecnológicas como el Internet de las Cosas. También cambiará la forma en la que los usuarios consideran a los sistemas y los verán de forma más cercana, casi como un amigo con el que nos podremos comunicar directamente e incluso discutir con la tranquilidad de que no se va a enfadar.