Interfaze de voz domótica • CASADOMO

Un grupo de investigación de la Universidad de Sevilla
ha creado un interfaz de voz en lenguaje natural para un entorno domótica.

La tecnología domótica ha comenzado a convertirse
en parte integral de las viviendas modernas. Muchos de los hogares de nueva
construcción incluyen tecnología domótica como parte de
las comodidades básicas que ofrecen. Sin embargo, su expansión
no termina ahí: construirse un entorno domótico está mucho
más al alcance del bolsillo de lo que se pudiese pensar inicialmente.
Si a las ventajas de la tecnología domótica añadimos un
interfaz de voz en lenguaje natural, tendremos el hogar moderno ideal, donde
el afortunado residente podrá utilizar y programar sus electrodomésticos
verbalmente y sin necesidad de aprender comandos artificiales. Esto que parece
sacado de algún magazín futurista es hoy una realidad. El equipo
de investigación en Procesamiento del Lenguaje Natural Julietta, de la
Universidad de Sevilla, ha implementado un sistema de diálogo en lenguaje
natural para un entorno domótico.

DHomme

La investigación e implementación del sistema han
sido financiadas por el proyecto DHomme, uno de los proyectos del V Programa
Marco Europeo. Desde un punto de vista funcional, el sistema se ha diseñado
utilizando una arquitectura de agentes inteligentes distribuidos. Cada uno de
los dispositivos controlados se convierte en un agente que contribuye al sistema
global mediante su funcionalidad básica (lo que se convierte en las funciones
primitivas del entorno). Por ejemplo, una bombilla puede apagarse o encenderse.
Estos agentes están conectados usando la propia red eléctrica
de la casa, por lo que no es necesario instalar un cableado nuevo y específico.
Actualmente, el sistema soporta los estándares X10 y Lonworks.

El núcleo del sistema reside en un ordenador conectado
asimismo a la red eléctrica mediante conexión X10 o Lonworks.
En este ordenador existen los agentes que se encargan de la manipulación
del lenguaje natural (reconocimiento de voz, comprensión del lenguaje
natural, generación del lenguaje y síntesis del habla), así
como los agentes específicos de gestión de conocimiento (que asimismo
permiten la configuración, gestión y monitorización del
entorno domótico) y gestión de acciones (que controlan los dispositivos
específicos y añaden funcionalidad adicional a las capacidades
primitivas del sistema, como por ejemplo bajar el volumen de la televisión
cuando suena el teléfono). El equipo de investigación cuenta con
una casa virtual, donde puede evaluarse el rendimiento del sistema, además
de una maqueta-demo con dispositivos reales que responden a los comandos del
usuario.

El sistema puede controlar cualquiera de los dispositivos del
entorno domótico. La implementación actual permite encender y
apagar todos los dispositivos conectados al sistema, además de preguntar
sobre su estado actual, su cantidad o su existencia en las distintas habitaciones
o grupos de habitaciones:

Usuario: Cuantas luces hay encendidas?
Sistema: Hay dos luces encendidas.
Usuario: Apágalas todas.
Sistema: (Apaga todas las luces)

Los dispositivos cuentan o pueden contar con descriptores que
los identifiquen. El sistema puede además informar al usuario de posibles
errores conceptuales:

Usuario: Enciende la luz azul del salón.
Sistema: No hay ninguna luz azul en el salón.
Usuario: ¿Dónde hay luces azules?
Sistema: Hay una luz azul en el garaje y otra en el recibidor.
Usuario: Enciéndelas.
Sistema: (Enciende las luces azules del garaje y el recibidor)

También son posibles los comandos múltiples, incluso
con interacciones más complejas:

Usuario: Sube la luz del comedor y baja la luz del salón.
Sistema: ¿A qué porcentaje quiere que suba la luz del comedor?
Usuario: Al 85%.
Sistema: (Sube la luz del comedor al 85%)
Sistema: ¿A qué porcentaje quiere que baje la luz del salón?
Usuario: Al 50%.
Sistema: (Baja la luz del salón al 50%)

Como se observa en los ejemplos anteriores, el sistema resuelve
fenómenos tan complejos como las referencias anafóricas, e incluso
corrección inmediata de errores por parte del usuario:

Usuario: Enciende la luz de la entrada.
Sistema: (Enciende la luz de la entrada)
Usuario: No, no, la del salón.
Sistema: (Apaga la luz de la entrada y enciende la del salón)

Aunque la implementación actual no cuenta con dispositivos
programables como reproductores de vídeo y DVD o sistemas de aire acondicionado,
según los miembros de Julietta la ampliación del sistema para
este tipo de dispositivos es perfectamente posible, y no requiere mayor complejidad.

Aplicaciones y Ventajas

La mayoría de los entornos domóticos de hoy utilizan
consolas con un interfaz gráfico, además de una conexión
telefónica a través de la cual el usuario tiene acceso restringido
a determinadas funciones del sistema, mediante menús numéricos.
Las aplicaciones y ventajas de un interfaz de voz son múltiples. Además
de permitir acceso al sistema sin necesidad de consolas, mejoraría la
calidad y eficacia del acceso telefónico al sistema obviando los menús
numéricos.

Uno de los mayores logros de esta implementación es la
capacidad para conversar en un lenguaje natural, que permite a los usuarios
libertad total para expresarse, además de un interfaz cómodo y
sencillo. Comandos equivalentes a los siguientes serían igualmente procesados:

– "Enciende la luz del garaje"
– "Quiero que enciendas la luz del garaje"
– "¿Me enciendes la luz del garaje por favor?"
– "La luz del garaje, por favor"
– "Enciéndeme la luz del garaje, por favor"

Al igual que un sin fin de posibilidades. Esta flexibilidad permite
al usuario no tener que preocuparse de memorizar comandos particulares o una
sintaxis determinada para poder utilizar el sistema. Según los miembros
de Julietta, el sistema también podría encargarse de meta-funciones
como la inclusión de nuevos dispositivos en el entorno, o la personalización
del interfaz (voz, velocidad, patrones de comportamiento, preferencias, etc).

Entre otras aplicaciones, los interfaces de voz facilitarían
considerablemente labores rutinarias para personas discapacitadas físicamente.
Hay un gran número de posibilidades. En el caso de personas invidentes
o tetrapléjicas, la casa podría tener información adicional
propia sobre sí misma, además de controlar otros dispositivos
que quizás en un entorno visual no serían conectados al sistema.

Aunque inicialmente el sistema sólo ha sido implementado
en un entorno domótico, los investigadores de la Universidad de Sevilla
ya han comenzado a trabajar en nuevas aplicaciones. Actualmente se trabaja en
otro proyecto del V Programa Marco donde el sistema de diálogo se ha
implementado como Operador Telefónico Automático (Proyecto Siridus).
Entre otras opciones, el equipo esta considerando la implementación del
sistema en entornos inmóticos y cajeros automáticos.