El proyecto europeo XMOS aplica la inteligencia artificial y los sensores de radar para hacer más inteligentes las interfaces de voz

Arquitectura cliente ligero XMOS:

El control por voz facilita la gestión de los dispositivos inteligentes y su evolución se centra en ser más preciso, de tal manera que permita a los dispositivos saber cuándo el usuario requiere privacidad o cuándo se quiere interactuar con ellos. Bajo esta línea, el proyecto europeo XMOS ha desarrollado una tecnología con inteligencia artificial (IA) para mejorar y potenciar el control por voz.

El proyecto europeo XMOS ha desarrollado una interfaz de voz que no requiere de un procesador de aplicaciones host.

Liderado por la empresa XMOS Limited (Reino Unido), el proyecto se ha centrado en desarrollar tecnologías centrales para crear interfaces de voz y sistemas de agregación de sensores de bajo costo. Su objetivo es eliminar la necesidad de utilizar un procesador de aplicaciones host en aplicaciones de bajo costo, de consumo e IoT.

Para ello, contaron con un presupuesto de 2.983.500 euros, de los cuales 2.088.450 euros han sido financiados por el programa de investigación e innovación Horizonte 2020 de la Unión Europea. Durante tres años (enero 2019-marzo 2021), el proyecto XMOS desarrolló una tecnología en la que se probaron las técnicas de interferencias de inteligencia artificial y proporcionó al cliente la posibilidad de procesar información de manera local, reduciendo los problemas de privacidad y de ancho de banda, al tiempo que permitió a los desarrolladores agregar nuevas características.

Arquitectura del cliente ligero

El proyecto XMOS diseñó un cliente ligero conectado a la nube de bajo costo, que integra una interfaz de voz de campo lejano, inteligencia artificial y personalización del usuario. Asimismo, el cliente ligero se compone de tres bloques principales, que son la agregación de una interfaz de sensor, la capacidad de procesamiento de señales para transformar los datos del sensor en información útil y, por último, la conectividad de red para transportar las salidas de datos a un servidor basado en la nube.

La arquitectura del cliente ligero es flexible y permite agregar nuevas capacidades en las interfaces de voz. Foto: XMOS Limited.

Por otro lado, XMOS ha conseguido que la arquitectura del cliente ligero sea flexible, permitiendo a los desarrolladores la posibilidad de agregar nuevas capacidades y de optimizar los modelos de inteligencia artificial utilizados para aplicarlos en una amplia gama de casos de uso.

La flexibilidad de la arquitectura se ha conseguido a través del procesador XMOS xcore. Este dispositivo comprende un núcleo de procesamiento central de dos bloques de núcleos lógicos interconectados, permitiendo consolidar casi todas las interfaces y el procesamiento en un solo dispositivo, reduciendo así los costos generales del sistema.

El procesador xcore, cuyos bloques de procesamiento se han actualizado con nuevas capacidades para admitir los requisitos de la aplicación EdgeAI, ha sido la base para desarrollar el procesador xcore.ai, componente principal de la arquitectura de la solución de XMOS. Xcore.ai proporciona las características necesarias para obtener un control por voz sin un procesador de aplicaciones host.

El módulo de cliente ligero ha sido probado por los clientes potenciales en IFA. Foto: XMOS Limited.

A todas estas características del módulo de cliente ligero hay que añadir sus dos placas. La primera placa corresponde al procesador AIoT, que posee unas dimensiones compactas de 55 mm x 33 mm, donde residen el procesamiento central, el wifi y los micrófonos. Por su parte, la segunda placa corresponde al sensor, que puede adaptarse a extensiones de aplicaciones específicas.

Procesamiento de voz fiable

Para conseguir un buen reconocimiento de voz es necesario que el sistema sea capaz de identificar la voz humana del resto de ruidos que se producen alrededor. Gracias a un conjunto de algoritmos de funciones de procesamiento de señales digitales (DSP), XMOS ha logrado eliminar el ruido de fondo, las fuentes de interferencias, así como los ecos de las estancias, obteniendo una voz más clara y nítida.

El módulo integra el procesador xcore.ai que puede consolidar casi todas las interfaces y el procesamiento en un solo dispositivo, entre otras capacidades. Foto: XMOS Limited.

Asimismo, se investigaron tres áreas del procesamiento de voz de inteligencia artificial integrado: localización, identificación del hablante y detección de palabras claves. En las tres áreas, la tecnología central ha sido prototipada y se ha demostrado que es viable, por lo que los algoritmos y los modelos están disponibles para su explotación.

Tras las diferentes pruebas, se ha demostrado que los clientes muestran un mayor interés en la personalización de la detección de las palabras clave, ya que, de esta forma, los clientes pueden personalizar su interfaz de voz, desde el punto de vista de diferenciación de marca, y activar el sistema con menos potencia, garantizando así el ahorro de energía.

Con estas premisas, XMOS ha creado un modelo funcional de detección de palabras clave, que se pueden ejecutar en tiempo real en un entorno informático con recursos muy limitados y un motor de palabras clave pequeño y de bajo consumo optimizado en xcore.ai.

Nuevas funcionalidades para la interfaz de voz

El proyecto XMOS no solo se centró en mejorar la calidad de la interfaz de voz, sino que además incorporó nuevas funcionalidades mediante la investigación de técnicas con sensores, que utilizan la tecnología de radar de corto alcance. El radar permite a un sistema monitorizar su entorno y detectar la presencia humana, manteniendo la privacidad de las personas al no capturar imágenes visuales con una cámara.

XMOS implementó un sensor radar para detectar a las personas cuando entran en una sala, con el fin de proporcionar funcionalidades automáticas personalizadas. Foto: XMOS Limited.

XMOS también desarrolló un pequeño módulo de radar de 60 GHz, el cual fue capaz de detectar a las personas que se encontraban en una habitación y las clasificó por tipos, niños o adultos. La ventaja de esta función es la posibilidad de que un electrodoméstico podría tener la capacidad de desactivar ciertas funcionalidades dependiendo si hay cerca un niño o un adulto.

Posteriormente, se mejoraron los algoritmos de procesamiento del radar, permitieron al módulo identificar a una persona en la habitación como parte de un grupo de personas preinscritas, de modo que se puede desarrollar un dispositivo para establecer una funcionalidad automática para cada usuario.

En el interior de la línea blanca del centro se encuentra ubicado el cliente ligero de bajo costo. Foto: XMOS Limited.

Por otro lado, a la interfaz de voz también se le puede incorporar los sensores de cámaras. El problema que conlleva el uso de las cámaras es que éstas requieren una conexión a Internet para enviar las imágenes a un sistema de inferencia de IA basado en la nube. XMOS ha conseguido procesar las imágenes y ejecutar las inferencias en el borde, para que los datos de imágenes se queden en el propio sensor, aumentando la privacidad y cumpliendo con la normativa de la protección de datos.

Este procesamiento de imágenes se obtiene a través de una serie de herramientas de inteligencia artificial desarrolladas en el proyecto. XMOS creó un cliente ligero demostrador que utiliza una cámara conectada directamente al dispositivo xcore.ai para capturar y clasificar imágenes. La aplicación puede detectar si hay un rostro humano en el campo de visión de la cámara y validarlo con la fotografía prerregistrada de un usuario, sin almacenar los datos de las imágenes capturadas, para que el dispositivo pueda tomar las acciones de manera local, como, por ejemplo, encender un aparato solo cuando el propietario está presente.

El resultado final de este proyecto es la creación de la solución de procesador de voz con dos micrófonos XFV3510 de bajo costo, que incorpora nuevas funcionalidades como la detección de personas. El proyecto europeo XMOS ha conseguido evolucionar las interfaces de voz para ofrecer un mejor servicio, respetando en todo momento la privacidad de los usuarios.

 
 
Patrocinio Oro
Patrocinio Plata
Patrocinio Bronce
Salir de la versión móvil