Investigadores del MIT crean un sistema de IA que permite planificar tareas visuales complejas • CASADOMO

Investigadores del Instituto de Tecnología de Massachusetts (MIT) han desarrollado un enfoque híbrido basado en inteligencia artificial que permite planificar tareas visuales a largo plazo, como la navegación de robots o el ensamblaje multirrobot, con una eficacia significativamente superior a la de los métodos tradicionales.

MIT — El nuevo sistema de IA permite generar planes para tareas complejas a largo plazo con el doble de eficacia que métodos tradicionales, evaluado en seis escenarios de cuadrícula 2D.

El sistema combina modelos de visión-lenguaje (VLM) con planificadores formales tradicionales, creando un marco denominado planificación formal guiada por VLM (VLMFP). Primero, un modelo especializado llamado SimVLM analiza imágenes del entorno, describe el escenario en lenguaje natural y simula posibles acciones para alcanzar un objetivo. Luego, un segundo modelo, GenVLM, traduce estas simulaciones a un lenguaje de planificación formal conocido como Lenguaje de Definición del Dominio de Planificación (Pddl), generando archivos listos para ser procesados por solucionadores clásicos que calculan un plan paso a paso.

Resultados de éxito en escenarios complejos

El sistema genera dos tipos de archivos Pddl: uno de dominio, que define el entorno, las acciones válidas y las reglas generales, y otro de problema, que establece los estados iniciales y los objetivos de cada tarea. Esta estructura permite que VLMFP se generalice a escenarios nuevos, resolviendo problemas que no había encontrado previamente y adaptándose a cambios en entornos dinámicos sin necesidad de reentrenamiento completo.

Durante las pruebas, SimVLM alcanzó un 85% de éxito en la simulación de acciones, mientras que VLMFP logró una tasa de éxito promedio del 60% en seis tareas de planificación 2D y superior al 80% en dos tareas 3D, incluyendo colaboración multirrobot y ensamblaje robótico. Además, generó planes válidos para más del 50% de escenarios no vistos previamente, superando ampliamente los métodos de referencia.

El desarrollo del sistema incluyó un diseño cuidadoso de los datos de entrenamiento de SimVLM, permitiendo que el modelo aprendiera a comprender problemas y objetivos sin memorizar patrones específicos de los escenarios. Esta estrategia mejoró la capacidad de generalización y escalabilidad, haciendo que el sistema sea útil para entornos complejos donde las condiciones pueden cambiar constantemente.

Sistema VLM

El enfoque combina la capacidad de los VLM para interpretar imágenes con la precisión y robustez de los planificadores formales, ofreciendo una herramienta flexible que automatiza la creación de planes fiables a largo plazo. Esto tiene aplicaciones potenciales en robótica, conducción autónoma y coordinación de múltiples agentes, así como en escenarios donde se requiere planificación visual compleja.

Los investigadores planean continuar desarrollando VLMFP para manejar entornos más complejos y explorar métodos que reduzcan posibles errores de interpretación de los modelos de visión-lenguaje, conocidos como alucinaciones. A largo plazo, sistemas como VLMFP podrían actuar como agentes de IA capaces de utilizar herramientas adecuadas para resolver problemas aún más sofisticados, integrando planificación visual y generativa en aplicaciones prácticas de robótica y entornos dinámicos.