El nuevo enfoque de aprendizaje multimodal de Unist simplifica el entrenamiento de sistemas de IA

Investigadores de Unist.

Un equipo de investigación del Instituto Nacional de Ciencia y Tecnología de Ulsan (Unist), en Corea del Sur, ha presentado un novedoso enfoque de aprendizaje automático que permite a los sistemas de inteligencia artificial (IA) facilitar el aprendizaje con diferentes tipos de datos mediante el entrenamiento en una sola modalidad. Este avance elimina la necesidad de una alineación y correspondencia exhaustivas de datos, que suelen requerirse en el aprendizaje multimodal, reduciendo así los costos asociados con la construcción de conjuntos de datos.

Los investigadores han demostrado que el aprendizaje multimodal mejora el rendimiento de los sistemas de IA.

El aprendizaje multimodal implica la comprensión y el procesamiento integrados de diversos tipos de datos, como audio, imágenes y texto. Tradicionalmente, un aprendizaje multimodal eficaz depende en gran medida de la alineación y la correspondencia de datos entre estas modalidades, un proceso que requiere una cantidad considerable de tiempo y recursos. El rendimiento suele verse afectado cuando escasean los datos claramente emparejados.

El enfoque propuesto permite el aprendizaje multimodal incluso con datos no emparejados. Esta innovación puede reducir significativamente los costos y el tiempo en el desarrollo de sistemas de IA, como asistentes de voz que interpretan emociones mediante el análisis del habla y las expresiones faciales, o sistemas de IA médica que combinan imágenes de tomografía computarizada con historiales clínicos para el diagnóstico.

Aprendizaje multimodal

El equipo realizó experimentos que demostraron que los modelos de texto pueden facilitar el entrenamiento de modelos de imagen y que los modelos de audio pueden mejorar el rendimiento de los modelos de lenguaje.

Estos experimentos lograron una mayor precisión que los métodos existentes, lo que confirma la eficacia del aprendizaje multimodal. Cabe destacar que incluso combinaciones con correlaciones inherentes débiles, como audio e imágenes, mostraron mejoras significativas en el rendimiento.

Este enfoque tiene un gran potencial de aplicación en campos donde obtener conjuntos de datos alineados resulta complicado, como la atención médica, la conducción autónoma y los asistentes inteligentes de inteligencia artificial.

 
 
Patrocinio Plata
Patrocinio Bronce
Salir de la versión móvil