Investigan la validez de los datos sintéticos en el entrenamiento de los modelos de aprendizaje automático

Publicado: 7/11/2022

Enseñar a una máquina a reconocer las acciones humanas tiene muchas aplicaciones potenciales, como la detección automática de trabajadores que se caen en un sitio de construcción o permitir que un robot doméstico inteligente interprete los gestos de un usuario. Un grupo de investigadores del Instituto Tecnológico de Massachusetts (MIT), del MIT-IBM Watson AI Lab y de la Universidad de Boston han estudiado si los datos sintéticos son buenos para entrenar los modelos de aprendizaje automático.

Los investigadores crearon un nuevo conjunto de datos sintéticos compuestos por 150 categorías de acción, con 1.000 videoclips por categoría.

Actualmente, los investigadores entrenan los modelos de aprendizaje automático utilizando grandes conjuntos de datos de videoclips que muestran a humanos realizando acciones. Sin embargo, no solo es costoso y laborioso recopilar y etiquetar millones o miles de millones de vídeos, sino que los clips a menudo contienen información confidencial, como rostros de personas o números de matrículas, cuyo uso podría violar las leyes de protección de datos o derechos de autor.

Datos sintéticos para entrenar los modelos de aprendizaje automático

Para evitar esto, los investigadores están recurriendo a conjuntos de datos sintéticos, los cuales están hechos por una computadora que usa modelos 3D de escenas, objetos y humanos para producir rápidamente muchos clips variados de acciones específicas, sin los posibles problemas de derechos de autor o preocupaciones éticas que vienen con los datos reales.

La duda recae en si estos datos sintéticos son válidos para entrenar los modelos de aprendizaje automático. Por ello, los investigadores construyeron un conjunto de datos, llamado Preentrenamiento y Transferencia de Acción Sintética (SynAPT), compuesto por tres conjuntos de datos disponibles públicamente de videoclips sintéticos que capturaron acciones humanas. SynAPT contenía 150 categorías de acción, con 1.000 videoclips por categoría y se seleccionaron tantas categorías de acción como fuera posible, como personas saludando o cayendo al suelo.

Una vez que se preparó el conjunto de datos, lo usaron para entrenar previamente tres modelos de aprendizaje automático para reconocer las acciones. El preentrenamiento implica entrenar a un modelo para una tarea a fin de darle una ventaja para aprender otras tareas.

Probaron los modelos preentrenados utilizando seis conjuntos de datos de clips de vídeo reales, cada uno de los cuales capturaba clases de acciones que eran diferentes a las de los datos de entrenamiento.

Resultados de la investigación

Los resultados mostraron que los modelos entrenados sintéticamente funcionaron incluso mejor que los modelos entrenados con datos reales para vídeos que tienen menos objetos de fondo.

A partir de estos resultados, los investigadores quieren incluir más clases de acción y plataformas de vídeo sintético adicionales en el trabajo futuro, creando eventualmente un catálogo de modelos que han sido entrenados previamente utilizando datos sintéticos.

Este trabajo podría ayudar a los investigadores a usar conjuntos de datos sintéticos de tal manera que los modelos logren una mayor precisión en las tareas del mundo real. También podría ayudar a los científicos a identificar qué aplicaciones de aprendizaje automático podrían ser las más adecuadas para el entrenamiento con datos sintéticos.

Investigan la validez de los datos sintéticos en el entrenamiento de los modelos de aprendizaje automático

Datos sintéticos para entrenar los modelos de aprendizaje automático

Resultados de la investigación

ARTÍCULOS: Edificios Inteligentes

Nuevas herramientas y servicios para la adopción del indicador de preparación inteligente (SRI) con el proyecto SRI-Enact

FlectoLine, la fachada inteligente y biomimética que mejora la eficiencia energética y el confort interior en edificios

Las tecnologías innovadoras del proyecto Pharaon ayudan a mejorar la calidad de vida y la salud de las personas mayores en Europa

ENTREVISTAS: Edificios Inteligentes

Fernando Vázquez, vicepresidente de Home & Distribution en Iberia de Schneider Electric

Miguel Florido, Country Manager de Helvar España

Emil Daoura, Head of Research and Development de ROBOT

TV: Edificios Inteligentes

Jornada técnica Siemens: 'Transformando la vivienda en un hogar inteligente'

Conferencia Internacional de Prensa de ABB en IFA Berlin 2019

Trilux Light Campus muestra la iluminación del futuro en Colonia

NOTICIAS: Edificios Inteligentes

Abierta una encuesta sobre los avances de la Directiva de eficiencia energética de edificios en la UE

CodeSteer, asistente inteligente que guía a los modelos LLM para aumentar su precisión y eficiencia

El programa Cervera destinará 60 millones para fomentar proyectos de I+D+I entre centros tecnológicos