CASADOMO

Todo sobre Edificios Inteligentes

SÍGUENOS:
  • Inicio
  • Edificios Inteligentes
  • Domótica
  • Seguridad
  • Multimedia
  • Telecom
  • >Servicios
    • Biblioteca
    • Vídeoteca
    • Comunicaciones
    • >Congresos
      • 5 Congreso Edificios Inteligentes
      • 4 Congreso Edificios Inteligentes
      • 3 Congreso Edificios Inteligentes
      • 2 Congreso Edificios Inteligentes
      • 1 Congreso Edificios Inteligentes
  • Guía Empresas
Inicio » Edificios Inteligentes » Mejora de modelos de aprendizaje automático con una nueva técnica de análisis audiovisual sin etiquetas

Mejora de modelos de aprendizaje automático con una nueva técnica de análisis audiovisual sin etiquetas

Publicado: 08/06/2023

Un grupo de investigadores del Instituto Tecnológico de Massachussets (MIT), MIT-IBM Watson AI Lab e IBM Research, entre otros, ha desarrollado una nueva técnica para analizar datos de audio y vídeo sin etiquetar, que podría mejorar el rendimiento de los modelos de aprendizaje automático utilizados en aplicaciones como el reconocimiento de voz y la detección de objetos. Para ello, se han combinado dos arquitecturas de aprendizaje autosupervisado: aprendizaje contrastivo y modelado de datos enmascarados.

Aprendizaje automático multimodal.
La nueva técnica combina aprendizaje contrastivo y modelado de datos enmascarados.

La técnica, llamada autocodificador contrastivo audiovisual enmascarado (CAV-MAE), es un tipo de red neuronal que puede aprender a extraer y mapear representaciones latentes significativas en un espacio de alta dimensión a partir de datos acústicos y visuales mediante el entrenamiento en grandes conjuntos de datos de YouTube de clips de audio y vídeo de 10 segundos. Los investigadores consideran que la técnica es más efectiva que los enfoques anteriores porque modela explícitamente las relaciones entre los datos de audio y vídeo de una manera que no lo hacen otros métodos.

El CAV-MAE funciona aprendiendo por predicción y aprendiendo por comparación. El modelado de datos enmascarados, o el método de predicción, toma un vídeo junto con su forma de onda de audio coordinada, convierte el audio en un espectrograma y enmascara el 75% de ambos.

Los datos desenmascarados se tokenizan, se integran en codificadores de audio y vídeo separados antes de ingresar a un codificador/descodificador conjunto, donde se le pide al modelo que recupere los datos que faltan. La diferencia entre la predicción reconstruida resultante y la combinación audiovisual original se usa posteriormente para entrenar el modelo para un mejor rendimiento.

Recuperación audiovisual a través de CAV-MAE

Los investigadores probaron CAV-MAE con otros métodos de última generación en tareas de recuperación audiovisual y clasificación de eventos audiovisuales utilizando AudioSet estándar (20 K y 2 M) y conjuntos de datos VGGSound, clips cortos etiquetados y realistas, que podrían incluir múltiples sonidos. La recuperación audiovisual significa que el modelo ve el componente de audio o vídeo de un par de consultas y busca el que falta. La clasificación de eventos incluye la identificación de acciones o sonidos dentro de los datos, como una persona cantando o conduciendo un automóvil.

En general, encontraron que el aprendizaje contrastivo y el modelado de datos enmascarados son métodos complementarios. CAV-MAE fue capaz de superar las técnicas anteriores en aproximadamente un 2% para el rendimiento de la clasificación de eventos frente a modelos con computación comparable y siguió el ritmo o superó a los modelos con recursos computacionales de nivel industrial.

El modelo del equipo se clasificó de manera similar a los modelos entrenados solo con la pérdida contrastiva. Además, la incorporación de datos multimodales en el entrenamiento previo de CAV-MAE mejora en gran medida el ajuste fino de la representación de una sola modalidad a través del aprendizaje supervisado y el rendimiento en tareas de clasificación de eventos de solo audio.

Los investigadores ven su contribución del autocodificador contrastivo audiovisual enmascarado como un hito importante y un paso adelante para las aplicaciones, que se están moviendo cada vez más de la modalidad única a la multimodalidad y que requieren o aprovechan la fusión audiovisual. Tienen la hipótesis de que en el futuro podría usarse para el reconocimiento de acciones en ámbitos como los deportes, la educación, el entretenimiento, los vehículos motorizados y la seguridad pública, así como extenderse a otras modalidades.

Publicado en: Edificios Inteligentes Etiquetado como: Almacenamiento de Datos, Audio y Video, Ciencia de Datos, Inteligencia Artificial

Instagram
Newsletter
BUSCADOR
Patrocinio Oro
  • Zennio
Patrocinio Plata
  • DoorBird
  • Airzone
Patrocinio Bronce
  • Delta Dore
  • Jung Electro Ibérica
  • CHERUBINI
  • Fermax
  • 2N
  • iLOQ
  • Gira
  • Tedee
  • Dinuy
  • ADITEL
  • Electrónica OLFER
  • Zumtobel
  • OPENETICS
  • Eltako
  • inBiot
  • Schneider Electric
  • ROBOTBAS
  • Sensonet Ingeniería
  • Hikvision
  • Intesis
  • Simon
  • Helvar
Sobre CASADOMO

CASADOMO es el principal medio de comunicación on-line sobre Edificios Inteligentes.

Publica diariamente noticias, artículos, entrevistas, TV, etc. y ofrece la información más relevante y actualizada sobre el sector.

AUDITADO POR OJD
COPYRIGHT

©1999-2025 El material de CASADOMO es propiedad intelectual de Grupo Tecma Red S.L. y está protegido por ley. No está permitido utilizarlo de ninguna manera sin hacer referencia a la fuente y sin permiso por escrito de Grupo Tecma Red S.L.

SOBRE GRUPO TECMA RED

CASADOMO pertenece a Grupo Tecma Red, el grupo editorial español líder en las temáticas de Sostenibilidad, Energía y Nuevas Tecnologías en la Edificación y la Ciudad.

Portales de Grupo Tecma Red:

  • CASADOMO - Todo sobre Edificios Inteligentes
  • CONSTRUIBLE - Todo sobre Construcción Sostenible
  • ESEFICIENCIA - Todo sobre Eficiencia Energética
  • ESMARTCITY - Todo sobre Ciudades Inteligentes
  • SMARTGRIDSINFO - Todo sobre Redes Eléctricas Inteligentes

 Logo Grupo Tecma Red Quiénes somos    Publicidad    Notas de Prensa    Condiciones de uso    Privacidad    Cookies    Contactar