Milestone Systems lanza un nuevo Modelo de Lenguaje de Visión para automatizar el análisis de vídeo

Publicado: 9/1/2026

La compañía Milestone Systems ha lanzado un Modelo de Lenguaje de Visión (VLM) avanzado, desarrollado sobre NVIDIA Cosmos Reason, que introduce nuevas capacidades de inteligencia artificial generativa para la comprensión automática de contenidos de vídeo. El nuevo modelo impulsa dos soluciones: una herramienta de resumen de vídeo integrada en el software de gestión XProtect y un VLM como servicio dirigido a desarrolladores y terceros.

El resumen de vídeo de Milestone automatiza los flujos de trabajo y reduce la fatiga por falsas alarmas.

Los sistemas de vídeo actuales capturan grandes cantidades de datos, y revisar las grabaciones sigue siendo una tarea laboriosa y, en gran medida, manual. Con la nueva herramienta de resumen de vídeo de Milestone Systems, un complemento generativo con inteligencia artificial para XProtect Smart Client, los usuarios y operadores ahora pueden confiar en un producto especializado que automatiza los flujos de trabajo del operador, ahorra tiempo valioso y reduce significativamente la fatiga por falsas alarmas. Los primeros informes indican que el resumen de vídeo podría reducir la fatiga por falsas alarmas del operador hasta en un 30%.

La herramienta analiza las imágenes captadas por las cámaras, describe los eventos relevantes y permite buscar información basada en el contenido visual, sin depender de marcas de tiempo ni de etiquetado manual. Además, los resúmenes pueden marcarse, filtrarse e integrarse con las reglas y eventos existentes de XProtect, facilitando flujos de trabajo más eficientes y centrados únicamente en eventos relevantes.

Inteligencia de vídeo como servicio para desarrolladores

Junto a esta solución, Milestone ha presentado Hafnia VLM como servicio (VLMaaS), una propuesta que ofrece acceso mediante API a inteligencia de vídeo lista para producción. Dirigido a desarrolladores, integradores y socios tecnológicos, este servicio permite incorporar capacidades avanzadas de análisis visual y generación de información sin necesidad de desplegar ni mantener infraestructuras propias de inteligencia artificial.

Además, VLMaaS está diseñado para acelerar el desarrollo de soluciones basadas en IA generativa, reduciendo drásticamente el esfuerzo necesario para ajustar y operar modelos complejos. Según la compañía, el uso del servicio puede suponer hasta 70 veces menos trabajo frente al entrenamiento y ajuste de un modelo VLM propio. El servicio funciona bajo un modelo de pago por uso, sin grandes inversiones iniciales, y cumple con normativas como el RGPD y la Ley de IA de la Unión Europea.

IA responsable

Ambas soluciones se apoyan en Hafnia VLM, entrenado y optimizado con más de 75.000 horas de vídeo real, obtenidas de forma responsable en Europa y Estados Unidos. El proceso de preparación de datos se ha realizado con NVIDIA Cosmos Curator, y la plataforma puede desplegarse tanto en la nube como en centros de datos regionales. Milestone subraya que todo el entrenamiento cumple con el RGPD y la Ley de IA de la Unión Europea, con linaje de datos completamente auditable.

Andrew Burnett, director de tecnología interino de Milestone Systems, señaló que “con el Modelo de Lenguaje de Visión como Servicio y el resumen de vídeo para XProtect, estamos abordando algunos de los cuellos de botella más complejos: la sobrecarga de vídeo y el trabajo manual que consume mucho tiempo. Los operadores obtienen información inmediata directamente en XProtect; los desarrolladores obtienen acceso prioritario a la API a inteligencia lista para producción sin necesidad de formación a medida ni infraestructura compleja”.

Dado que este modelo está especializado en vídeo de tráfico real y optimizado con datos de fuentes responsables, los clientes pueden confiar en los resultados, implementar con seguridad y optimizar todas las soluciones existentes. Es la forma más rápida, avanzada e impactante de convertir el vídeo en resultados prácticos, señala la compañía.

Milestone Systems lanza un nuevo Modelo de Lenguaje de Visión para automatizar el análisis de vídeo

Inteligencia de vídeo como servicio para desarrolladores

IA responsable

ARTÍCULOS: Seguridad

Tyxal+ de Delta Dore, la nueva generación de alarmas profesionales 3 en 1 para la seguridad conectada

El proyecto SPUCS desarrolla arquitecturas de software para dispositivos inteligentes más seguros, privados y transparentes

La preparación interna reduce las brechas de ciberseguridad en edificios, según un informe de IFMA

ENTREVISTAS: Seguridad

Petr Kosek, experto en ciberseguridad de 2N

Ángel Sánchez, director de Desarrollo de Negocio y Prescripción de FERMAX

David Gastón, responsable de Prescripción Iberia de 2N

TV: Seguridad

Presentación del concepto EyeComfort de Signify

Tesa Assa Abloy presenta sus novedades en SICUR 2020

Plataforma Mobotix 7 en SICUR 2020

NOTICIAS: Seguridad

Hikvision refuerza la seguridad de los edificios públicos de Catarroja con una solución integral

Alianza entre Ring e iLOQ para integrar la plataforma iLOQ 5 Series+ en la Mobile Security Tower

2N amplía su ecosistema tecnológico con partners de integración para sus soluciones IP