La compañía Milestone Systems ha lanzado un Modelo de Lenguaje de Visión (VLM) avanzado, desarrollado sobre NVIDIA Cosmos Reason, que introduce nuevas capacidades de inteligencia artificial generativa para la comprensión automática de contenidos de vídeo. El nuevo modelo impulsa dos soluciones: una herramienta de resumen de vídeo integrada en el software de gestión XProtect y un VLM como servicio dirigido a desarrolladores y terceros.
Los sistemas de vídeo actuales capturan grandes cantidades de datos, y revisar las grabaciones sigue siendo una tarea laboriosa y, en gran medida, manual. Con la nueva herramienta de resumen de vídeo de Milestone Systems, un complemento generativo con inteligencia artificial para XProtect Smart Client, los usuarios y operadores ahora pueden confiar en un producto especializado que automatiza los flujos de trabajo del operador, ahorra tiempo valioso y reduce significativamente la fatiga por falsas alarmas. Los primeros informes indican que el resumen de vídeo podría reducir la fatiga por falsas alarmas del operador hasta en un 30%.
La herramienta analiza las imágenes captadas por las cámaras, describe los eventos relevantes y permite buscar información basada en el contenido visual, sin depender de marcas de tiempo ni de etiquetado manual. Además, los resúmenes pueden marcarse, filtrarse e integrarse con las reglas y eventos existentes de XProtect, facilitando flujos de trabajo más eficientes y centrados únicamente en eventos relevantes.
Inteligencia de vídeo como servicio para desarrolladores
Junto a esta solución, Milestone ha presentado Hafnia VLM como servicio (VLMaaS), una propuesta que ofrece acceso mediante API a inteligencia de vídeo lista para producción. Dirigido a desarrolladores, integradores y socios tecnológicos, este servicio permite incorporar capacidades avanzadas de análisis visual y generación de información sin necesidad de desplegar ni mantener infraestructuras propias de inteligencia artificial.
Además, VLMaaS está diseñado para acelerar el desarrollo de soluciones basadas en IA generativa, reduciendo drásticamente el esfuerzo necesario para ajustar y operar modelos complejos. Según la compañía, el uso del servicio puede suponer hasta 70 veces menos trabajo frente al entrenamiento y ajuste de un modelo VLM propio. El servicio funciona bajo un modelo de pago por uso, sin grandes inversiones iniciales, y cumple con normativas como el RGPD y la Ley de IA de la Unión Europea.
IA responsable
Ambas soluciones se apoyan en Hafnia VLM, entrenado y optimizado con más de 75.000 horas de vídeo real, obtenidas de forma responsable en Europa y Estados Unidos. El proceso de preparación de datos se ha realizado con NVIDIA Cosmos Curator, y la plataforma puede desplegarse tanto en la nube como en centros de datos regionales. Milestone subraya que todo el entrenamiento cumple con el RGPD y la Ley de IA de la Unión Europea, con linaje de datos completamente auditable.
Andrew Burnett, director de tecnología interino de Milestone Systems, señaló que “con el Modelo de Lenguaje de Visión como Servicio y el resumen de vídeo para XProtect, estamos abordando algunos de los cuellos de botella más complejos: la sobrecarga de vídeo y el trabajo manual que consume mucho tiempo. Los operadores obtienen información inmediata directamente en XProtect; los desarrolladores obtienen acceso prioritario a la API a inteligencia lista para producción sin necesidad de formación a medida ni infraestructura compleja”.
Dado que este modelo está especializado en vídeo de tráfico real y optimizado con datos de fuentes responsables, los clientes pueden confiar en los resultados, implementar con seguridad y optimizar todas las soluciones existentes. Es la forma más rápida, avanzada e impactante de convertir el vídeo en resultados prácticos, señala la compañía.
