CASADOMO

Todo sobre Edificios Inteligentes

SÍGUENOS:
  • Inicio
  • Edificios Inteligentes
  • Domótica
  • Seguridad
  • Multimedia
  • Telecom
  • >Servicios
    • Biblioteca
    • Vídeoteca
    • Comunicaciones
    • >Congresos
      • 5 Congreso Edificios Inteligentes
      • 4 Congreso Edificios Inteligentes
      • 3 Congreso Edificios Inteligentes
      • 2 Congreso Edificios Inteligentes
      • 1 Congreso Edificios Inteligentes
  • Guía Empresas
Inicio » Edificios Inteligentes » El MIT y MIT-IBM Watson AI Lab crean un método de calibración de modelos lingüísticos de gran tamaño

El MIT y MIT-IBM Watson AI Lab crean un método de calibración de modelos lingüísticos de gran tamaño

Publicado: 06/08/2024

Los modelos lingüísticos de gran tamaño a veces generan respuestas inexactas, al tiempo que pueden tener demasiada confianza en las respuestas incorrectas o poca confianza en las correctas, lo que hace que sea difícil para un usuario saber cuándo se puede confiar en un modelo. Los investigadores del Instituto Tecnológico de Massachussets (MIT) y del MIT-IBM Watson AI Lab han presentado un método de calibración adaptado a modelos lingüísticos de gran tamaño.

MIT
Los investigadores han descubierto que si se entrena un modelo de Thermometer para un LLM más pequeño se puede aplicar directamente para calibrar un LLM más grande.

Su método, llamado Thermometer, implica la construcción de un modelo auxiliar más pequeño que se ejecuta sobre un modelo lingüístico de gran tamaño para calibrarlo. El Thermometer es más eficiente que otros métodos, ya que requiere menos computación que consume mucha energía, al tiempo que preserva la precisión del modelo y le permite producir respuestas mejor calibradas en tareas que no ha visto antes.

Al permitir una calibración eficiente de un modelo de lenguaje grande (LLM) para una variedad de tareas, Thermometer podría ayudar a los usuarios a identificar situaciones en las que un modelo confía demasiado en predicciones falsas, lo que en última instancia les impide implementar ese modelo en una situación en la que pueda fallar.

Calibración de los modelos LLM

La calibración de un modelo LLM suele implicar tomar muestras del modelo varias veces para obtener diferentes predicciones y luego agregarlas para obtener una mayor fiabilidad. Sin embargo, como estos modelos tienen miles de millones de parámetros, los costos computacionales de estos enfoques aumentan rápidamente.

Con Thermometer, los investigadores desarrollaron una técnica versátil que aprovecha un método de calibración clásico llamado escala de temperatura para calibrar eficientemente un LLM para una nueva tarea. En este contexto, una temperatura es un parámetro de escala que se utiliza para ajustar la confianza de un modelo para que esté en consonancia con la precisión de su predicción. Tradicionalmente, se determina la temperatura correcta utilizando un conjunto de datos de validación etiquetados de ejemplos específicos de la tarea.

Dado que los LLM suelen aplicarse a nuevas tareas, los conjuntos de datos etiquetados pueden resultar casi imposibles de adquirir. En lugar de utilizar un conjunto de datos etiquetado, los investigadores entrenan un modelo auxiliar que se ejecuta sobre un LLM para predecir automáticamente la temperatura necesaria para calibrarlo para esta nueva tarea.

Utilizan conjuntos de datos etiquetados de algunas tareas representativas para entrenar el modelo del Thermometer. Una vez entrenado puede generalizarse a nuevas tareas en una categoría similar sin la necesidad de datos etiquetados adicionales.

El modelo del Thermometer solo necesita acceder a una pequeña parte del funcionamiento interno del LLM para predecir la temperatura correcta que calibrará su predicción para los puntos de datos de una tarea específica.

Entrenamiento de un LLM pequeño para un LLM más grande

Es importante destacar que la técnica no requiere múltiples ejecuciones de entrenamiento y solo reduce ligeramente la velocidad de respuesta. Además, dado que el escalamiento de temperatura no altera las predicciones de un modelo, Thermometer conserva su precisión.

Cuando compararon el Thermometer con varias líneas de base en múltiples tareas, produjo consistentemente medidas de incertidumbre mejor calibradas y requirió mucho menos cálculo. Los investigadores también descubrieron que, si entrenan un modelo de Thermometer para un LLM más pequeño, se puede aplicar directamente para calibrar un LLM más grande dentro de la misma familia.

En el futuro, quieren adaptar Thermometer para tareas de generación de texto más complejas y aplicar la técnica a LLM aún más grandes. Los investigadores también esperan cuantificar la diversidad y la cantidad de conjuntos de datos etiquetados que se necesitarían para entrenar un modelo Thermometer para que pueda generalizarse a una nueva tarea.

Publicado en: Edificios Inteligentes Etiquetado como: Automatización y Control, Ciencia de Datos, Inteligencia Artificial, Investigación

Instagram
Newsletter
BUSCADOR
Patrocinio Oro
  • Zennio
Patrocinio Plata
  • DoorBird
  • Airzone
Patrocinio Bronce
  • Fermax
  • 2N
  • Dinuy
  • ADITEL
  • Helvar
  • inBiot
  • Zumtobel
  • iLOQ
  • Electrónica OLFER
  • Sensonet Ingeniería
  • Jung Electro Ibérica
  • Tedee
  • Delta Dore
  • Intesis
  • Eltako
  • Schneider Electric
  • OPENETICS
  • Hikvision
  • Simon
  • CHERUBINI
  • ROBOTBAS
  • Gira
Sobre CASADOMO

CASADOMO es el principal medio de comunicación on-line sobre Edificios Inteligentes.

Publica diariamente noticias, artículos, entrevistas, TV, etc. y ofrece la información más relevante y actualizada sobre el sector.

AUDITADO POR OJD
COPYRIGHT

©1999-2025 El material de CASADOMO es propiedad intelectual de Grupo Tecma Red S.L. y está protegido por ley. No está permitido utilizarlo de ninguna manera sin hacer referencia a la fuente y sin permiso por escrito de Grupo Tecma Red S.L.

SOBRE GRUPO TECMA RED

CASADOMO pertenece a Grupo Tecma Red, el grupo editorial español líder en las temáticas de Sostenibilidad, Energía y Nuevas Tecnologías en la Edificación y la Ciudad.

Portales de Grupo Tecma Red:

  • CASADOMO - Todo sobre Edificios Inteligentes
  • CONSTRUIBLE - Todo sobre Construcción Sostenible
  • ESEFICIENCIA - Todo sobre Eficiencia Energética
  • ESMARTCITY - Todo sobre Ciudades Inteligentes
  • SMARTGRIDSINFO - Todo sobre Redes Eléctricas Inteligentes

 Logo Grupo Tecma Red Quiénes somos    Publicidad    Notas de Prensa    Condiciones de uso    Privacidad    Cookies    Contactar