El MIT y MIT-IBM Watson AI Lab crean un método de calibración de modelos lingüísticos de gran tamaño • CASADOMO

Los modelos lingüísticos de gran tamaño a veces generan respuestas inexactas, al tiempo que pueden tener demasiada confianza en las respuestas incorrectas o poca confianza en las correctas, lo que hace que sea difícil para un usuario saber cuándo se puede confiar en un modelo. Los investigadores del Instituto Tecnológico de Massachussets (MIT) y del MIT-IBM Watson AI Lab han presentado un método de calibración adaptado a modelos lingüísticos de gran tamaño.

MIT — Los investigadores han descubierto que si se entrena un modelo de Thermometer para un LLM más pequeño se puede aplicar directamente para calibrar un LLM más grande.

Su método, llamado Thermometer, implica la construcción de un modelo auxiliar más pequeño que se ejecuta sobre un modelo lingüístico de gran tamaño para calibrarlo. El Thermometer es más eficiente que otros métodos, ya que requiere menos computación que consume mucha energía, al tiempo que preserva la precisión del modelo y le permite producir respuestas mejor calibradas en tareas que no ha visto antes.

Al permitir una calibración eficiente de un modelo de lenguaje grande (LLM) para una variedad de tareas, Thermometer podría ayudar a los usuarios a identificar situaciones en las que un modelo confía demasiado en predicciones falsas, lo que en última instancia les impide implementar ese modelo en una situación en la que pueda fallar.

Calibración de los modelos LLM

La calibración de un modelo LLM suele implicar tomar muestras del modelo varias veces para obtener diferentes predicciones y luego agregarlas para obtener una mayor fiabilidad. Sin embargo, como estos modelos tienen miles de millones de parámetros, los costos computacionales de estos enfoques aumentan rápidamente.

Con Thermometer, los investigadores desarrollaron una técnica versátil que aprovecha un método de calibración clásico llamado escala de temperatura para calibrar eficientemente un LLM para una nueva tarea. En este contexto, una temperatura es un parámetro de escala que se utiliza para ajustar la confianza de un modelo para que esté en consonancia con la precisión de su predicción. Tradicionalmente, se determina la temperatura correcta utilizando un conjunto de datos de validación etiquetados de ejemplos específicos de la tarea.

Dado que los LLM suelen aplicarse a nuevas tareas, los conjuntos de datos etiquetados pueden resultar casi imposibles de adquirir. En lugar de utilizar un conjunto de datos etiquetado, los investigadores entrenan un modelo auxiliar que se ejecuta sobre un LLM para predecir automáticamente la temperatura necesaria para calibrarlo para esta nueva tarea.

Utilizan conjuntos de datos etiquetados de algunas tareas representativas para entrenar el modelo del Thermometer. Una vez entrenado puede generalizarse a nuevas tareas en una categoría similar sin la necesidad de datos etiquetados adicionales.

El modelo del Thermometer solo necesita acceder a una pequeña parte del funcionamiento interno del LLM para predecir la temperatura correcta que calibrará su predicción para los puntos de datos de una tarea específica.

Entrenamiento de un LLM pequeño para un LLM más grande

Es importante destacar que la técnica no requiere múltiples ejecuciones de entrenamiento y solo reduce ligeramente la velocidad de respuesta. Además, dado que el escalamiento de temperatura no altera las predicciones de un modelo, Thermometer conserva su precisión.

Cuando compararon el Thermometer con varias líneas de base en múltiples tareas, produjo consistentemente medidas de incertidumbre mejor calibradas y requirió mucho menos cálculo. Los investigadores también descubrieron que, si entrenan un modelo de Thermometer para un LLM más pequeño, se puede aplicar directamente para calibrar un LLM más grande dentro de la misma familia.

En el futuro, quieren adaptar Thermometer para tareas de generación de texto más complejas y aplicar la técnica a LLM aún más grandes. Los investigadores también esperan cuantificar la diversidad y la cantidad de conjuntos de datos etiquetados que se necesitarían para entrenar un modelo Thermometer para que pueda generalizarse a una nueva tarea.