Las técnicas efectivas mejoran la confiabilidad de los modelos de aprendizaje automático Noticias del MIT

Se utilizan potentes modelos de aprendizaje automático para ayudar a los humanos a resolver problemas complejos, como la detección de enfermedades en imágenes médicas o la detección de obstáculos en la carretera en vehículos autónomos. Pero los modelos de aprendizaje automático pueden cometer errores, por lo que cuando hay mucho en juego, es fundamental que las personas sepan cuándo confiar en las predicciones del modelo.

La cuantificación de la incertidumbre es una herramienta que mejora la confiabilidad del modelo; junto con el pronóstico, el modelo proporciona una puntuación que expresa el nivel de confianza de que el pronóstico es correcto. Si bien la cuantificación de la incertidumbre puede ser útil, los métodos existentes generalmente requieren volver a entrenar todo el modelo para darle esta capacidad. El entrenamiento consiste en mostrarle al modelo millones de ejemplos para que pueda aprender la tarea. Luego, la capacitación requiere millones de entradas de datos nuevos, que pueden ser costosos y difíciles de obtener, y utilizan enormes cantidades de recursos informáticos.

Investigadores del MIT y del MIT-IBM Watson AI Lab ahora han desarrollado una técnica que permite que el modelo realice una cuantificación de incertidumbre más eficiente utilizando muchos menos recursos informáticos que otros métodos y sin datos adicionales. Su técnica, que no requiere que el usuario entrene o modifique el modelo, es lo suficientemente flexible para muchas aplicaciones.

La técnica implica crear un modelo complementario más simple que ayude al modelo original de aprendizaje automático a estimar la incertidumbre. Este pequeño modelo está diseñado para identificar diferentes tipos de incertidumbre, lo que puede ayudar a los investigadores a identificar la causa raíz de las predicciones inexactas.

“Cuantificar la incertidumbre es esencial tanto para los desarrolladores como para los usuarios de modelos de aprendizaje automático. Los desarrolladores pueden usar métricas de incertidumbre para ayudar a desarrollar modelos más sólidos, mientras que para los usuarios puede agregar otra capa de confianza y confiabilidad al implementar modelos en el mundo real. Nuestro trabajo conduce a una solución más flexible y práctica para la cuantificación de la incertidumbre”, dijo Maohao Shen, estudiante de posgrado en ingeniería eléctrica e informática y autor principal de un artículo sobre la técnica.

Shen fue coautor del artículo con Yuheng Bu, ex becario postdoctoral en el Laboratorio de Investigación de Electrónica (RLE) que ahora es profesor asistente en la Universidad de Florida. Prasanna Sattigeri, Soumya Ghosh y Subhro Das, miembros del personal de investigación del MIT-IBM Watson AI Lab; y el autor principal Gregory Wornell, profesor de ingeniería de Sumitomo que dirige el Laboratorio de señales, información y algoritmos RLE y es miembro del MIT-IBM Watson AI Lab. La investigación se presentará en la Conferencia AAAI sobre Inteligencia Artificial.

Cuantificación de la incertidumbre

Al cuantificar la incertidumbre, el modelo de aprendizaje automático crea una puntuación numérica con cada resultado para reflejar su confianza en la precisión de esa predicción. Cuantificar la incertidumbre mediante la construcción de un nuevo modelo desde cero o el entrenamiento de un modelo existente generalmente requiere grandes cantidades de datos y cálculos costosos que a menudo no son prácticos. Además, los métodos existentes a veces tienen la consecuencia no deseada de degradar la calidad de las predicciones del modelo.

Los investigadores del MIT y del MIT-IBM Watson AI Lab se han concentrado en el siguiente problema: Con un modelo preconstruido, ¿cómo pueden permitirle realizar una cuantificación de incertidumbre efectiva?

Resolven esto creando un modelo más pequeño y simple, conocido como metamodelo, que se adjunta a un modelo más grande previamente entrenado y utiliza características que el modelo más grande ya ha aprendido para ayudarlo a realizar estimaciones cuantitativas de la incertidumbre.

“El metamodelo se puede aplicar a cualquier modelo prefabricado. Es mejor tener acceso a las partes internas del modelo porque podemos obtener mucha más información sobre el modelo base, pero también funcionará si solo tiene el resultado final. Todavía puede predecir el puntaje de confianza”, dice Satigeri.

Diseñan el metamodelo para producir un resultado cuantitativo de incertidumbre utilizando una técnica que incorpora ambos tipos de incertidumbre: incertidumbre de datos e incertidumbre del modelo. La incertidumbre de los datos es causada por datos corruptos o etiquetas inexactas y solo puede reducirse corrigiendo la base de datos o recopilando nuevos datos. Con la incertidumbre del modelo, el modelo no está seguro de cómo explicar los datos recién observados y puede hacer predicciones incorrectas, muy probablemente porque no ha visto suficientes ejemplos de entrenamiento similares. Este es un problema particularmente difícil pero común cuando se ajustan modelos. En el mundo real, a menudo encuentran datos que son diferentes a los datos de entrenamiento.

“¿Ha cambiado la confiabilidad de sus decisiones cuando usa el modelo en un nuevo entorno? Desea estar seguro de alguna manera si está funcionando en este nuevo modo o si necesita recopilar datos de entrenamiento para esta nueva configuración específica”, dice Warnell.

Validación de Cuantificación

Cuando un modelo produce una estimación cuantitativa de la incertidumbre, el usuario aún necesita cierta seguridad de que la unidad en sí es precisa. Los investigadores a menudo confirman la precisión creando un conjunto de datos más pequeño extraído de los datos de entrenamiento iniciales y luego probando el modelo en los datos almacenados. Sin embargo, esta técnica no funciona bien para cuantificar la incertidumbre porque un modelo puede lograr una buena precisión predictiva mientras tiene un exceso de confianza, dice Shen.

Desarrollaron una nueva técnica de validación agregando ruido a los datos en el conjunto de validación; estos datos ruidosos son más como datos fuera de distribución que pueden introducir incertidumbre en el modelo. Los investigadores utilizan este ruidoso conjunto de datos para cuantificar la incertidumbre.

Probaron su enfoque al ver qué tan bien el metamodelo podía capturar diferentes tipos de incertidumbre para diferentes tareas posteriores, incluida la detección fuera de distribución y la detección de clasificación errónea. Su método no solo superó todas las líneas de base en cada tarea posterior, sino que también requirió menos tiempo de capacitación para lograr esos resultados.

Esta técnica podría ayudar a los investigadores a habilitar más modelos de aprendizaje automático para cuantificar de manera efectiva la incertidumbre y, en última instancia, ayudar a los usuarios a tomar mejores decisiones sobre cuándo confiar en las predicciones.

En el futuro, los investigadores quieren adaptar su técnica para las nuevas clases de modelos, como los modelos de lenguaje grande, que tienen una estructura diferente a la de una red neuronal tradicional, dice Shen.

El trabajo fue parcialmente financiado por el MIT-IBM Watson AI Lab y la Fundación Nacional de Ciencias de EE. UU.

Source link