¿Qué constituye el ajuste de hiperparámetros?
El ajuste de hiperparámetros se refiere al proceso meticuloso de selección del conjunto de hiperparámetros más eficaz para un modelo de aprendizaje automático determinado. Esta fase tiene una importancia considerable dentro de la trayectoria de desarrollo del modelo, dado que la elección de hiperparámetros puede influir profundamente en el rendimiento del modelo.
Existen diversas metodologías para optimizar los modelos de aprendizaje automático, y se distinguen entre enfoques centrados en el modelo y centrados en los datos. Los enfoques centrados en el modelo se concentran en las características inherentes del modelo en sí, abarcando factores como la estructura del modelo y las opciones algorítmicas. Por lo general, estos métodos implican la exploración de combinaciones óptimas de hiperparámetros a partir de un conjunto predefinido de valores potenciales.
Optimización gratuita de costos en la nube y gestión mejorada de recursos de ML/AI para toda la vida
Explorando el espacio de hiperparámetros y distribuciones
El espacio de hiperparámetros abarca todas las posibles combinaciones de hiperparámetros aplicables al entrenamiento de un modelo de aprendizaje automático y constituye un espacio multidimensional en el que cada dimensión corresponde a un hiperparámetro distinto. A modo de ejemplo, los hiperparámetros como la tasa de aprendizaje darían lugar a un espacio de hiperparámetros bidimensional: una dimensión para la tasa de aprendizaje y otra para el número de capas ocultas.
La distribución delimita el rango de valores de cada hiperparámetro y las probabilidades asociadas dentro del espacio de hiperparámetros. Caracteriza la probabilidad de que cada valor se presente dentro del espacio.
- Objetivo del ajuste de hiperparámetros: El objetivo principal es Para mejorar el rendimiento general del modeloPara lograrlo es necesario explorar meticulosamente el espacio de hiperparámetros para identificar la combinación que mejor resalta el modelo.
- Impacto de la distribución de hiperparámetros: La efectividad del proceso de búsqueda está determinada por la distribución de hiperparámetros. Esta decisión no solo determina el rango de valores bajo escrutinio, sino que también asigna probabilidades a cada valor, lo que influye en la estrategia de ajuste y, en consecuencia, en el rendimiento final del modelo.
Tipos de distribuciones de hiperparámetros en el aprendizaje automático
Las diversas distribuciones de probabilidad son fundamentales para definir el espacio de hiperparámetros en el aprendizaje automático. Estas distribuciones establecen el rango potencial de valores para cada hiperparámetro y determinan la probabilidad de que se produzcan valores específicos.
Distribución log-normal
- Caracterizado por una distribución logarítmicamente normal de una variable aleatoria.
- Preferido para variables positivas con valores sesgados, lo que permite un rango más amplio de posibilidades.
Distribución gaussiana
Simétrica alrededor de su media, esta distribución continua se utiliza comúnmente para variables influenciadas por numerosos factores.
Distribución uniforme
- Es igualmente probable seleccionar cualquier valor dentro de un rango específico.
- Se aplica cuando se conoce el rango de valores potenciales y no hay preferencia por un valor sobre otro.
Además de estas, se han descubierto otras distribuciones de probabilidad que son aplicables en el aprendizaje automático, como las distribuciones exponencial, gamma y beta. La selección cuidadosa de una distribución de probabilidad afecta significativamente la eficacia de la búsqueda de hiperparámetros, lo que influye en el rango de valores explorado y la probabilidad de seleccionar cada valor específico.
Métodos de optimización de hiperparámetros
1. Descripción general de la búsqueda en cuadrícula
La búsqueda en cuadrícula es una técnica de ajuste de hiperparámetros donde El modelo está entrenado para cada combinación concebible de hiperparámetros dentro de un conjunto predefinido.
Para implementar la búsqueda en cuadrícula, el científico de datos o el ingeniero de aprendizaje automático especifica un conjunto de valores potenciales para cada hiperparámetro. Luego, el algoritmo explora sistemáticamente todas las combinaciones posibles de estos valores. Por ejemplo, si los hiperparámetros involucran la tasa de aprendizaje y la cantidad de capas ocultas en una red neuronal, la búsqueda en cuadrícula probaría sistemáticamente todas las combinaciones, como una tasa de aprendizaje de 0,1 con una capa oculta, 0,1 con dos capas ocultas, etc.
El modelo se somete a un entrenamiento y evaluación para cada combinación de hiperparámetros utilizando una métrica predeterminada, como la precisión o la puntuación F1. La combinación que produce el mejor rendimiento del modelo se selecciona como el conjunto óptimo de hiperparámetros.
2. Descripción general de la optimización bayesiana
La optimización bayesiana es un enfoque de ajuste de hiperparámetros que aprovecha las técnicas de optimización bayesiana para descubrir la combinación óptima de hiperparámetros de un modelo de aprendizaje automático.
La optimización bayesiana funciona construyendo un modelo probabilístico de la función objetivo que, en este contexto, representa el rendimiento del modelo de aprendizaje automático. Este modelo se construye en función de los valores de hiperparámetros probados hasta el momento. Luego, el modelo predictivo se utiliza para sugerir el siguiente conjunto de hiperparámetros que se probará, haciendo hincapié en las mejoras esperadas en el rendimiento del modelo. Este proceso iterativo continúa hasta que se identifica el conjunto óptimo de hiperparámetros.
Ventaja clave:
Una ventaja notable de la optimización bayesiana es su capacidad de aprovechar cualquier información disponible sobre la función objetivo. Esto incluye evaluaciones previas del rendimiento del modelo y restricciones sobre los valores de los hiperparámetros. Esta adaptabilidad permite una exploración más eficiente del espacio de hiperparámetros, lo que facilita el descubrimiento de la combinación óptima de hiperparámetros.
3. Descripción general de la búsqueda manual
La búsqueda manual es un método de ajuste de hiperparámetros en el que el científico de datos o el ingeniero de aprendizaje automático selecciona y ajusta manualmente los hiperparámetros del modelo. Este método, que suele emplearse en situaciones con hiperparámetros limitados y un modelo sencillo, ofrece un control meticuloso sobre el proceso de ajuste.
Al implementar el método de búsqueda manual, el científico de datos describe un conjunto de valores potenciales para cada hiperparámetro. Posteriormente, estos valores se seleccionan y ajustan manualmente hasta que se logra un rendimiento satisfactorio del modelo. Por ejemplo, comenzando con una tasa de aprendizaje de 0,1, el científico de datos puede modificarla iterativamente para maximizar la precisión del modelo.
4. Descripción general de la hiperbanda
Hyperband es un método de ajuste de hiperparámetros que emplea un enfoque basado en bandidos para explorar el espacio de hiperparámetros de manera eficiente.
La metodología Hyperband implica la ejecución de una serie de pruebas “entre corchetes”. El modelo también se entrena en cada iteración utilizando varias configuraciones de hiperparámetros. Luego, el rendimiento del modelo se evalúa utilizando una métrica designada, como la precisión o la puntuación F1. Se elige el modelo con el mejor rendimiento y, posteriormente, se reduce el espacio de hiperparámetros para concentrarse en las configuraciones más prometedoras. Este proceso iterativo continúa hasta que se identifica el conjunto óptimo de hiperparámetros.
5. Descripción general de la búsqueda aleatoria
La búsqueda aleatoria es una técnica de ajuste de hiperparámetros que selecciona aleatoriamente combinaciones de hiperparámetros de un conjunto predefinido, seguido de un entrenamiento del modelo utilizando estos hiperparámetros elegidos aleatoriamente.
Para implementar la búsqueda aleatoria, el científico de datos o el ingeniero de aprendizaje automático especifica un conjunto de valores potenciales para cada hiperparámetro. Luego, el algoritmo elige aleatoriamente una combinación de estos valores. Por ejemplo, si los hiperparámetros contienen la tasa de aprendizaje y todas las cantidades aplicables de capas ocultas en una red neuronal, el algoritmo de búsqueda aleatoria podría elegir aleatoriamente una tasa de aprendizaje de 0,1 y dos capas ocultas.
Posteriormente, el modelo se entrena y se evalúa utilizando una métrica específica (por ejemplo, precisión o puntuación F1). Este proceso se repite una cantidad predefinida de veces y la combinación de hiperparámetros que produce el mejor rendimiento del modelo se identifica como el conjunto óptimo.