O que constitui o ajuste de hiperparâmetros?
O ajuste de hiperparâmetros se refere ao processo meticuloso de selecionar o conjunto mais eficaz de hiperparâmetros para um determinado modelo de machine learning. Esta fase tem uma significância considerável dentro da trajetória de desenvolvimento do modelo, dado que a escolha do hiperparâmetro pode influenciar profundamente o desempenho do modelo.
Existem várias metodologias para otimizar modelos de machine learning, distinguindo entre abordagens centradas em modelos e centradas em dados. As abordagens centradas em modelos concentram-se nas características inerentes do próprio modelo, abrangendo fatores como estrutura do modelo e escolhas algorítmicas. Normalmente, esses métodos envolvem explorar combinações ótimas de hiperparâmetros a partir de um conjunto predefinido de valores potenciais.
Otimização gratuita de custos de nuvem e gerenciamento aprimorado de recursos de ML/IA para toda a vida
Explorando o espaço e as distribuições de hiperparâmetros
O espaço de hiperparâmetros abrange todas as combinações potenciais de hiperparâmetros aplicáveis ao treinamento de um modelo de aprendizado de máquina, constituindo uma arena multidimensional onde cada dimensão corresponde a um hiperparâmetro distinto. Para ilustrar, hiperparâmetros como a taxa de aprendizado dariam origem a um espaço de hiperparâmetros bidimensional – uma dimensão para a taxa de aprendizado e outra para o número de camadas ocultas.
A distribuição delineia o intervalo de valores para cada hiperparâmetro e as probabilidades associadas dentro do espaço do hiperparâmetro. Ela caracteriza a probabilidade de cada valor ocorrer dentro do espaço.
- Objetivo do ajuste de hiperparâmetros: O objetivo principal é para melhorar o desempenho geral do modelo. Para atingir isso, é preciso explorar meticulosamente o espaço dos hiperparâmetros para identificar a combinação que traz o melhor do modelo.
- Impacto da distribuição de hiperparâmetros: A eficácia do processo de busca é moldada pela distribuição de hiperparâmetros. Essa decisão não apenas determina o intervalo de valores sob escrutínio, mas também atribui probabilidades a cada valor, influenciando a estratégia de ajuste e, consequentemente, o desempenho final do modelo.
Tipos de distribuições de hiperparâmetros em aprendizado de máquina
Distribuições de probabilidade diversas são cruciais na definição do espaço de hiperparâmetros em machine learning. Essas distribuições estabelecem o intervalo potencial de valores para cada hiperparâmetro e governam a probabilidade de valores específicos ocorrerem.
Distribuição log-normal
- Caracterizado por uma distribuição logaritmicamente normal de uma variável aleatória.
- Preferido para variáveis positivas com valores distorcidos, permitindo uma gama mais ampla de possibilidades.
Distribuição Gaussiana
Simétrica em torno de sua média, essa distribuição contínua é comumente usada para variáveis influenciadas por vários fatores.
Distribuição uniforme
- Igualmente provável de selecionar qualquer valor dentro de um intervalo especificado.
- Aplicado quando o intervalo de valores potenciais é conhecido e não há preferência por um valor em detrimento de outro.
Além destas, várias outras distribuições de probabilidade são consideradas aplicáveis em machine learning, como as distribuições exponencial, gama e beta. A seleção cuidadosa de uma distribuição de probabilidade impacta significativamente a eficácia da busca de hiperparâmetros, influenciando o intervalo de valores explorado e a probabilidade de selecionar cada valor específico.
Métodos de otimização de hiperparâmetros
1. Visão geral da pesquisa em grade
A busca em grade é uma técnica de ajuste de hiperparâmetros onde o modelo é treinado para cada combinação concebível de hiperparâmetros dentro de um conjunto predefinido.
Para implementar a busca em grade, o cientista de dados ou engenheiro de aprendizado de máquina especifica um conjunto de valores potenciais para cada hiperparâmetro. O algoritmo então explora sistematicamente todas as combinações possíveis desses valores. Por exemplo, se os hiperparâmetros envolvem a taxa de aprendizado e o número de camadas ocultas em uma rede neural, a busca em grade tentaria sistematicamente todas as combinações – como uma taxa de aprendizado de 0,1 com uma camada oculta, 0,1 com duas camadas ocultas, etc.
O modelo passa por treinamento e avaliação para cada combinação de hiperparâmetros usando uma métrica predeterminada, como precisão ou pontuação F1. A combinação que produz o melhor desempenho do modelo é selecionada como o conjunto ótimo de hiperparâmetros.
2. Visão geral da otimização bayesiana
A otimização bayesiana é uma abordagem de ajuste de hiperparâmetros que aproveita técnicas de otimização bayesiana para descobrir a combinação ideal de hiperparâmetros de um modelo de aprendizado de máquina.
A otimização bayesiana opera construindo um modelo probabilístico da função objetivo, que, neste contexto, representa o desempenho do modelo de aprendizado de máquina. Este modelo é construído com base nos valores de hiperparâmetros testados até agora. O modelo preditivo é então utilizado para sugerir o próximo conjunto de hiperparâmetros a serem tentados, enfatizando as melhorias esperadas no desempenho do modelo. Este processo iterativo continua até que o conjunto ótimo de hiperparâmetros seja identificado.
Principal vantagem:
Uma vantagem notável da otimização bayesiana é sua capacidade de alavancar qualquer informação disponível sobre a função objetivo. Isso inclui avaliações anteriores do desempenho do modelo e restrições sobre valores de hiperparâmetros. Essa adaptabilidade permite uma exploração mais eficiente do espaço de hiperparâmetros, facilitando a descoberta da combinação ótima de hiperparâmetros.
3. Visão geral da pesquisa manual
A busca manual é uma abordagem de ajuste de hiperparâmetros na qual o cientista de dados ou engenheiro de machine learning seleciona e ajusta manualmente os hiperparâmetros do modelo. Normalmente empregado em cenários com hiperparâmetros limitados e um modelo direto, esse método oferece controle meticuloso sobre o processo de ajuste.
Ao implementar o método de busca manual, o cientista de dados descreve um conjunto de valores potenciais para cada hiperparâmetro. Posteriormente, esses valores são selecionados manualmente e ajustados até que o desempenho satisfatório do modelo seja alcançado. Por exemplo, começando com uma taxa de aprendizado de 0,1, o cientista de dados pode modificá-la iterativamente para maximizar a precisão do modelo.
4. Visão geral da hiperbanda
Hyperband é um método de ajuste de hiperparâmetros que emprega uma abordagem baseada em bandidos para explorar o espaço de hiperparâmetros de forma eficiente.
A metodologia Hyperband envolve a execução de uma série de testes “entre colchetes”. O modelo também é treinado em cada iteração usando várias configurações de hiperparâmetros. O desempenho do modelo é então avaliado usando uma métrica designada, como precisão ou pontuação F1. O modelo com o melhor desempenho é escolhido, e o espaço de hiperparâmetros é posteriormente reduzido para se concentrar nas configurações mais promissoras. Esse processo iterativo continua até que o conjunto ideal de hiperparâmetros seja identificado.
5. Visão geral da pesquisa aleatória
A busca aleatória é uma técnica de ajuste de hiperparâmetros que seleciona aleatoriamente combinações de hiperparâmetros de um conjunto predefinido, seguido pelo treinamento do modelo usando esses hiperparâmetros escolhidos aleatoriamente.
Para implementar a busca aleatória, o cientista de dados ou engenheiro de aprendizado de máquina especifica um conjunto de valores potenciais para cada hiperparâmetro. O algoritmo então escolhe aleatoriamente uma combinação desses valores. Por exemplo, se os hiperparâmetros contiverem a taxa de aprendizado e todos os números aplicáveis de camadas ocultas em uma rede neural, o algoritmo de busca aleatória pode escolher aleatoriamente uma taxa de aprendizado de 0,1 e duas camadas ocultas.
O modelo é subsequentemente treinado e avaliado usando uma métrica especificada (por exemplo, precisão ou pontuação F1). Esse processo é iterado um número predefinido de vezes, e a combinação de hiperparâmetros que resulta no melhor desempenho do modelo é identificada como o conjunto ótimo.