A arte e a ciência do ajuste de hiperparâmetros

4 de abril de 2024

O que constitui o ajuste de hiperparâmetros?

O ajuste de hiperparâmetros se refere ao processo meticuloso de selecionar o conjunto mais eficaz de hiperparâmetros para um determinado modelo de machine learning. Esta fase tem uma significância considerável dentro da trajetória de desenvolvimento do modelo, dado que a escolha do hiperparâmetro pode influenciar profundamente o desempenho do modelo.

Existem várias metodologias para otimizar modelos de machine learning, distinguindo entre abordagens centradas em modelos e centradas em dados. As abordagens centradas em modelos concentram-se nas características inerentes do próprio modelo, abrangendo fatores como estrutura do modelo e escolhas algorítmicas. Normalmente, esses métodos envolvem explorar combinações ótimas de hiperparâmetros a partir de um conjunto predefinido de valores potenciais.

O ajuste de hiperparâmetros, essencial para otimizar modelos de aprendizado de máquina, geralmente emprega pesquisa em grade.

Os cientistas de dados especificam uma gama de valores de hiperparâmetros, e o algoritmo avalia sistematicamente as combinações para encontrar a configuração mais eficaz.

Por exemplo, ajustar a taxa de aprendizado e camadas ocultas explora cenários como uma taxa de aprendizado de 0,1 com uma ou duas camadas ocultas.

A pesquisa em grade identifica configurações ideais de hiperparâmetros, melhorando o desempenho geral do modelo.

Otimização gratuita de custos de nuvem e gerenciamento aprimorado de recursos de ML/IA para toda a vida

Explorando o espaço e as distribuições de hiperparâmetros

O espaço de hiperparâmetros abrange todas as combinações potenciais de hiperparâmetros aplicáveis ao treinamento de um modelo de aprendizado de máquina, constituindo uma arena multidimensional onde cada dimensão corresponde a um hiperparâmetro distinto. Para ilustrar, hiperparâmetros como a taxa de aprendizado dariam origem a um espaço de hiperparâmetros bidimensional – uma dimensão para a taxa de aprendizado e outra para o número de camadas ocultas.

A distribuição delineia o intervalo de valores para cada hiperparâmetro e as probabilidades associadas dentro do espaço do hiperparâmetro. Ela caracteriza a probabilidade de cada valor ocorrer dentro do espaço.

Objetivo do ajuste de hiperparâmetros: O objetivo principal é para melhorar o desempenho geral do modelo. Para atingir isso, é preciso explorar meticulosamente o espaço dos hiperparâmetros para identificar a combinação que traz o melhor do modelo.
Impacto da distribuição de hiperparâmetros: A eficácia do processo de busca é moldada pela distribuição de hiperparâmetros. Essa decisão não apenas determina o intervalo de valores sob escrutínio, mas também atribui probabilidades a cada valor, influenciando a estratégia de ajuste e, consequentemente, o desempenho final do modelo.

Tipos de distribuições de hiperparâmetros em aprendizado de máquina

Distribuições de probabilidade diversas são cruciais na definição do espaço de hiperparâmetros em machine learning. Essas distribuições estabelecem o intervalo potencial de valores para cada hiperparâmetro e governam a probabilidade de valores específicos ocorrerem.

Distribuição log-normal

Caracterizado por uma distribuição logaritmicamente normal de uma variável aleatória.
Preferido para variáveis positivas com valores distorcidos, permitindo uma gama mais ampla de possibilidades.

Distribuição Gaussiana

Simétrica em torno de sua média, essa distribuição contínua é comumente usada para variáveis influenciadas por vários fatores.

Distribuição uniforme

Igualmente provável de selecionar qualquer valor dentro de um intervalo especificado.
Aplicado quando o intervalo de valores potenciais é conhecido e não há preferência por um valor em detrimento de outro.

Além destas, várias outras distribuições de probabilidade são consideradas aplicáveis em machine learning, como as distribuições exponencial, gama e beta. A seleção cuidadosa de uma distribuição de probabilidade impacta significativamente a eficácia da busca de hiperparâmetros, influenciando o intervalo de valores explorado e a probabilidade de selecionar cada valor específico.

Métodos de otimização de hiperparâmetros

1. Visão geral da pesquisa em grade

A busca em grade é uma técnica de ajuste de hiperparâmetros onde o modelo é treinado para cada combinação concebível de hiperparâmetros dentro de um conjunto predefinido.

Procedimento:

Para implementar a busca em grade, o cientista de dados ou engenheiro de aprendizado de máquina especifica um conjunto de valores potenciais para cada hiperparâmetro. O algoritmo então explora sistematicamente todas as combinações possíveis desses valores. Por exemplo, se os hiperparâmetros envolvem a taxa de aprendizado e o número de camadas ocultas em uma rede neural, a busca em grade tentaria sistematicamente todas as combinações – como uma taxa de aprendizado de 0,1 com uma camada oculta, 0,1 com duas camadas ocultas, etc.

O modelo passa por treinamento e avaliação para cada combinação de hiperparâmetros usando uma métrica predeterminada, como precisão ou pontuação F1. A combinação que produz o melhor desempenho do modelo é selecionada como o conjunto ótimo de hiperparâmetros.

Vantagens:

Exploração metódica do espaço de hiperparâmetros.

Identificação clara da combinação ideal de hiperparâmetros.

Desvantagens:

Computacionalmente intensivo, exigindo um modelo separado para cada combinação.

Ele é limitado por um conjunto predefinido de valores potenciais para cada hiperparâmetro.

Ele pode ignorar valores ótimos não presentes no conjunto predefinido.

Apesar de suas demandas computacionais, ele é particularmente eficaz para modelos menores e menos complexos.

2. Visão geral da otimização bayesiana

A otimização bayesiana é uma abordagem de ajuste de hiperparâmetros que aproveita técnicas de otimização bayesiana para descobrir a combinação ideal de hiperparâmetros de um modelo de aprendizado de máquina.

Procedimento:

A otimização bayesiana opera construindo um modelo probabilístico da função objetivo, que, neste contexto, representa o desempenho do modelo de aprendizado de máquina. Este modelo é construído com base nos valores de hiperparâmetros testados até agora. O modelo preditivo é então utilizado para sugerir o próximo conjunto de hiperparâmetros a serem tentados, enfatizando as melhorias esperadas no desempenho do modelo. Este processo iterativo continua até que o conjunto ótimo de hiperparâmetros seja identificado.

Principal vantagem:

Uma vantagem notável da otimização bayesiana é sua capacidade de alavancar qualquer informação disponível sobre a função objetivo. Isso inclui avaliações anteriores do desempenho do modelo e restrições sobre valores de hiperparâmetros. Essa adaptabilidade permite uma exploração mais eficiente do espaço de hiperparâmetros, facilitando a descoberta da combinação ótima de hiperparâmetros.

Vantagens:

Utiliza qualquer informação disponível sobre a função objetivo.

Exploração eficiente do espaço de hiperparâmetros.

Eficaz para modelos maiores e mais complexos.

Desvantagens:

É mais complexo do que a busca em grade ou a busca aleatória.

Exige mais recursos computacionais.

É particularmente benéfico em cenários com funções objetivas ruidosas ou caras para avaliar.

3. Visão geral da pesquisa manual

A busca manual é uma abordagem de ajuste de hiperparâmetros na qual o cientista de dados ou engenheiro de machine learning seleciona e ajusta manualmente os hiperparâmetros do modelo. Normalmente empregado em cenários com hiperparâmetros limitados e um modelo direto, esse método oferece controle meticuloso sobre o processo de ajuste.

Procedimento:

Ao implementar o método de busca manual, o cientista de dados descreve um conjunto de valores potenciais para cada hiperparâmetro. Posteriormente, esses valores são selecionados manualmente e ajustados até que o desempenho satisfatório do modelo seja alcançado. Por exemplo, começando com uma taxa de aprendizado de 0,1, o cientista de dados pode modificá-la iterativamente para maximizar a precisão do modelo.

Vantagens:

Fornece controle detalhado sobre hiperparâmetros.

Adequado para modelos mais simples com um pequeno número de hiperparâmetros.

Desvantagens:

Demorado, envolvendo muitas tentativas e erros.

Propenso a erros humanos, pois possíveis combinações de hiperparâmetros podem ser negligenciadas.

A avaliação do impacto de cada hiperparâmetro no desempenho do modelo pode ser subjetiva e desafiadora.

4. Visão geral da hiperbanda

Hyperband é um método de ajuste de hiperparâmetros que emprega uma abordagem baseada em bandidos para explorar o espaço de hiperparâmetros de forma eficiente.

Procedimento:

A metodologia Hyperband envolve a execução de uma série de testes “entre colchetes”. O modelo também é treinado em cada iteração usando várias configurações de hiperparâmetros. O desempenho do modelo é então avaliado usando uma métrica designada, como precisão ou pontuação F1. O modelo com o melhor desempenho é escolhido, e o espaço de hiperparâmetros é posteriormente reduzido para se concentrar nas configurações mais promissoras. Esse processo iterativo continua até que o conjunto ideal de hiperparâmetros seja identificado.

Vantagens:

Eliminação eficiente de configurações pouco promissoras, economizando tempo e recursos computacionais.

Adequado para cenários com funções objetivas ruidosas ou caras para avaliar.

Desvantagens:

Requer ajuste cuidadoso dos parâmetros para desempenho ideal.

Pode ser mais complexo de implementar em comparação a métodos mais simples.

A natureza do espaço do hiperparâmetro e o problema específico em questão podem influenciar a eficácia.

5. Visão geral da pesquisa aleatória

A busca aleatória é uma técnica de ajuste de hiperparâmetros que seleciona aleatoriamente combinações de hiperparâmetros de um conjunto predefinido, seguido pelo treinamento do modelo usando esses hiperparâmetros escolhidos aleatoriamente.

Procedimento:

Para implementar a busca aleatória, o cientista de dados ou engenheiro de aprendizado de máquina especifica um conjunto de valores potenciais para cada hiperparâmetro. O algoritmo então escolhe aleatoriamente uma combinação desses valores. Por exemplo, se os hiperparâmetros contiverem a taxa de aprendizado e todos os números aplicáveis de camadas ocultas em uma rede neural, o algoritmo de busca aleatória pode escolher aleatoriamente uma taxa de aprendizado de 0,1 e duas camadas ocultas.

O modelo é subsequentemente treinado e avaliado usando uma métrica especificada (por exemplo, precisão ou pontuação F1). Esse processo é iterado um número predefinido de vezes, e a combinação de hiperparâmetros que resulta no melhor desempenho do modelo é identificada como o conjunto ótimo.

Vantagens:

Simplicidade e facilidade de implementação.

Adequado para exploração inicial do espaço de hiperparâmetros.

Desvantagens:

Menos sistemático em comparação a outros métodos.

Pode ser menos eficaz para identificar o conjunto ideal de hiperparâmetros, especialmente para modelos maiores e mais complexos.

Sua natureza aleatória o limita, o que pode deixar de fora certas combinações essenciais para um desempenho ideal.

OptScale, uma plataforma MLOps e FinOps de código aberto no GitHub, oferece total transparência e otimização de despesas de nuvem em várias organizações e apresenta ferramentas MLOps, como ajuste de hiperparâmetros, experimentos de rastreamento, modelos de controle de versão e tabelas de classificação de ML → https://github.com/hystax/optscale

Digite seu e-mail para ser notificado sobre conteúdo novo e relevante.

Obrigado por se juntar a nós!

Esperamos que você ache isso útil.

Você pode cancelar a assinatura dessas comunicações a qualquer momento. política de Privacidade

Notícias e Relatórios

Conjunto de slides

FinOps e MLOps

Uma descrição completa do OptScale como uma plataforma de código aberto FinOps e MLOps para otimizar o desempenho da carga de trabalho na nuvem e o custo da infraestrutura. Otimização de custo de nuvem, Dimensionamento correto de VM, instrumentação PaaS, Localizador de duplicatas S3, Uso RI/SP, detecção de anomalias, + ferramentas de desenvolvedor de IA para utilização ideal da nuvem.

Como fazer

FinOps, otimização de custos de nuvem e segurança

Conheça nossas melhores práticas:

Como liberar IPs elásticos no Amazon EC2
Detectar VMs do MS Azure interrompidas incorretamente
Reduza sua fatura da AWS eliminando instantâneos de disco órfãos e não utilizados
E insights muito mais profundos

OptScale

Otimize o uso de RI/SP para equipes de ML/AI com OptScale

Descubra como:

veja cobertura RI/SP
obtenha recomendações para uso ideal de RI/SP
aprimore a utilização de RI/SP por equipes de ML/IA com OptScale

A arte e a ciência do ajuste de hiperparâmetros

O que constitui o ajuste de hiperparâmetros?

Otimização gratuita de custos de nuvem e gerenciamento aprimorado de recursos de ML/IA para toda a vida

Explorando o espaço e as distribuições de hiperparâmetros

Tipos de distribuições de hiperparâmetros em aprendizado de máquina

Distribuição log-normal

Distribuição Gaussiana

Distribuição uniforme

Métodos de otimização de hiperparâmetros

1. Visão geral da pesquisa em grade

2. Visão geral da otimização bayesiana

3. Visão geral da pesquisa manual

4. Visão geral da hiperbanda

5. Visão geral da pesquisa aleatória

Mantenha-se atualizado

Notícias e Relatórios

FinOps e MLOps

FinOps, otimização de custos de nuvem e segurança

Otimize o uso de RI/SP para equipes de ML/AI com OptScale