Hyperparameters in Machine / Deep Learning

in de praktijk van machine en deep learning zijn modelparameters de eigenschappen van trainingsgegevens die op zichzelf zullen leren tijdens de training door de classifier of een ander ML-model. Bijvoorbeeld, gewichten en vooroordelen, of split points in Decision Tree.

Model Hyperparameters zijn in plaats daarvan eigenschappen die het gehele trainingsproces bepalen. Ze omvatten variabelen die de netwerkstructuur bepalen (bijvoorbeeld het aantal verborgen eenheden) en de variabelen die bepalen hoe het netwerk wordt getraind (bijvoorbeeld Leersnelheid). Model hyperparameters worden ingesteld voor de training (voor het optimaliseren van de gewichten en bias).

bijvoorbeeld, hier zijn enkele model ingebouwde configuratievariabelen:

Leersnelheid
Aantal tijdperken
verborgen lagen
verborgen eenheden
Activeringsfuncties

Hyperparameters zijn belangrijk omdat ze direct het gedrag van de trainingsalgo bepalen, wat een belangrijke invloed heeft op de prestaties van het model tijdens de training.

het kiezen van geschikte hyperparameters speelt een sleutelrol in het succes van neurale netwerkarchitecturen, gezien de impact op het geleerde model. Bijvoorbeeld, als het leerpercentage te laag is, zal het model de belangrijke patronen in de gegevens missen; omgekeerd, als het hoog is, kan het botsingen hebben.

het kiezen van goede hyperparameters biedt twee belangrijke voordelen:

efficiënt zoeken in de ruimte van mogelijke hyperparameters; en
eenvoudiger beheer van een grote reeks experimenten voor hyperparameterafstelling.

Hyperparameters kunnen ruwweg worden verdeeld in 2 categorieën:

1. Optimizer hyperparameters,
2. Modelspecifieke hyperparameters

ze houden meer verband met het optimalisatie-en opleidingsproces.

1.1. Leersnelheid:

als de leersnelheid van het model veel te kleiner is dan de optimale waarden, zal het veel langer duren (honderden of duizenden) tijdperken om een ideale toestand te bereiken. Aan de andere kant, als de leersnelheid veel groter is dan de optimale waarde, dan zou het de ideale toestand overschrijden en zou het algoritme niet convergeren. Een redelijke start Leersnelheid = 0,001.

Geef een antwoord Antwoord annuleren