Hyperparametry ve strojovém / hlubokém učení

v praxi strojového a hlubokého učení jsou parametry modelu vlastnostmi tréninkových dat, která se během tréninku naučí klasifikátorem nebo jiným modelem ML. Například váhy a předsudky nebo dělené body ve stromu rozhodování.

Hyperparametry modelu jsou místo toho vlastnosti, které řídí celý tréninkový proces. Zahrnují proměnné, které určují strukturu sítě (například počet skrytých jednotek)a proměnné, které určují, jak je síť trénována (například rychlost učení). Modelové hyperparametry jsou nastaveny před tréninkem (před optimalizací závaží a zkreslení).

například, zde jsou některé model vestavěný konfigurační proměnné :

  • Rychlost Učení
  • Počet Epoch
  • Skryté Vrstvy
  • Skryté Jednotky
  • Aktivace Funkce

Hyperparameters jsou důležité, protože se přímo ovládat chování školení algo, mít významný dopad na výkonnost modelu v rámci školení.

výběr vhodných hyperparametrů hraje klíčovou roli v úspěchu architektur neuronových sítí vzhledem k dopadu na naučený model. Pokud je například rychlost učení příliš nízká, model vynechá důležité vzorce v datech; naopak, pokud je vysoká, může mít kolize.

Výběr dobré hyperparameters poskytuje dvě hlavní výhody:

  • Efektivní vyhledávání v celém prostoru možných hyperparameters; a
  • Snadnější správu velkého souboru experimentů pro hyperparameter ladění.

Hyperparametry lze zhruba rozdělit do 2 kategorií:

1. Optimalizátor hyperparametry,
2. Hyperparametry specifické pro Model

souvisejí více s optimalizačním a tréninkovým procesem.

1.1. Míra učení:

Pokud je míra učení modelu příliš menší než optimální hodnoty, bude trvat mnohem déle (stovky nebo tisíce) epoch, než se dosáhne ideálního stavu. Na druhou stranu, pokud je rychlost učení je mnohem větší, než je optimální hodnota, pak by překročení ideální stav a algoritmus nemusí konvergovat. Přiměřená počáteční míra učení = 0,001.

Důležité zvážit, že:
) model bude mít stovky a tisíce parametrů, každý s jeho vlastní chyba křivky. B) chybové křivky nejsou čisté tvary u; místo toho mají tendenci mít složitější tvary s lokálními minimy.

1.2. Velikost Mini-Šarže:

velikost dávky má vliv na požadavky na zdroje tréninkového procesu, rychlost a počet iterací netriviálním způsobem.

Historicky, tam byla debata dělat stochastické školení, kde jste fit jeden příklad datového souboru do modelu a pomocí pouze jeden příklad, provést přihrávku dopředu, vypočítat chybu / backpropagate & nastavit upravené hodnoty pro všechny hyperparameters. A pak to udělejte znovu pro každý příklad v datovém souboru.

nebo, možná lepší krmit celá data do tréninkového kroku a vypočítat gradient pomocí chyby generované při pohledu na všechny příklady v datovém souboru. Tomu se říká dávkové školení.

Běžně používané techniky je dnes pro nastavení mini-velikost dávky. Stochastický trénink je, když velikost minibatch =1, a dávkový trénink je, když velikost mini-šarže = počet příkladů v tréninkové sadě. Doporučené počáteční hodnoty pro experimentování: 1, 2, 4, 8, 16, 32, 64, 128, 256.

větší velikost mini-šarže umožňuje výpočetní zvyšuje, který využívá násobení matic v tréninkových výpočtů . Přichází však na úkor nutnosti více paměti pro tréninkový proces. Menší velikost mini-šarže indukuje více šumu při výpočtech chyb, často užitečnější při zabránění zastavení tréninkového procesu na místních minimech. Reálná hodnota pro velikost mini-šarže= 32.

Takže, zatímco výpočetní podporu pohání nás, jak zvýšit mini-velikost dávky, tento praktický algoritmické prospěch incentivizes ve skutečnosti, aby to menší.

1.3. Počet Epoch:

vyberte si správný počet epoch pro školení krok, metriky bychom měli věnovat pozornost je Chyba Ověření.

Intuitivní manuální způsob, jak je mít model vlaku za tolik počtu iterací tak dlouho, jako validační chyba klesá.

Existuje technika, která může být použita jménem Předčasné ukončení určit, kdy přestat školení modelu; jde o zastavení tréninkového procesu v případě, že validační chyba zlepšila v posledních 10 nebo 20 epoch.

2. Modelové Hyperparametry

jsou více zapojeny do struktury modelu:

2.1. Počet skrytých jednotek:

počet skrytých jednotek je jedním z tajemnějších hyperparametrů. Pojďme si uvědomit, že neuronové sítě jsou univerzální funkce approximators, a pro ně se naučit přibližné funkce (nebo předpověď úkol) , musí mít dost „kapacitou“ učit funkci. Počet skrytých jednotek je hlavním měřítkem učební kapacity modelu.

pro jednoduchou funkci může potřebovat méně skrytých jednotek. Čím složitější je funkce, tím větší schopnost učení bude model potřebovat.

o Něco více počet jednotek, pak je optimální počet, není problém, ale mnohem větší počet se bude vést k overfitting (tj. pokud uvedete model s příliš velkou kapacitu, to by mohlo tendenci overfit, pokouší „zapamatovat“ dataset, proto ovlivňuje schopnost generalizovat)

2.2. První skrytá vrstva:

Další heuristické zahrnující první skryté vrstvy je, že nastavení počtu skrytých jednotek větší než počet vstupů má tendenci umožnit lepší výsledky v počtu úkolů, podle empirických pozorování.

2.3. Počet vrstev:

často se stává, že 3vrstvá neuronová síť překoná 2vrstvou. Ale jít ještě hlouběji zřídka pomáhá mnohem více. (výjimkou jsou konvoluční neuronové sítě, kde čím hlouběji jsou, tím lépe fungují).

techniky optimalizace Hyperparametrů

proces hledání nejoptimálnějších hyperparametrů ve strojovém učení se nazývá optimalizace hyperparametrů.

Společné algoritmy patří:

  • Prohledat
  • Náhodné Vyhledávání
  • Bayesovská Optimalizace

Prohledat

Grid search je tradiční technika pro provádění hyperparameters. Jedná se poněkud o hrubou sílu všech kombinací. Hledání mřížky vyžaduje vytvořenídvě sady hyperparametrů:

  1. Rychlost Učení
  2. Počet Vrstev

Grid search vlaky algoritmus pro všechny kombinace pomocí dvou sadu hyperparameters (learning rate a počet vrstev) a měří výkon pomocí cross-validace techniky. Tento validační technika zajišťuje vyškolený model dostane většina vzorů z dataset (jeden z nejlepších způsobů, jak provést ověření pomocí „K-Fold Cross Validation“, která pomáhá zajistit dostatek dat pro trénování modelu a dostatek dat pro validaci).

metoda vyhledávání v mřížce je jednodušší algoritmus, který se používá, ale trpí, pokud mají data vysoký rozměrný prostor zvaný prokletí dimenzionality.

náhodné vyhledávání

náhodně vzorkuje vyhledávací prostor a vyhodnocuje sady ze zadaného rozdělení pravděpodobnosti. Namísto pokusu o kontrolu všech 100 000 vzorků můžeme například zkontrolovat 1000 náhodných parametrů.

nevýhodou použití algoritmu náhodného vyhledávání je však to, že nepoužívá informace z předchozích experimentů k výběru další sady. Navíc je obtížné předvídat další experimenty.

Bayesovská Optimalizace

Hyperparameter nastavení maximalizuje výkon modelu na validační sadě. ML algos často vyžadují jemné doladění modelových hyperparametrů. Bohužel se tomuto ladění často říká „Černá Funkce“, protože ji nelze zapsat do vzorce (derivace funkce nejsou známy).

přitažlivější způsob, jak optimalizovat & jemné doladění hyperparametrů znamená umožnit automatizovaný přístup k ladění modelu – například pomocí Bayesovské optimalizace. Model používaný pro aproximaci objektivní funkce se nazývá náhradní model. Populární náhradní model pro Bayesovskou optimalizaci je Gaussovský proces (GP). Bayesovská optimalizace obvykle funguje za předpokladu, že neznámá funkce byl odebrány vzorky z Gaussova Procesu (GP) a udržuje posteriorní distribuce pro tuto funkci jako vyjádření jsou vyrobeny.

při provádění Bayesovské optimalizace je třeba provést dvě hlavní volby:

  1. vyberte předchozí funkce, které vyjadřují předpoklady o optimalizované funkci. Za tímto účelem jsme vybrat Gaussova Procesu před;
  2. dále musíme vybrat pořizovací funkce, která se používá k sestrojení funkce užitku z modelu posterior, což nám umožňuje určit další bod k hodnocení.

Gaussovský proces

Gaussovský proces definuje předchozí rozdělení nad funkcemi, které lze převést na zadní nad funkcemi, jakmile uvidíme některá data. Gaussovský proces používá kovarianční matici, aby zajistil, že hodnoty, které jsou blízko sebe. Kovarianční matice spolu se střední funkcí µ pro výstup očekávané hodnoty ƒ(x) definuje Gaussovský proces.

1. Gaussovský proces bude použit jako prior pro Bayesovskou inferenci;

2. Výpočet zadní části umožňuje jeho použití k předpovídání neviditelných testovacích případů.

Acquisition Function

Introducing sampling data into the search space is done by acquisition functions. It helps to maximize the acquisition function to determine the next sampling point. Populární akvizice jsou funkce

  • Maximální Pravděpodobnost Zlepšení (MPI)
  • Očekávané Zlepšení (EI)
  • Horní hranici Spolehlivosti (UCB)

Očekávané Zlepšení (EI) je populární a jsou definovány jako:

EI(x)=𝔼

kde ƒ(x ) je současná optimální sadu hyperparameters. Maximalizace hyperparametrů se zlepší na začátku roku.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.