Hiperparaméterek a gépi / mély tanulásban

a gépi és mély tanulás gyakorlatában a Modellparaméterek azon képzési adatok tulajdonságai, amelyek önállóan tanulnak az osztályozó vagy más ML modell által végzett képzés során. Például súlyok és torzítások, vagy osztott pontok a döntési fában.

a modell Hiperparaméterek ehelyett a teljes képzési folyamatot szabályozó tulajdonságok. Ezek közé tartoznak a hálózati struktúrát meghatározó változók (például a rejtett egységek száma), valamint a hálózat betanításának módját meghatározó változók (például a tanulási Arány). A modell hiperparamétereit edzés előtt állítják be (a súlyok és az elfogultság optimalizálása előtt).

például, itt van néhány modell beépített konfigurációs változók:

  • tanulási Arány
  • korszakok száma
  • rejtett rétegek
  • rejtett egységek
  • aktiválási funkciók

a Hiperparaméterek fontosak, mivel közvetlenül szabályozzák a képzési algo viselkedését, fontos hatással vannak a képzés alatt álló modell teljesítményére.

a megfelelő hiperparaméterek kiválasztása kulcsszerepet játszik a neurális hálózati architektúrák sikerében, tekintettel a megtanult modellre gyakorolt hatásra. Például, ha a tanulási arány túl alacsony, a modell hiányozni fog az adatok fontos mintáiról; fordítva, ha magas, ütközések lehetnek.

A jó hiperparaméterek kiválasztása két fő előnnyel jár:

  • hatékony keresés a lehetséges hiperparaméterek terében; és
  • a hiperparaméterek hangolásához szükséges kísérletek nagy csoportjának könnyebb kezelése.

a Hiperparaméterek nagyjából 2 kategóriába sorolhatók:

1. Optimalizáló hiperparaméterek,
2. Modellspecifikus hiperparaméterek

ezek inkább az optimalizálási és képzési folyamathoz kapcsolódnak.

1.1. Tanulási arány:

ha a modell tanulási aránya túl kisebb, mint az optimális értékek, akkor sokkal hosszabb időt (több száz vagy ezer) vesz igénybe az ideális állapot elérése. Másrészt, ha a tanulási arány sokkal nagyobb, mint az optimális érték, akkor túllépné az ideális állapotot, és az algoritmus esetleg nem konvergál. Ésszerű kezdő tanulási Arány = 0,001.

fontos figyelembe venni, hogy:
A) a modellnek több százezer paramétere lesz, mindegyik saját hibagörbével. És a tanulási Arány, hogy Pásztor mindet
b) hiba görbék nem tiszta u-alakzatok; ehelyett inkább bonyolultabb formák helyi minimumok.

1.2. Mini-Tétel Mérete:

a Kötegméret nem triviális módon befolyásolja a képzési folyamat erőforrásigényét, a sebességet és az iterációk számát.

történelmileg vita folyt a sztochasztikus képzésről, ahol az adatkészlet egyetlen példáját illeszti a modellhez, és csak egy példát használva előre halad, kiszámítja a hibát/backpropagate& állítsa be az összes hiperparaméter korrigált értékét. Ezután tegye ezt újra az adatkészlet minden egyes példájához.

vagy talán jobb, ha a teljes adatot betáplálja a képzési lépésbe, és kiszámítja a gradienst az adatkészlet összes példájának megtekintésével generált hiba felhasználásával. Ezt hívják kötegelt képzésnek.

manapság általánosan használt technika a mini-tétel méretének beállítása. A sztochasztikus edzés az, amikor a minibatch mérete =1, A Batch Training pedig az, amikor a mini-batch size = a képzési készlet példáinak száma. Ajánlott kiindulási értékek a kísérletezéshez: 1, 2, 4, 8, 16, 32, 64, 128, 256.

a nagyobb mini-batch méret lehetővé teszi számítási növeli, hogy hasznosítja mátrix szorzás a képzési számításokat . Ez azonban azzal jár, hogy több memóriára van szükség a képzési folyamathoz. A kisebb mini-kötegméret nagyobb zajt okoz a hibaszámításokban, gyakran hasznosabb annak megakadályozásában, hogy a képzési folyamat megálljon a helyi minimumokon. A valós érték a mini-köteg mérete= 32.

tehát, míg a számítási lendület arra késztet bennünket, hogy növeljük a mini-köteg méretét, ez a gyakorlati algoritmikus előny arra ösztönzi, hogy valóban kisebb legyen.

1.3. Korszakok száma:

a képzési lépéshez megfelelő számú korszak kiválasztásához a mutatóra kell figyelnünk, az érvényesítési hiba.

az intuitív kézi módszer az, hogy a modell annyi számú iterációra vonatozzon, amíg az érvényesítési hiba folyamatosan csökken.

van egy technika, amelyet korai leállítás néven lehet használni annak meghatározására, hogy mikor kell abbahagyni a modell edzését; a képzési folyamat leállításáról szól, ha az érvényesítési hiba nem javult az elmúlt 10 vagy 20 korszakban.

2. Modell Hiperparaméterek

jobban részt vesznek a modell szerkezetében:

2.1. Rejtett egységek száma:

a rejtett egységek száma az egyik titokzatosabb hiperparaméter. Ne felejtsük el, hogy a neurális hálózatok univerzális függvény közelítők , és ahhoz, hogy megtanulják közelíteni egy függvényt (vagy egy előrejelzési feladatot), elegendő kapacitással kell rendelkezniük a funkció megtanulásához. A rejtett egységek száma a modell tanulási képességének fő mércéje.

egy egyszerű funkcióhoz kevesebb rejtett egységre lehet szükség. Minél összetettebb a funkció, annál nagyobb tanulási képességre lesz szüksége a modellnek.

valamivel több egység, akkor az optimális szám nem jelent problémát, de sokkal nagyobb szám túlillesztéshez vezet (azaz ha túl nagy kapacitású modellt ad meg, akkor hajlamos lehet túlfit, megpróbálva “memorizálni” az adatkészletet, ezáltal befolyásolva az általánosítás képességét)

2.2. Első rejtett réteg:

Az első rejtett réteget érintő másik heurisztika az, hogy a rejtett egységek számának a bemenetek számánál nagyobb beállítása általában jobb eredményeket tesz lehetővé a feladatok számában, az empirikus megfigyelés szerint.

2.3. Rétegek száma:

gyakran előfordul, hogy a 3 rétegű neurális háló felülmúlja a 2 réteget. De még mélyebbre menni ritkán segít sokkal többet. (kivétel a konvolúciós neurális hálózatok, ahol minél mélyebbek, annál jobban teljesítenek).

Hiperparaméterek optimalizálási technikák

a gépi tanulásban a legoptimálisabb hiperparaméterek megtalálásának folyamatát hiperparaméterek optimalizálásának nevezzük.

Általános algoritmusok a következők:

  • Grid Search
  • véletlenszerű keresés
  • Bayes-optimalizálás

Grid Search

A Grid search egy hagyományos technika a hiperparaméterek végrehajtására. Ez némileg a nyers erő minden kombináció. A rácskereséshez létre kell hoznikét hiperparaméter-készlet:

  1. tanulási Arány
  2. rétegek száma

A Grid search az összes kombináció algoritmusát a két hiperparaméterkészlet (tanulási arány és rétegek száma) használatával képezi ki, és a teljesítményt keresztellenőrzési technikával méri. Ez az érvényesítési technika biztosítja, hogy a betanított modell a minták nagy részét az adatkészletből kapja (az egyik legjobb módszer az érvényesítés végrehajtására a “K-szeres keresztellenőrzés” használatával, amely segít elegendő adatot szolgáltatni a modell betanításához és bőséges adatokat az érvényesítésekhez).

A Grid search metódus egy egyszerűbb algoritmust használni, de szenved, ha az adatok nagy dimenziós tér úgynevezett átka dimenzió.

véletlenszerű keresés

véletlenszerűen mintát vesz a keresési térből, és kiértékeli a halmazokat egy meghatározott valószínűségi eloszlásból. Ahelyett, hogy megpróbálnánk ellenőrizni az összes 100 000 mintát, például 1000 véletlenszerű paramétert ellenőrizhetünk.

a véletlenszerű keresési algoritmus használatának hátránya azonban az, hogy nem használja a korábbi kísérletekből származó információkat a következő készlet kiválasztásához. Sőt, nehéz megjósolni a következő kísérleteket.

Bayes-optimalizálás

a hiperparaméter beállítás maximalizálja a modell teljesítményét egy érvényesítési készleten. Az ML algo-k gyakran megkövetelik a modell hiperparaméterek finomhangolását. Sajnos ezt a hangolást gyakran fekete függvénynek hívják, mert nem írható képletbe (a függvény származékai ismeretlenek).

a & a hiperparaméterek finomhangolása lehetővé teszi az automatizált modellhangolási megközelítést-például a Bayes — optimalizálás használatával. Az objektív függvény közelítésére használt modellt helyettesítő modellnek nevezzük. A bayesi optimalizálás népszerű helyettesítő modellje a Gauss-folyamat (GP). A Bayes-féle optimalizálás általában úgy működik, hogy feltételezzük, hogy az ismeretlen függvényt Gauss-folyamatból (GP) vették fel, és a megfigyelések során fenntartja a függvény hátsó eloszlását.

a bayesi optimalizálás során két fő választási lehetőség van:

  1. válassza ki az előző függvényeket, amelyek kifejezik az optimalizált függvényre vonatkozó feltételezéseket. Ehhez a Gauss-folyamatot választjuk előzetes;
  2. ezután ki kell választanunk egy akvizíciós függvényt, amelyet egy utility függvény felépítésére használunk a modellből hátsó, lehetővé téve számunkra a következő értékelendő pont meghatározását.

Gauss-folyamat

A Gauss-folyamat meghatározza a függvények feletti előzetes eloszlást, amely átalakítható a függvények feletti hátsó részre, miután láttunk néhány adatot. A Gauss-folyamat kovariancia mátrixot használ annak biztosítására, hogy az értékek közel legyenek egymáshoz. A kovariancia mátrix a várt érték kimenetére szolgáló átlaggal együtt egy átlagos causs-függvényt határoz meg(X) meghatározza a Gauss-folyamatot.

1. A Gauss-folyamatot a bayesi következtetés előzményeként használják;

2. A hátsó számítás lehetővé teszi, hogy előrejelzéseket készítsen a láthatatlan tesztesetekről.

Acquisition Function

Introducing sampling data into the search space is done by acquisition functions. It helps to maximize the acquisition function to determine the next sampling point. A népszerű akvizíciós függvények a következők:

  • a javulás maximális valószínűsége (MPI)
  • várható javulás (EI)
  • felső konfidencia kötött (UCB)

a várható javulás (EI) egy népszerű függvény, amelyet a következőképpen határozunk meg:

ei(x)= ~ ~ p>

ahol a jelenlegi optimális hiperparaméterek halmaza(x). A hiperparaméterek maximalizálása javulni fog a (Z) esetén.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.