Gyengéd Bevezetés a statisztikai tolerancia Intervallumokba a gépi tanulásban

Tweet Share Share

Utoljára frissítve: augusztus 8, 2019

hasznos lehet az adatok felső és alsó határa.

Ezek a határok segíthetnek az anomáliák azonosításában és az elvárások meghatározásában. A populációból származó megfigyelések megkötését tolerancia intervallumnak nevezzük. A tolerancia intervallum a becslési statisztikák területéről származik.

a toleranciaintervallum eltér a predikciós intervallumtól, amely egyetlen előre jelzett érték bizonytalanságát számszerűsíti. Ez különbözik a konfidencia intervallum amely számszerűsíti egy populációs paraméter, például egy átlag bizonytalanságát. Ehelyett a tolerancia intervallum a népesség eloszlásának egy részét lefedi.

ebben az oktatóanyagban felfedezheti a statisztikai toleranciaintervallumokat, és hogyan kell kiszámítani a Gauss-adatok toleranciaintervallumát.

az oktatóanyag befejezése után tudni fogja:

  • hogy a statisztikai tűrésintervallumok határt szabnak a populáció megfigyeléseinek.
  • hogy a tolerancia intervallum megköveteli mind a lefedettség arányát, mind a megbízhatóságot.
  • hogy a Gauss-eloszlású adatminta tűrésintervalluma könnyen kiszámítható.

indítsa el a projektet az új könyvemmel statisztika a gépi tanuláshoz, beleértve a lépésről-lépésre szóló oktatóanyagokat és a Python forráskód fájlokat az összes példához.

kezdjük.

a szelíd Bevezetés a statisztikai tolerancia intervallumok Gépi tanulás
fotó: Paul Hood, néhány jog fenntartva.

bemutató Áttekintés

Ez a bemutató 4 részre oszlik; ezek:

  1. Az adatok határai
  2. mik azok a statisztikai tolerancia intervallumok?
  3. hogyan kell kiszámítani a tolerancia intervallumokat
  4. tolerancia intervallum a Gauss-eloszláshoz

segítségre van szüksége a gépi tanulás statisztikáival kapcsolatban?

vegye ki most az ingyenes 7 napos e-mail gyorstalpaló tanfolyamomat (mintakóddal).

kattintson a regisztrációhoz, és kap egy ingyenes PDF Ebook verziót a tanfolyamról.

töltse le az ingyenes Mini-tanfolyamot

az adatok határai

hasznos az adatok határai.

például, ha van egy tartományból származó adatminta, a normál értékek felső és alsó határának ismerete hasznos lehet az adatok anomáliáinak vagy kiugró értékeinek azonosításához.

egy folyamat vagy modell esetében, amely előrejelzéseket készít, hasznos lehet tudni, hogy az ésszerű előrejelzések milyen várható tartományt vehetnek igénybe.

a közös értéktartomány ismerete segíthet az elvárások meghatározásában és az anomáliák észlelésében.

az adatok közös értékeinek tartományát tolerancia intervallumnak nevezzük.

mik azok a statisztikai tolerancia intervallumok?

a toleranciaintervallum az adatok populáción belüli arányának becsléséhez kötött.

statisztikai tűrésintervallum a mintavételezett populációból vagy folyamatból származó egységek meghatározott hányada.

— 3.oldal, statisztikai intervallumok: útmutató szakemberek és kutatók számára, 2017.

az intervallumot a mintavételi hiba és a populáció eloszlásának varianciája korlátozza. Tekintettel a nagy számok törvényére, a minta méretének növekedésével a valószínűségek jobban megfelelnek az alapul szolgáló népességeloszlásnak.

Az alábbiakban egy példa egy megadott toleranciaintervallumra:

az x-től y-ig terjedő tartomány az adatok 95% – át lefedi 99% – os megbízhatósággal.

Ha az adatok Gauss – értékűek, az intervallum az átlagérték összefüggésében fejezhető ki; például:

x + / – y az adatok 95% – át lefedi 99% – os megbízhatósággal.

ezeket az intervallumokat statisztikai tűrésintervallumoknak nevezzük, hogy megkülönböztessük őket a mérnöki tolerancia intervallumoktól, amelyek leírják az elfogadhatóság határait, például egy terv vagy egy anyag esetében. Általában a kényelem érdekében egyszerűen “toleranciaintervallumokként” írjuk le őket.

a tolerancia intervallumot két mennyiség határozza meg:

  • lefedettség: az intervallum által lefedett populáció aránya.
  • bizalom: az a valószínűségi bizalom, hogy az intervallum lefedi a népesség arányát.

a tűrésintervallum két együttható, a lefedettség és a tolerancia együttható felhasználásával készült adatokból épül fel. A lefedettség a népesség (p) aránya, amelyet az intervallumnak tartalmaznia kell. A tolerancia együttható az a megbízhatósági fok, amellyel az intervallum eléri a megadott lefedettséget. A 95% – os lefedettségű toleranciaintervallum és a 90% – os tolerancia együttható a népesség eloszlásának 95% – át tartalmazza 90% – os megbízhatósággal.

— 175.oldal, környezetvédelmi mérnökök statisztikája, második kiadás, 2002.

A tolerancia intervallumok kiszámítása

a tolerancia intervallum mérete arányos a populációból származó adatminta méretével és a populáció varianciájával.

két fő módszer létezik a tolerancia intervallumok kiszámítására az adatok eloszlásától függően: parametrikus és nemparametrikus módszerek.

  • paraméteres tolerancia intervallum: használja a populáció eloszlásának ismeretét mind a lefedettség, mind a megbízhatóság meghatározásához. Gyakran használják a Gauss-Eloszlás.
  • Nemparametrikus Toleranciaintervallum: rangstatisztikák segítségével becsüljük meg a lefedettséget és a megbízhatóságot, ami gyakran kisebb pontosságot (szélesebb intervallumokat) eredményez, mivel nincs információ az eloszlásról.

a Tűrésintervallumok viszonylag egyszerűek a Gauss-eloszlásból vett független megfigyelések mintájára. Ezt a számítást a következő szakaszban mutatjuk be.

Tűrésintervallum a Gauss-eloszláshoz

ebben a szakaszban egy példát fogunk kidolgozni a tűrésintervallumok kiszámítására egy adatmintán.

először határozzuk meg az adatmintánkat. 100 megfigyelésből álló mintát fogunk készíteni egy Gauss-eloszlásból, amelynek átlaga 50, szórása 5.

# adatkészlet létrehozása
data=5 * randn(100) + 50

1
2

a példa alatt, feltételezzük, hogy nem ismerjük a valós népességi átlagot és a szórást, és hogy ezeket az értékeket meg kell becsülni.

mivel a populációs paramétereket meg kell becsülni, további bizonytalanság áll fenn. Például 95% – os lefedettség esetén a becsült átlagtól 1,96 (vagy 2) szórást használhatunk tolerancia intervallumként. Meg kell becsülnünk a minta átlagát és szórását, és figyelembe kell vennünk ezt a bizonytalanságot, ezért az intervallum kiszámítása valamivel összetettebb.

ezután meg kell adnunk a szabadság fokainak számát. Ezt használják a kritikus értékek kiszámításakor és az intervallum kiszámításakor. Pontosabban a szórás kiszámításához használják.

ne feledje, hogy a szabadság foka a számításban szereplő értékek száma, amelyek változhatnak. Itt 100 megfigyelésünk van, tehát 100 szabadságfok. Nem ismerjük a szórást, ezért az átlag segítségével kell megbecsülni. Ez azt jelenti, hogy a szabadság foka (N – 1) vagy 99 lesz.

1
2
3

# adja meg a szabadság fokát
n=len(adat)
DOF = n – 1

ezután meg kell adnunk az adatok arányos lefedettségét. Ebben a példában az adatok középső 95% – át érdekli. Az arány 95. Ezt az arányt úgy kell eltolnunk, hogy lefedje a középső 95% – ot, azaz a 2,5.percentilisről a 97,5. percentilisre.

tudjuk, hogy a 95% kritikus értéke 1,96, tekintettel arra, hogy ilyen gyakran használjuk; ennek ellenére közvetlenül a Pythonban kiszámíthatjuk, figyelembe véve az inverz túlélési függvény 2,5% – át. Ezt a norma alapján lehet kiszámítani.ISF () SciPy függvény.

# adja meg az adatok lefedettsége
prop=0.95
prop_inv = (1.0 – prop) / 2.0
gauss_critical = norm.isf (prop_inv)

1
2
3
4

ezután ki kell számolnunk a lefedettség megbízhatóságát. Ezt úgy tehetjük meg, hogy lekérjük a kritikus értéket a chi négyzet eloszlásából az adott számú szabadságfokra és a kívánt valószínűségre. Használhatjuk a chi2-t.ISF () SciPy függvény.

# adja meg a megbízhatóságot
prob=0,99
chi_critical = chi2.isf (q=prob, df=dof)

1
2
3

most már megvan az összes darab a Gauss-tolerancia intervallum kiszámításához. A számítás a következő:

interval=sqrt((dof * (1 + (1/n)) * gauss_kritical^2)/chi_critical)

1

ahol a DOF a szám a szabadság fokai közül n az adatminta mérete, gauss_kritikus a kritikus érték, például 1,96 a populáció 95% – os lefedettségére, és chi_kritikus a chi négyzet kritikus értéke a kívánt megbízhatóságra és szabadságfokokra.

interval=sqrt((dof * (1 + (1/n)) * gauss_kritical**2)/chi_critical)

1

mindezt össze tudjuk kötni együtt számítsuk ki az adatmintánk Gauss-toleranciaintervallumát.

a teljes példát az alábbiakban soroljuk fel.

a példa futtatása először kiszámítja és kinyomtatja a Gauss-és Chi-négyzeteloszlások kritikus értékeit. A toleranciát kinyomtatják, majd helyesen mutatják be.

hasznos lehet annak bemutatása is, hogy a tolerancia intervallum hogyan csökken (pontosabbá válik) a minta méretének növekedésével.

az alábbi példa ezt úgy mutatja be, hogy kiszámítja a különböző mintaméretek tűrésintervallumát ugyanazon kis kitalált probléma esetén.

a példa futtatása létrehoz egy diagramot, amely megmutatja a tolerancia intervallumot a valós populáció átlaga körül.

láthatjuk, hogy az intervallum kisebb lesz (pontosabb), mivel a minta méretét 5-ről 15 példára növeljük.

hiba sáv tűrés intervallum vs minta mérete

Extensions

Ez a rész felsorol néhány ötletet kiterjesztése a bemutató, hogy érdemes lehet felfedezni.

  • soroljon fel 3 olyan esetet, amikor a tolerancia intervallum használható egy gépi tanulási projektben.
  • keresse meg a Gauss-változóval rendelkező adatkészletet, és számítsa ki a tűrésintervallumokat.
  • vizsgáljon meg és írjon le egy módszert a nem paraméteres tolerancia intervallum kiszámítására.

ha feltárja ezeket a kiterjesztéseket, szeretném tudni.

további olvasmányok

Ez a szakasz további forrásokat tartalmaz a témában, ha mélyebbre szeretne menni.

Könyvek

  • az új statisztikák megértése: Hatásméretek, konfidencia intervallumok és metaanalízis, 2017.
  • statisztikai intervallumok: útmutató a szakemberek és kutatók számára, 2017.

API

  • scipy.statisztika.norm () API
  • scipy.statisztika.chi2 () API
  • matplotlib.pyplot.errorbar() API

cikkek

  • tolerancia intervallum a Wikipédián
  • 68-95-99.7 szabály a Wikipédián
  • percentilis a Wikipédián
  • tolerancia intervallumok a normál eloszláshoz

összefoglaló

ebben az oktatóanyagban felfedezted a statisztikai tolerancia intervallumokat és a Gauss-adatok tűrés intervallumának kiszámítását.

konkrétan megtanultad:

  • hogy a statisztikai toleranciaintervallumok határt szabnak a populáció megfigyeléseinek.
  • hogy a tolerancia intervallum megköveteli mind a lefedettség arányát, mind a megbízhatóságot.
  • hogy a Gauss-eloszlású adatminta tűrésintervalluma könnyen kiszámítható.

van kérdése?
tegye fel kérdéseit az alábbi megjegyzésekben, és mindent megteszek, hogy válaszoljak.

kap egy fogantyú statisztikák Gépi tanulás!

dolgozzon ki egy működő megértése statisztika

…írásban sorokat kódot python

fedezze fel, hogyan az én új Ebook:
statisztikai módszerek Gépi tanulás

Ez biztosítja önálló tanulás oktatóanyagok témákban, mint:
hipotézis tesztek, korreláció, nem paraméteres statisztika, mintavételezés, és még sok más…

fedezze fel, hogyan alakíthatja át az adatokat tudássá

hagyja ki az akadémikusokat. Csak Eredmények.

lásd, mi van benne

Tweet Megosztás Megosztás

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.