Poslední aktualizace 8. srpna 2019
To může být užitečné mít horní a dolní limit na data.
tyto hranice lze použít k identifikaci anomálií a stanovení očekávání toho, co lze očekávat. Vázaný na pozorování z populace se nazývá interval tolerance. Interval tolerance pochází z oblasti statistiky odhadu.
interval tolerance se liší od intervalu predikce, který kvantifikuje nejistotu pro jednu předpovězenou hodnotu. Liší se také od intervalu spolehlivosti, který kvantifikuje nejistotu parametru populace, jako je průměr. Místo toho interval tolerance pokrývá část distribuce populace.
v tomto tutoriálu zjistíte statistické intervaly tolerance a jak vypočítat interval tolerance pro Gaussova data.
po dokončení tohoto tutoriálu budete vědět:
- že intervaly statistické tolerance poskytují hranice pozorování populace.
- že interval tolerance vyžaduje, aby byl specifikován jak poměr pokrytí, tak důvěra.
- že interval tolerance pro vzorek dat s gaussovým rozdělením lze snadno vypočítat.
nastartujte svůj projekt pomocí mé nové statistiky knih pro strojové učení, včetně podrobných tutoriálů a souborů zdrojového kódu Pythonu pro všechny příklady.
začněme.
Jemný Úvod do Statistické Toleranční Intervaly v Strojového Učení
Foto Paul Hood, některá práva jsou vyhrazena.
- přehled tutoriálu
- Potřebujete pomoci s Statistiky pro Strojové Učení?
- Hranice na Data
- jaké jsou intervaly statistické Tolerance?
- Jak Vypočítat Toleranční Intervaly
- interval Tolerance pro Gaussovo rozdělení
- Rozšíření
- další čtení
- knihy
- API
- Články
- Shrnutí
- Získejte přehled o statistikách pro strojové učení!
- chápání pracovní statistiky
- Objevte, jak transformovat Data do znalostí
přehled tutoriálu
tento tutoriál je rozdělen na 4 části; jsou:
- meze na datech
- jaké jsou intervaly statistické Tolerance?
- Jak Vypočítat Toleranční Intervaly
- Interval Tolerance pro Gaussovo Rozdělení,
Potřebujete pomoci s Statistiky pro Strojové Učení?
Vezměte si zdarma 7denní e-mailový rychlokurz (se vzorovým kódem).
kliknutím se zaregistrujete a také získáte zdarma PDF Ebook verzi kurzu.
Stáhněte si ZDARMA Mini-Kurz,
Hranice na Data
je užitečné dát hranice na data.
například pokud máte vzorek dat z domény, znalost horní a dolní hranice normálních hodnot může být užitečná pro identifikaci anomálií nebo odlehlých hodnot v datech.
pro proces nebo model, který dělá předpovědi, může být užitečné znát očekávaný rozsah, který mohou rozumné předpovědi trvat.
Znalost společného rozsahu hodnot může pomoci s nastavením očekávání a detekcí anomálií.
rozsah společných hodnot pro data se nazývá interval tolerance.
jaké jsou intervaly statistické Tolerance?
interval tolerance je vázán na odhad podílu údajů v populaci.
interval statistické tolerance stanovený podíl jednotek ze vzorkované populace nebo procesu.
— – strana 3, statistické intervaly: průvodce pro odborníky a výzkumné pracovníky, 2017.
interval je omezen chybou vzorkování a rozptylem distribuce populace. Vzhledem k zákonu velkých čísel, jak se velikost vzorku zvětšuje, budou pravděpodobnosti lépe odpovídat základní distribuci populace.
Níže je příklad uvedl tolerančního intervalu:
rozsah od x do y pokrývá 95% dat s 99% jistotou.
pokud jsou data Gaussova, interval lze vyjádřit v kontextu střední hodnoty; například:
x + / – y pokrývá 95% dat s jistotou 99%.
tyto intervaly označujeme jako intervaly statistické tolerance, abychom je odlišili od intervalů tolerance ve strojírenství, které popisují limity přijatelnosti, například pro návrh nebo materiál. Obecně je budeme popisovat jako jednoduše „intervaly tolerance“ pro pohodlí.
interval tolerance je definován ve dvou veličinách:
- pokrytí: podíl populace pokryté intervalem.
- důvěra: pravděpodobnostní důvěra, že interval pokrývá podíl populace.
tolerance interval je konstruován z dat pomocí dvou koeficientů, pokrytí a tolerance koeficient. Pokrytí je podíl populace (p), který má interval obsahovat. Koeficient tolerance je stupeň spolehlivosti, s nímž interval dosáhne stanoveného pokrytí. Interval tolerance s pokrytím 95% a koeficient tolerance 90% bude obsahovat 95% distribuce populace s jistotou 90%.
— – Strana 175, Statistika pro environmentální inženýry, druhé vydání, 2002.
Jak Vypočítat Toleranční Intervaly
velikost tolerančního intervalu je úměrná velikosti vzorku dat z populace a rozptylu populace.
existují dvě hlavní metody pro výpočet intervalů tolerance v závislosti na distribuci dat: parametrické a neparametrické metody.
- Interval parametrické Tolerance: využijte znalosti distribuce populace při určování pokrytí i spolehlivosti. Často se používá k označení Gaussova rozdělení.
- Neparametrický Toleranční Interval: Použití hodnost statistiky pro odhad pokrytí a důvěru, což často vede k méně přesné (širší intervaly) vzhledem k nedostatku informací o distribuci.
intervaly Tolerance jsou relativně jednoduché pro výpočet vzorku nezávislých pozorování získaných z Gaussova rozdělení. Tento výpočet ukážeme v další části.
interval Tolerance pro Gaussovo rozdělení
v této části budeme pracovat na příkladu výpočtu intervalů tolerance na vzorku dat.
nejprve definujme náš vzorek dat. Vytvoříme vzorek 100 pozorování vyvodit z Gaussova rozdělení s průměrem 50 a směrodatnou odchylkou 5.
1
2
|
# generovat dataset
data = 5 * randn(100) + 50
|
Během příklad, budeme předpokládat, že si neuvědomujeme skutečný průměr populace a směrodatnou odchylku a že tyto hodnoty je třeba odhadnout.
vzhledem k tomu, že je třeba odhadnout parametry populace, existuje další nejistota. Například pro 95% pokrytí bychom mohli použít 1,96 (nebo 2) směrodatné odchylky od odhadovaného průměru jako toleranční interval. Musíme odhadnout střední a směrodatnou odchylku od vzorku a vzít tuto nejistotu v úvahu, proto je výpočet intervalu o něco složitější.
dále musíme zadat počet stupňů volnosti. To bude použito při výpočtu kritických hodnot a při výpočtu intervalu. Konkrétně se používá při výpočtu směrodatné odchylky.
nezapomeňte, že stupně volnosti jsou počet hodnot ve výpočtu, které se mohou lišit. Zde máme 100 pozorování, tedy 100 stupňů volnosti. Neznáme směrodatnou odchylku, proto je třeba ji odhadnout pomocí průměru. To znamená, že naše stupně volnosti budou (N-1) nebo 99.
1
2
3
|
# určete počet stupňů volnosti
n = len(data)
dof = n – 1
|
dále musíme určit proporcionální pokrytí dat. V tomto příkladu nás zajímá střední 95% dat. Podíl je 95. Musíme změnit tento podíl tak, že pokrývá střední 95%, že je od 2,5 tého percentilu na 97.5 percentil.
víme, že kritická hodnota pro 95% je 1,96 vzhledem k tomu, že používáme ho tak často, nicméně, my můžeme vypočítat přímo v Pythonu vzhledem k tomu, procento 2,5% inverzní funkce přežití. To lze vypočítat pomocí normy.isf () SciPy funkce.
1
2
3
4
|
# zadejte data pokrytí
prop = 0.95
prop_inv = (1.0 – prop) / 2.0
gauss_critical = norm.isf(prop_inv)
|
Next, musíme počítat důvěru pokrytí. Můžeme to udělat tím, že získáme kritickou hodnotu z Chi na druhou pro daný počet stupňů volnosti a požadovanou pravděpodobnost. Můžeme použít chi2.isf () SciPy funkce.
1
2
3
|
# zadejte důvěru
prob = 0.99
chi_critical = chi2.isf(q=prob, df=dof)
|
nyní Máme všechny kousky pro výpočet Gaussian tolerančního intervalu. Výpočet je následující:
1
|
interval = sqrt((dof * (1 + (1/n)) * gauss_critical^2) / chi_critical)
|
Kde je počet dof stupňů volnosti, n je velikost vzorku dat, gauss_critical je kritická hodnota, jako je 1.96 pro 95% pokrytí populace, a chi_critical je Chi Squared kritické hodnoty pro požadovanou důvěru a stupňů volnosti.
1
|
interval = sqrt((dof * (1 + (1/n)) * gauss_critical**2) / chi_critical)
|
můžeme spojit všechny tyto společně a vypočítat gaussovský toleranční interval pro náš vzorek dat.
úplný příklad je uveden níže.
spuštění příkladu nejprve vypočítá a vytiskne relevantní kritické hodnoty pro rozdělení Gaussova a Chi na druhou. Tolerance je vytištěna a poté prezentována správně.
může být také užitečné ukázat, jak se interval tolerance sníží (bude přesnější), jak se zvětší velikost vzorku.
následující příklad to demonstruje výpočtem tolerančního intervalu pro různé velikosti vzorku pro stejný malý vymyšlený problém.
spuštění příkladu vytvoří graf ukazující interval tolerance kolem skutečného průměru populace.
vidíme, že interval se zmenšuje (přesněji), protože velikost vzorku se zvětšuje z 5 na 15 příkladů.
Error Bar graf Interval Tolerance vs Velikost Vzorku
Rozšíření
Tento oddíl uvádí některé nápady pro rozšíření kurzu, které možná budete chtít prozkoumat.
- vyjmenujte 3 případy, kdy lze v projektu strojového učení použít toleranční interval.
- vyhledejte datovou sadu s Gaussovou proměnnou a vypočítejte pro ni intervaly tolerance.
- výzkum a popis jedné metody pro výpočet neparametrického tolerančního intervalu.
pokud prozkoumáte některé z těchto rozšíření, rád bych to věděl.
další čtení
tato část poskytuje více zdrojů k tématu, pokud chcete jít hlouběji.
knihy
- porozumění novým statistikám: velikosti efektů, intervaly spolehlivosti a metaanalýza, 2017.
- statistické intervaly: průvodce pro odborníky a výzkumné pracovníky, 2017.
API
- scipy.statistik.norm () API
- scipy.statistik.chi2 () API
- matplotlib.pyplot.errorbar() API
Články
- Tolerance interval na Wikipedii
- 68-95-99.7 pravidlo na Wikipedii
- Percentil na Wikipedii
- Tolerance intervaly pro normální rozdělení
Shrnutí
V tomto tutoriálu, se objevil statistické toleranční intervaly a jak vypočítat interval tolerance pro Gaussian data.
konkrétně jste se naučili:
- že intervaly statistické tolerance poskytují meze pozorování z populace.
- že interval tolerance vyžaduje, aby byl specifikován jak poměr pokrytí, tak důvěra.
- že interval tolerance pro vzorek dat s gaussovým rozdělením lze snadno vypočítat.
máte nějaké dotazy?
zeptejte se v komentářích níže a já se budu snažit odpovědět.
Získejte přehled o statistikách pro strojové učení!
chápání pracovní statistiky
…o psaní řádků kódu v pythonu
Zjistit, jak můj nový Ebook:
Statistické Metody Strojového Učení
To poskytuje self-studovat návody na témata, jako jsou:
Hypotéza Testy, Korelace, Neparametrické Statistiky, Převzorkování, a mnohem více…
Objevte, jak transformovat Data do znalostí
přeskočte akademiky. Jen Výsledky.
podívejte se, co je uvnitř