det kan være nyttigt at have en øvre og nedre grænse for data.
disse grænser kan bruges til at hjælpe med at identificere anomalier og sætte forventninger til, hvad de kan forvente. En bundet på observationer fra en population kaldes et toleranceinterval. Et toleranceinterval kommer fra området estimeringsstatistik.
et toleranceinterval er forskelligt fra et forudsigelsesinterval, der kvantificerer usikkerheden for en enkelt forudsagt værdi. Det adskiller sig også fra et konfidensinterval, der kvantificerer usikkerheden ved en populationsparameter såsom et gennemsnit. I stedet dækker et toleranceinterval en del af befolkningsfordelingen.
i denne tutorial vil du opdage statistiske toleranceintervaller og hvordan man beregner et toleranceinterval for gaussiske data.
Når du har gennemført denne tutorial, vil du vide:
- at statistiske toleranceintervaller giver grænser for observationer fra en population.
- at et toleranceinterval kræver, at både en dækningsandel og tillid specificeres.
- at toleranceintervallet for en dataprøve med en Gaussisk fordeling let kan beregnes.
kickstart dit projekt med min nye bog statistik for Machine Learning, herunder trin-for-trin tutorials og Python kildekode filer for alle eksempler.
lad os komme i gang.
en blid introduktion til statistiske Toleranceintervaller i maskinindlæring
foto af Paul Hood, nogle rettigheder forbeholdes.
- Tutorial Oversigt
- brug for hjælp til statistik til maskinindlæring?
- grænser for Data
- Hvad er statistiske Toleranceintervaller?
- Sådan beregnes Toleranceintervaller
- Toleranceinterval for Gaussisk Distribution
- udvidelser
- yderligere læsning
- bøger
- API
- artikler
- Resume
- Resume
- få styr på statistik til maskinindlæring!
- udvikle en fungerende forståelse af statistik
- Opdag, hvordan du omdanner Data til viden
Tutorial Oversigt
denne tutorial er opdelt i 4 dele; de er:
- grænser for Data
- hvad er statistiske Toleranceintervaller?
- Sådan beregnes Toleranceintervaller
- Toleranceinterval for Gaussisk Distribution
brug for hjælp til statistik til maskinindlæring?
Tag mit gratis 7-dages e-mail-crashkursus nu (med prøvekode).
Klik for at tilmelde dig og også få en gratis PDF Ebook version af kurset.
Hent dit gratis minikursus
grænser for Data
det er nyttigt at sætte grænser for data.
Hvis du f.eks. har en stikprøve af data fra et domæne, kan det være nyttigt at kende den øvre og nedre grænse for normale værdier til at identificere afvigelser eller afvigelser i dataene.
for en proces eller model, der laver forudsigelser, kan det være nyttigt at kende det forventede interval, som fornuftige forudsigelser kan tage.
at kende det fælles værdiområde kan hjælpe med at indstille forventninger og opdage anomalier.
rækken af fælles værdier for data kaldes et toleranceinterval.
Hvad er statistiske Toleranceintervaller?
toleranceintervallet er bundet af et skøn over andelen af data i en population.
et statistisk toleranceinterval en specificeret andel af enhederne fra den samplede population eller proces.
— Side 3, statistiske intervaller: en Guide til praktikere og forskere, 2017.
intervallet er begrænset af prøveudtagningsfejlen og af variansen af befolkningsfordelingen. I betragtning af loven om stort antal, når stikprøvestørrelsen øges, vil sandsynlighederne bedre matche den underliggende befolkningsfordeling.
nedenfor er et eksempel på et angivet toleranceinterval:
området fra H til y dækker 95% af dataene med en tillid på 99%.
hvis dataene er gaussiske, kan intervallet udtrykkes i sammenhæng med middelværdien; for eksempel:
h + / – y dækker 95% af dataene med en tillid på 99%.
Vi henviser til disse intervaller som statistiske toleranceintervaller for at differentiere dem fra toleranceintervaller inden for teknik, der beskriver grænser for accept, såsom for et design eller et materiale. Generelt vil vi beskrive dem som blot “toleranceintervaller” for nemheds skyld.
et toleranceinterval er defineret i to mængder:
- dækning: andelen af befolkningen, der er dækket af intervallet.
- tillid: den sandsynlige tillid til, at intervallet dækker andelen af befolkningen.
toleranceintervallet er konstrueret ud fra data ved hjælp af to koefficienter, dækningen og tolerancekoefficienten. Dækningen er den andel af befolkningen (p), som intervallet skal indeholde. Tolerancekoefficienten er den grad af tillid, hvormed intervallet når den angivne dækning. Et toleranceinterval med dækning på 95% og en tolerancekoefficient på 90% vil indeholde 95% af befolkningsfordelingen med en tillid på 90%.
— side 175, statistik for Miljøingeniører, anden udgave, 2002.
Sådan beregnes Toleranceintervaller
størrelsen af et toleranceinterval er proportional med størrelsen af dataprøven fra befolkningen og variansen af befolkningen.
der er to hovedmetoder til beregning af toleranceintervaller afhængigt af fordelingen af data: parametriske og ikke-parametriske metoder.
- parametrisk Toleranceinterval: brug viden om befolkningsfordelingen til at specificere både dækning og tillid. Ofte bruges til at henvise til en Gaussisk distribution.
- ikke-parametrisk Toleranceinterval: brug rangstatistik til at estimere dækningen og tilliden, hvilket ofte resulterer i mindre præcision (bredere intervaller) i betragtning af manglen på information om fordelingen.
Toleranceintervaller er relativt ligetil at beregne for en prøve af uafhængige observationer trukket fra en Gaussisk fordeling. Vi vil demonstrere denne beregning i næste afsnit.
Toleranceinterval for Gaussisk Distribution
i dette afsnit vil vi gennemgå et eksempel på beregning af toleranceintervaller på en dataprøve.
lad os først definere vores dataprøve. Vi vil oprette en prøve på 100 observationer trukket fra en Gaussisk fordeling med et gennemsnit på 50 og en standardafvigelse på 5.
1
2
|
# generer datasæt
data=5 * randn(100) + 50
|
under eksemplet, vi antager, at vi ikke er opmærksomme på den sande populationsgennemsnit og standardafvigelse, og at disse værdier skal estimeres.
da populationsparametrene skal estimeres, er der yderligere usikkerhed. For eksempel for en 95% dækning kunne vi bruge 1,96 (eller 2) standardafvigelser fra det estimerede gennemsnit som toleranceintervallet. Vi skal estimere middel-og standardafvigelsen fra prøven og tage højde for denne usikkerhed, derfor er beregningen af intervallet lidt mere kompleks.
Dernæst skal vi angive antallet af frihedsgrader. Dette vil blive brugt til beregning af kritiske værdier og i beregningen af intervallet. Specifikt bruges den til beregning af standardafvigelsen.
Husk at frihedsgraderne er antallet af værdier i beregningen, der kan variere. Her har vi 100 observationer, derfor 100 frihedsgrader. Vi kender ikke standardafvigelsen, derfor skal den estimeres ved hjælp af gennemsnittet. Dette betyder, at vores frihedsgrader vil være (N-1) eller 99.
1
2
3
|
# Angiv frihedsgrader
n=len(data)
DOF=N – 1
|
Dernæst skal vi angive den forholdsmæssige dækning af dataene. I dette eksempel er vi interesserede i de midterste 95% af dataene. Andelen er 95. Vi skal flytte denne andel, så den dækker de midterste 95%, det vil sige fra 2,5 percentilen til 97,5 percentilen.
Vi ved, at den kritiske værdi for 95% er 1,96, da vi bruger det så ofte; ikke desto mindre kan vi beregne det direkte i Python givet procentdelen 2,5% af den inverse overlevelsesfunktion. Dette kan beregnes ved hjælp af normen.isf () SciPy funktion.
1
2
3
4
|
# Angiv datadækningen
prop=0,95
prop_inv=(1,0 – prop)/2.0
gauss_critical = norm.isf (prop_inv)
|
Dernæst skal vi beregne dækningens tillid. Vi kan gøre dette ved at hente den kritiske værdi fra Chi kvadreret fordeling for det givne antal frihedsgrader og ønsket Sandsynlighed. Vi kan bruge chi2.isf () SciPy funktion.
1
2
3
|
# Angiv tillid
prob=0,99
chi_kritisk=chi2.DF = dof)
|
Vi har nu alle brikkerne til at beregne det gaussiske toleranceinterval. Beregningen er som følger:
1
|
interval=KVRT((DOF * (1 + (1/n)) * gauss_kritisk^2)/chi_critical)
|
hvor DOF er nummeret af frihedsgrader er n størrelsen på dataprøven, gauss_critical er den kritiske værdi, såsom 1,96 for 95% dækning af befolkningen, og chi_critical er Chi kvadreret kritisk værdi for den ønskede tillid og frihedsgrader.
1
|
interval=KVRT((DOF * (1 + (1/n)) * gauss_kritisk**2)/chi_critical)
|
Vi kan binde alt dette sammen og beregne det gaussiske toleranceinterval for vores dataprøve.
det komplette eksempel er angivet nedenfor.
kørsel af eksemplet beregner og udskriver først de relevante kritiske værdier for de gaussiske og Chi kvadrerede fordelinger. Tolerancen udskrives og præsenteres derefter korrekt.
det kan også være nyttigt at demonstrere, hvordan toleranceintervallet vil falde (blive mere præcist), når størrelsen på prøven øges.
eksemplet nedenfor viser dette ved at beregne toleranceintervallet for forskellige prøvestørrelser for det samme lille konstruerede problem.
kørsel af eksemplet skaber et plot, der viser toleranceintervallet omkring den sande populationsgennemsnit.
Vi kan se, at intervallet bliver mindre (mere præcist), da prøvestørrelsen øges fra 5 til 15 eksempler.
fejl Bar Plot af Tolerance Interval vs prøve størrelse
udvidelser
dette afsnit viser nogle ideer til at udvide tutorial, som du måske ønsker at udforske.
- Liste 3 tilfælde, hvor et toleranceinterval kunne bruges i et maskinlæringsprojekt.
- Find et datasæt med en Gaussisk variabel og beregne toleranceintervaller for det.
- forskning og beskrive en metode til beregning af et ikke-parametrisk toleranceinterval.
Hvis du udforsker nogen af disse udvidelser, vil jeg meget gerne vide det.
yderligere læsning
dette afsnit giver flere ressourcer om emnet, hvis du ønsker at gå dybere.
bøger
- forståelse af de nye statistikker: effektstørrelser, konfidensintervaller og Meta-analyse, 2017.
- statistiske intervaller: en Guide til praktikere og forskere, 2017.
API
- scipy.statistik.norm () API
- scipy.statistik.chi2 () API
- matplotlib.pyplot.errorbar() API
artikler
- Toleranceintervaller
- 68-95-99.7 regel om percentiler
- Toleranceintervaller for en normalfordeling
Resume
i denne tutorial opdagede du statistiske toleranceintervaller, og hvordan du beregner en normalfordeling
Resume
i denne tutorial opdagede du statistiske toleranceintervaller, og hvordan du beregner en toleranceinterval for gaussiske data.
specifikt lærte du:
- at statistiske toleranceintervaller giver grænser for observationer fra en population.
- at et toleranceinterval kræver, at både en dækningsandel og tillid specificeres.
- at toleranceintervallet for en dataprøve med en Gaussisk fordeling let kan beregnes.
har du spørgsmål?
stil dine spørgsmål i kommentarerne nedenfor, og jeg vil gøre mit bedste for at svare.
få styr på statistik til maskinindlæring!
udvikle en fungerende forståelse af statistik
…Ved at skrive kodelinjer i python
Opdag hvordan i min nye e-bog:
statistiske metoder til maskinindlæring
det giver selvstudie tutorials om emner som:
hypotesetest, korrelation, nonparametrisk statistik, Resampling og meget mere…
Opdag, hvordan du omdanner Data til viden
Spring akademikerne over. Bare Resultater.
se hvad der er indeni