En Mild Introduksjon til Statistiske Toleranseintervaller i Maskinlæring

Tweet Share Share

Sist Oppdatert 8. August 2019

det kan være nyttig å ha en øvre og nedre grense på data.

disse grensene kan brukes til å identifisere avvik og sette forventninger til hva du kan forvente. En bundet på observasjoner fra en populasjon kalles et toleranseintervall. Et toleranseintervall kommer fra feltet estimeringsstatistikk.et toleranseintervall er forskjellig fra et prediksjonsintervall som kvantifiserer usikkerheten for en enkelt spådd verdi. Det er også forskjellig fra et konfidensintervall som kvantifiserer usikkerheten til en populasjonsparameter som et gjennomsnitt. I stedet dekker et toleranseintervall en andel av befolkningsfordelingen.i denne opplæringen vil du oppdage statistiske toleranseintervaller og hvordan du beregner et toleranseintervall for Gaussiske data.

etter å ha fullført denne opplæringen, vil du vite:

  • at statistiske toleranseintervaller gir grenser for observasjoner fra en populasjon.
  • at et toleranseintervall krever at både dekningsandel og tillit spesifiseres.
  • at toleranseintervallet for en dataprøve med En Gaussisk fordeling enkelt kan beregnes.Kick-start prosjektet med min nye Bok Statistikk For Maskinlæring, inkludert trinn-for-trinn tutorials og Python kildekodefiler for alle eksempler.

    La oss komme i gang.

    En Mild Introduksjon Til Statistiske Toleranseintervaller I Maskinlæring
    Foto Av Paul Hood, noen rettigheter reservert.

    Tutorial Oversikt

    denne opplæringen er delt inn i 4 deler; de er:

    1. Grenser På Data
    2. Hva Er Statistiske Toleranseintervaller?
    3. Hvordan Beregne Toleranseintervaller
    4. Toleranseintervall For Gaussisk Distribusjon

    Trenger Du Hjelp Med Statistikk for Maskinlæring?

    Ta min gratis 7-dagers e-lynkurs nå (med eksempelkode).

    Klikk for å registrere deg og få også en GRATIS Pdf Ebook-versjon av kurset.

    Last Ned Gratis Minikurs

    Grenser På Data

    det er nyttig å sette grenser på data.

    hvis du for eksempel har et utvalg av data fra et domene, kan det være nyttig å vite øvre og nedre grense for normale verdier for å identifisere avvik eller avvik i dataene.

    for en prosess eller modell som gjør spådommer, kan det være nyttig å vite det forventede området som fornuftige spådommer kan ta.

    Å Vite det felles verdiområdet kan hjelpe med å sette forventninger og oppdage anomalier.

    utvalget av felles verdier for data kalles et toleranseintervall.

    Hva Er Statistiske Toleranseintervaller?

    toleranseintervallet er bundet på et estimat av andelen data i en populasjon.

    et statistisk toleranseintervall en spesifisert andel av enhetene fra den samplede populasjonen eller prosessen.

    — Side 3, Statistiske Intervaller: En Veiledning For Utøvere og Forskere, 2017.

    intervallet er begrenset av utvalgsfeilen og av variansen i populasjonsfordelingen. Gitt loven om store tall, etter hvert som utvalgsstørrelsen økes, vil sannsynlighetene bedre matche den underliggende befolkningsfordelingen.

    nedenfor er et eksempel på et angitt toleranseintervall:

    området fra x til y dekker 95% av dataene med en konfidens på 99%.

    hvis dataene Er Gaussiske, kan intervallet uttrykkes i sammenheng med middelverdien; for eksempel:

    x +/- y dekker 95% av dataene med en tillit på 99%.

    vi refererer til disse intervallene som statistiske toleranseintervaller, for å skille dem fra toleranseintervaller i engineering som beskriver grenser for aksept, for eksempel for et design eller et materiale. Generelt vil vi beskrive dem som bare «toleranseintervaller» for enkelhets skyld.

    et toleranseintervall er definert i form av to mengder:

    • Dekning: andelen av befolkningen som omfattes av intervallet.
    • Confidence: den probabilistiske tilliten til at intervallet dekker andelen av befolkningen.

    toleransintervallet er konstruert fra data ved hjelp av to koeffisienter, dekning og toleransekoeffisient. Dekningen er andelen av befolkningen (p) som intervallet skal inneholde. Toleransekoeffisienten er graden av tillit som intervallet når den angitte dekning. Et toleranseintervall med dekning på 95% og en toleransekoeffisient på 90% vil inneholde 95% av befolkningsfordelingen med en konfidens på 90%.

    — Side 175, Statistikk For Miljøingeniører, Andre Utgave, 2002.

    Hvordan Beregne Toleranseintervaller

    størrelsen på et toleranseintervall er proporsjonal med størrelsen på datautvalget fra populasjonen og variansen av populasjonen.

    det er to hovedmetoder for beregning av toleranseintervaller avhengig av fordelingen av data: parametriske og ikke-parametriske metoder.

    • Parametrisk Toleranseintervall: Bruk kunnskap om befolkningsfordelingen til å spesifisere både dekning og tillit. Ofte brukt til å referere Til En Gaussisk fordeling.Ikke-Parametrisk Toleranseintervall: bruk rangstatistikk for å estimere dekning og tillit, noe som ofte resulterer i mindre presisjon (bredere intervaller) gitt mangel på informasjon om fordelingen.

    Toleranseintervaller er relativt enkle å beregne for et utvalg av uavhengige observasjoner hentet fra En Gaussisk fordeling. Vi vil demonstrere denne beregningen i neste avsnitt.

    Toleranseintervall For Gaussisk Fordeling

    I denne delen vil vi arbeide gjennom et eksempel på å beregne toleranseintervallene på en dataprøve.

    La Oss først definere vår dataprøve. Vi vil lage et utvalg av 100 observasjoner trukket fra En Gaussisk fordeling med et gjennomsnitt på 50 og et standardavvik på 5.

    div>

    # generere datasett
    data=5 * randn(100) + 50

    1
    2

    under eksemplet, vi vil anta at vi ikke er klar over den sanne populasjonsgjennomsnittet og standardavviket, og at disse verdiene må estimeres.

    fordi befolkningsparametrene må estimeres, er det ytterligere usikkerhet. For eksempel, for en 95% dekning, kan vi bruke 1,96 (eller 2) standardavvik fra estimert gjennomsnitt som toleranseintervallet. Vi må estimere gjennomsnitts – og standardavviket fra utvalget og ta hensyn til denne usikkerheten, derfor er beregningen av intervallet litt mer komplisert.

    Deretter må vi angi antall grader av frihet. Dette vil bli brukt i beregningen av kritiske verdier og i beregningen av intervallet. Spesielt brukes den i beregningen av standardavviket.

    Husk at frihetsgrader er antall verdier i beregningen som kan variere. Her har vi 100 observasjoner, derfor 100 grader av frihet. Vi vet ikke standardavviket, derfor må det estimeres ved hjelp av gjennomsnittet. Dette betyr at våre frihetsgrader vil være (N – 1) eller 99.

    div>

    # spesifiser frihetsgrader
    n=len(data)
    dof = n – 1

    1
    2
    3

    Deretter må vi angi proporsjonal dekning av dataene. I dette eksemplet er vi interessert i midten 95% av dataene. Andelen er 95. Vi må skifte denne andelen slik at den dekker midten 95%, det vil si fra 2,5 prosentilen til 97,5 prosentilen.vi vet at den kritiske verdien for 95% er 1,96 gitt at vi bruker den så ofte; likevel kan vi beregne den direkte i Python gitt prosentandelen 2,5% av den inverse overlevelsesfunksjonen. Dette kan beregnes ved hjelp av normen.isf () SciPy-funksjonen.

    div>

    # angi datadekning
    prop=0.95
    prop_inv = (1.0 – prop) / 2.0
    gauss_critical = norm.isf (prop_inv)

    1
    3
    4

    deretter må vi beregne tilliten til dekningen. Vi kan gjøre dette ved å hente den kritiske verdien fra Chi Squared fordelingen for gitt antall frihetsgrader og ønsket sannsynlighet. Vi kan bruke chi2.isf () SciPy-funksjonen.

    div>

    # spesifiser tillit
    prob=0,99
    chi_critical = chi2.isf (q=prob, df=dof)

    1
    2
    3

    Vi har nå alle brikkene til å beregne Gaussisk toleranseintervall. Beregningen er som følger:

    div>

    intervall=sqrt((dof * (1 + (1 / n)) * gauss_kritisk^2) / chi_critical)

    1

    hvor dof er nummeret av frihetsgrader er n størrelsen på dataprøven, gauss_critical er den kritiske verdien, for eksempel 1,96 for 95% dekning av befolkningen, og chi_critical er Chi Squared kritisk verdi for ønsket tillit og frihetsgrader.

    div>

    intervall=sqrt((dof * (1 + (1 / n)) * gauss_kritisk**2) / chi_critical)

    1

    vi kan knytte alt dette sammen og beregne Gaussisk toleranseintervall for vår dataprøve.

    det komplette eksemplet er oppført nedenfor.

    Kjører eksemplet først beregner og skriver ut de relevante kritiske verdiene For Gauss-og Chi-Kvadrerte fordelingene. Toleransen skrives ut, og presenteres deretter riktig.

    det kan også være nyttig å demonstrere hvordan toleranseintervallet vil redusere (bli mer presist) ettersom størrelsen på prøven økes.

    eksemplet nedenfor viser dette ved å beregne toleranseintervallet for forskjellige utvalgsstørrelser for det samme lille problemet.

    Ved å Kjøre eksemplet opprettes et plott som viser toleranseintervallet rundt den sanne populasjonsgjennomsnittet.

    vi kan se at intervallet blir mindre (mer presist) ettersom prøvestørrelsen økes fra 5 til 15 eksempler.

    Feilfelt Plott Av Toleranseintervall vs Prøvestørrelse

    Utvidelser

    denne delen viser noen ideer for å utvide opplæringen som du kanskje ønsker å utforske.

    • Liste 3 tilfeller der et toleranseintervall kan brukes i et maskinlæringsprosjekt.
    • Finn et datasett med en gaussisk variabel og beregne toleranseintervaller for den.
    • Forskning og beskrive en metode for å beregne et ikke-parametrisk toleranseintervall.

    hvis du utforsker noen av disse utvidelsene, vil jeg gjerne vite.

    Videre Lesing

    denne delen gir flere ressurser om emnet hvis du ønsker å gå dypere.

    Bøker

    • Forstå Den Nye Statistikken: Effektstørrelser, Konfidensintervaller og Meta-Analyse, 2017.
    • Statistiske Intervaller: En Veiledning for Utøvere og Forskere, 2017.

    API

    • scipy.statistikk.standard () API
    • scipy.statistikk.chi2 () API
    • matplotlib.pyplot.Errorbar() API

    Artikler

    • Toleranseintervall På Wikipedia
    • 68-95-99.7 regel På Wikipedia
    • Persentil På Wikipedia
    • Toleranseintervaller for en normal fordeling

    Sammendrag

    i denne opplæringen oppdaget du statistiske toleranseintervaller og hvordan du beregner et toleranseintervall for Gaussiske data.

    Spesielt lærte Du:

    • at statistiske toleranseintervaller gir en grense for observasjoner fra en populasjon.
    • at et toleranseintervall krever at både dekningsandel og tillit spesifiseres.
    • at toleranseintervallet for en dataprøve med En Gaussisk fordeling enkelt kan beregnes.

    har du noen spørsmål?
    Still dine spørsmål i kommentarfeltet nedenfor, og jeg vil gjøre mitt beste for å svare.

    Få Et Håndtak På Statistikk For Maskinlæring!

    Utvikle en fungerende forståelse av statistikk

    …ved å skrive linjer med kode i python

    Oppdag hvordan i min nye Ebok:
    Statistiske Metoder for Maskinlæring

    Det gir selvstudium tutorials på emner som:
    Hypotese Tester, Korrelasjon, Nonparametric Statistikk, Resampling, og mye mer…

    Oppdag Hvordan Du Forvandler Data til Kunnskap

    Hopp Over Akademikerne. Bare Resultater.

    Se Hva Som Er Inni

    Tweet Share Share

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.