A gently Introduction tolerance Intervalls in Machine Learning

Tweet Share Share

päivitetty viimeksi 8.elokuuta 2019

voi olla hyödyllistä, että datassa on ylä-ja alaraja.

näitä rajoja voidaan käyttää apuna anomalioiden tunnistamisessa ja odotusten asettamisessa sille, mitä odottaa. Populaation havaintoihin perustuvaa sidosta kutsutaan toleranssiväliksi. Toleranssiväli tulee estimointitilastojen kentästä.

toleranssiväli on erilainen kuin ennusteväli, joka kvantifioi yksittäisen ennustetun arvon epävarmuuden. Se eroaa myös luottamusvälistä, joka kvantifioi populaatioparametrin, kuten keskiarvon, epävarmuuden. Sen sijaan toleranssiväli kattaa osan populaatiojakaumasta.

tässä opetusohjelmassa tutustutaan tilastollisiin toleranssiväleihin ja siihen, miten lasketaan toleranssiväli Gaussin tiedoille.

tämän opetusohjelman suoritettuasi tiedät:

  • , että tilastolliset toleranssivälit antavat rajat populaation havainnoille.
  • , että toleranssiväli edellyttää sekä kattavuuden osuuden että luottamuksen täsmentämistä.
  • , että Gaussin jakaumalla olevan datanäytteen toleranssiväli voidaan helposti laskea.

Kick-start your project with my new book Statistics for Machine Learning, including step-by-step tutorials and the Python source code files for all examples.

aloitetaan.

a Gentle Introduction to Statistical Tolerance Intervalls in Machine Learning
Photo by Paul Hood, some rights reserved.

opetusohjelma yleiskatsaus

Tämä opetusohjelma on jaettu 4 osaan; ne ovat:

  1. tietojen rajat
  2. mitkä ovat tilastolliset Toleranssivälit?
  3. Miten lasketaan Toleranssiväli
  4. Toleranssiväli Gaussin jakaumalle

Tarvitsetko apua koneoppimisen tilastoinnissa?

ota ilmainen 7 päivän sähköpostin pikakurssi nyt (näytekoodilla).

klikkaa ilmoittautuaksesi ja saat myös ilmaisen PDF Ebook-version kurssista.

lataa ilmainen Minikurssi

Bounds on Data

on hyödyllistä laittaa bounds datalle.

esimerkiksi, jos sinulla on otos tietystä tietynlaisesta tietoperustasta, normaaliarvojen ylä-ja alarajan tunteminen voi auttaa tunnistamaan poikkeamia tai poikkeamia tiedoista.

ennusteita tekevälle prosessille tai mallille voi olla hyödyllistä tietää odotusalue, jonka järkevät ennustukset voivat viedä.

yhteisen arvoalueen tunteminen voi auttaa odotusten asettamisessa ja poikkeamien havaitsemisessa.

tietojen yhteisten arvojen vaihteluväliä kutsutaan toleranssiväliksi.

mitkä ovat tilastolliset Toleranssivälit?

toleranssiväli on sidottu estimaattiin tietojen osuudesta populaatiossa.

tilastollinen toleranssiväli tietty osuus otokseen valitusta populaatiosta tai prosessista otetuista yksiköistä.

— Page 3, Statistical Intervalls: a Guide for Practitioners and Researchers, 2017.

aikaväliä rajoittavat otantavirhe ja populaatiojakauman varianssi. Kun otetaan huomioon suurten lukujen laki, otoskoon kasvaessa todennäköisyydet vastaavat paremmin taustalla olevaa populaatiojakaumaa.

alla on esimerkki ilmoitetusta toleranssivälistä:

vaihteluväli x: stä y: hen kattaa 95% aineistosta 99%: n luottamuksella.

Jos aineisto on Gaussista, intervalli voidaan ilmaista keskiarvon yhteydessä; esimerkiksi:

x + / – y kattaa 95% aineistosta 99%: n luotettavuudella.

kutsumme näitä intervalleja tilastollisiksi toleranssiväleiksi, jotta erotamme ne tekniikan toleranssiväleistä, jotka kuvaavat hyväksyttävyyden rajoja, kuten mallin tai materiaalin osalta. Yleensä kuvaamme niitä yksinkertaisesti” toleranssiväleinä ” mukavuussyistä.

toleranssiväli määritellään kahtena suureena:

  • kattavuus: intervallin kattaman väestön osuus.
  • luottamus: todennäköinen luottamus siihen, että väli kattaa väestön osuuden.

toleranssiväli on muodostettu tiedoista käyttäen kahta kerrointa, kattavuutta ja toleranssikerrointa. Kattavuus on se osuus populaatiosta (p), jonka intervallin oletetaan sisältävän. Toleranssikerroin on luotettavuusaste, jolla väli saavuttaa määritellyn kattavuuden. Toleranssiväli, jonka kattavuus on 95 prosenttia ja toleranssikerroin 90 prosenttia, sisältää 95 prosenttia populaatiojakaumasta 90 prosentin luottamuksella.

— Page 175, Statistics for Environmental Engineers, Second Edition, 2002.

Toleranssivälien laskeminen

toleranssivälin koko on verrannollinen populaatiosta otetun aineiston kokoon ja populaation varianssiin.

on olemassa kaksi pääasiallista menetelmää toleranssivälien laskemiseksi aineiston jakaumasta riippuen: parametriset ja nonparametriset menetelmät.

  • parametrinen Toleranssiväli: käytä populaatiojakauman tuntemusta sekä kattavuuden että luottamuksen määrittämisessä. Käytetään usein viittaamaan Gaussin jakaumaan.
  • Nonparametrinen Toleranssiväli: kattavuuden ja luotettavuuden estimointiin käytetään ranking-tilastoja, jotka usein johtavat epätarkkuuteen (laajempiin intervalleihin), koska jakaumasta ei ole tietoa.

Toleranssivälit on suhteellisen suoraviivainen laskea otokselle riippumattomia havaintoja Gaussin jakaumasta. Esitämme tämän laskelman seuraavassa jaksossa.

Toleranssiväli Gaussin jakaumalle

tässä osiossa työstämme esimerkin toleranssivälien laskemisesta datanäytteelle.

määritellään ensin datanäytteemme. Luomme 100 havainnon otoksen Gaussin jakaumasta, jonka keskiarvo on 50 ja keskihajonta 5.

div>

# generate dataset
data=5 * randn(100) + 50

1
2

esimerkin aikana, oletamme, että emme tiedä todellista väestökeskiarvoa ja keskihajontaa ja että nämä arvot on arvioitava.

koska populaatioparametrit on estimoitava, epävarmuutta lisää. Esimerkiksi 95%: n kattavuudelle voisimme käyttää 1,96 (tai 2) keskihajontaa arvioidusta keskiarvosta toleranssivälinä. Meidän on arvioitava otoksen keskiarvo-ja keskihajonta ja otettava tämä epävarmuus huomioon, joten väliajan laskeminen on hieman monimutkaisempaa.

seuraavaksi on määriteltävä vapausasteiden lukumäärä. Tätä käytetään kriittisten arvojen laskennassa ja aikavälien laskennassa. Erityisesti sitä käytetään keskihajonnan laskennassa.

muista, että vapausasteet ovat laskennassa niitä arvoja, jotka voivat vaihdella. Täällä meillä on 100 havaintoa, siis 100 vapausastetta. Emme tiedä keskihajontaa, joten se on arvioitava keskiarvon avulla. Tämä tarkoittaa, että vapausasteemme on (N – 1) tai 99.

div>

1
2
3
# määritä vapausasteet
n=len(data)
dof = n – 1

seuraavaksi on määriteltävä tietojen suhteellinen kattavuus. Tässä esimerkissä meitä kiinnostaa keskimmäinen 95% tiedoista. Osuus on 95. Meidän on siirrettävä tämä osuus niin, että se kattaa keskellä 95%, joka on 2,5 TH percentile ja 97,5 TH percentile.

tiedämme, että kriittinen arvo 95%: lle on 1,96, koska käytämme sitä niin usein; voimme kuitenkin laskea sen suoraan Pythonilla, kun otetaan huomioon prosenttiosuus 2,5% käänteisestä eloonjäämisfunktiosta. Tämä voidaan laskea normin avulla.Isf () SciPy-funktio.

div>

1
2
3
# specified the data coverage
Prop=0.95
prop_inv = (1.0 – Prop)/2.0
gauss_critical = norm.isf (prop_inv)

seuraavaksi on laskettava kattavuuden luotettavuus. Voimme tehdä tämän hakemalla kriittisen arvon Chi Potenssijakaumasta annetulle vapausasteiden määrälle ja halutulle todennäköisyydelle. Voimme käyttää chi2: ta.Isf () SciPy-funktio.

div>

1
2
3
# määritä luottamus
prob=0, 99
chi_critical = chi2.isf (q=prob, df=dof)

meillä on nyt kaikki palaset Gaussin toleranssivälin laskemiseksi. Laskelma on seuraava:

div>

interval=sqrt((dof * (1 + (1/n)) * gauss_kritical^2)/chi_critical)
1

missä DOF on luku of vapausasteet, n on koko datanäytteen, gauss_critical on kriittinen arvo, kuten 1.96 95% kattavuus väestöstä, ja chi_critical on Chi potenssiin kriittinen arvo halutun luottamuksen ja vapausasteet.

div>

interval=sqrt((dof * (1 + (1/n)) * gauss_kritical**2)/chi_critical)
1

voimme sitoa tämän kaiken laske yhdessä Gaussin toleranssiväli datanäytteellemme.

täydellinen esimerkki on lueteltu alla.

esimerkin avulla lasketaan ja tulostetaan ensin Gaussin ja Chin Potenssijakaumien merkitykselliset kriittiset arvot. Toleranssi tulostetaan ja esitetään sitten oikein.

voi myös olla hyödyllistä osoittaa, miten toleranssiväli pienenee (tarkentuu) otoksen koon kasvaessa.

alla oleva esimerkki osoittaa tämän laskemalla eri otoskokojen toleranssivälin samalle pienelle keksitylle ongelmalle.

esimerkin suorittaminen luo kuvaajan, joka näyttää toleranssivälin todellisen populaation keskiarvon ympärillä.

voimme nähdä, että väli pienenee (tarkentuu), kun otoskoko kasvaa 5: stä 15 esimerkkiin.

Virhepalkin juoni Toleranssiväli vs. otoskoko

laajennukset

tässä osiossa luetellaan muutamia ideoita opetusohjelman laajentamiseksi, joita kannattaa tutkia.

  • listaa 3 tapausta, joissa toleranssiväliä voitaisiin käyttää koneoppimisprojektissa.
  • Etsi tietojoukko, jossa on Gaussin muuttuja, ja laske sille toleranssivälit.
  • tutkitaan ja kuvataan yksi menetelmä nonparametrisen toleranssivälin laskemiseksi.

jos tutkit jotain näistä laajennuksista, haluaisin tietää.

lisätietoja

tästä osiosta saa lisää resursseja aiheeseen, jos haluaa mennä syvemmälle.

Kirjat

  • Understanding The New Statistics: Effect Sizes, Confidence Intervalls, and Meta-Analysis, 2017.
  • tilastolliset intervallit: a Guide for Practitioners and Researchers, 2017.

API

  • scipy.tilastot.norm () API
  • scipy.tilastot.chi2 () API
  • matplotlib.pyplot.errorbar () API

Artikkelit

  • Toleranssiväli Wikipediassa
  • 68-95-99.7 sääntö Wikipediassa
  • normaalijakauman Toleranssivälit

Yhteenveto

tässä opetusohjelmassa löysit tilastolliset toleranssivälit ja miten toleranssiväli lasketaan Gaussin tiedoille.

erityisesti opit:

  • että tilastolliset toleranssivälit antavat rajat populaation havainnoille.
  • , että toleranssiväli edellyttää sekä kattavuuden osuuden että luottamuksen täsmentämistä.
  • , että Gaussin jakaumalla olevan datanäytteen toleranssiväli voidaan helposti laskea.

onko sinulla kysyttävää?
kysy kysymyksesi alla olevissa kommenteissa ja teen parhaani vastatakseni.

ota haltuun koneoppimisen tilastot!

Develop a working understanding of statistics

…kirjoittamalla koodirivejä Pythonilla

Discover how in my new Ebook:
Statistical Methods for Machine Learning

It provides self-study tutorials on topics as:
Hypothesis Tests, Correlation, Nonparametric Stats, Resampling, and much more…

selvitä, miten Data muutetaan tiedoksi

Ohita akateemikot. Pelkkiä Tuloksia.

see What ’ s Inside

Tweet Share Share

Vastaa

Sähköpostiosoitettasi ei julkaista.