Delikatne Wprowadzenie do interwałów tolerancji statystycznej w uczeniu maszynowym

Tweet Udostępnij Udostępnij

Ostatnia aktualizacja 08.08.2019

warto mieć górny i dolny limit danych.

te granice mogą być wykorzystane do identyfikacji anomalii i ustalenia oczekiwań co do tego, czego się spodziewać. Wiązanie obserwacji z populacji nazywa się odstępem tolerancji. Przedział tolerancji pochodzi z dziedziny statystyki estymacji.

przedział tolerancji różni się od przedziału predykcji, który określa niepewność dla pojedynczej przewidywanej wartości. Różni się również od przedziału ufności, który określa niepewność parametru populacji, takiego jak średnia. Zamiast tego przedział tolerancji obejmuje część rozkładu populacji.

w tym samouczku odkryjesz statystyczne przedziały tolerancji i jak obliczyć przedział tolerancji dla danych Gaussa.

Po ukończeniu tego kursu dowiesz się:

  • , że interwały tolerancji statystycznej zapewniają granice obserwacji z populacji.
  • że przedział tolerancji wymaga podania zarówno proporcji pokrycia, jak i ufności.
  • że przedział tolerancji dla próbki danych o rozkładzie Gaussa można łatwo obliczyć.

Rozpocznij swój projekt dzięki mojej nowej statystyce książki do uczenia maszynowego, w tym samouczkom krok po kroku i plikom kodu źródłowego Pythona dla wszystkich przykładów.

zaczynajmy.

delikatne Wprowadzenie do tolerancji statystycznej w uczeniu maszynowym
zdjęcie Paula Hooda, niektóre prawa zastrzeżone.

opis poradnika

Ten poradnik jest podzielony na 4 części; są to:

  1. granice danych
  2. czym są przedziały tolerancji statystycznej?
  3. Jak obliczyć przedziały tolerancji
  4. przedział tolerancji dla rozkładu Gaussa

potrzebujesz pomocy ze statystykami do uczenia maszynowego?

weź mój darmowy 7-dniowy crash course e-mail teraz (z przykładowym kodem).

Kliknij, aby się zapisać, a także otrzymać darmową wersję ebooka kursu w formacie PDF.

Pobierz darmowy Mini-kurs

granice danych

przydatne jest umieszczanie granic danych.

na przykład, jeśli masz próbkę danych z dziedziny, znajomość górnej i dolnej granicy wartości normalnych może być pomocna w identyfikacji anomalii lub wartości odstających w danych.

w przypadku procesu lub modelu, który tworzy prognozy, pomocne może być poznanie oczekiwanego zakresu, jaki mogą przyjmować rozsądne prognozy.

znajomość wspólnego zakresu wartości może pomóc w ustawianiu oczekiwań i wykrywaniu anomalii.

zakres wspólnych wartości dla danych nazywa się przedziałem tolerancji.

czym są przedziały tolerancji statystycznej?

przedział tolerancji jest związany z oszacowaniem proporcji danych w populacji.

przedział tolerancji statystycznej określony odsetek jednostek z badanej populacji lub procesu.

— Strona 3, interwały statystyczne: Przewodnik dla praktyków i badaczy, 2017.

interwał jest ograniczony błędem pobierania próbek i wariancją rozkładu populacji. Biorąc pod uwagę prawo dużych liczb, jak wielkość próby jest zwiększona, prawdopodobieństwo będzie lepiej dopasować rozkład populacji podstawowej.

poniżej znajduje się przykład podanego przedziału tolerancji:

zakres od x do y obejmuje 95% danych z ufnością 99%.

Jeżeli dane są Gaussa, przedział można wyrazić w kontekście wartości średniej; na przykład:

x +/- y obejmuje 95% danych z ufnością 99%.

określamy te przedziały jako statystyczne przedziały tolerancji, aby odróżnić je od przedziałów tolerancji w inżynierii, które opisują granice akceptowalności, takie jak dla projektu lub materiału. Ogólnie rzecz biorąc, opiszemy je jako po prostu” odstępy tolerancji ” dla wygody.

przedział tolerancji definiuje się jako dwie wielkości:

  • zasięg: odsetek populacji objętej przedziałem.
  • pewność: probabilistyczna pewność, że przedział obejmuje proporcję populacji.

przedział tolerancji jest skonstruowany z danych przy użyciu dwóch współczynników, pokrycia i współczynnika tolerancji. Zasięg jest proporcją populacji (p), którą powinien zawierać przedział. Współczynnik tolerancji to stopień ufności, z jakim przedział osiąga określone pokrycie. Przedział tolerancji o zasięgu 95% i współczynnik tolerancji 90% będą zawierały 95% rozkładu populacji z ufnością 90%.

– strona 175, Statistics for Environmental Engineers, Second Edition, 2002.

Jak obliczyć przedziały tolerancji

wielkość przedziału tolerancji jest proporcjonalna do wielkości próbki danych z populacji i wariancji populacji.

istnieją dwie główne metody obliczania przedziałów tolerancji w zależności od rozkładu danych: metody parametryczne i nieparametryczne.

  • interwał tolerancji parametrycznej: użyj wiedzy o rozkładzie populacji w określaniu zarówno zasięgu, jak i zaufania. Często używane w odniesieniu do rozkładu Gaussa.
  • nieparametryczny przedział tolerancji: użyj statystyk rangi do oszacowania zasięgu i zaufania, często skutkując mniejszą precyzją (szersze przedziały) ze względu na brak informacji o rozkładzie.

przedziały Tolerancji są stosunkowo proste do obliczenia dla próbki niezależnych obserwacji uzyskanych z rozkładu Gaussa. Te obliczenia zademonstrujemy w następnej sekcji.

przedział tolerancji dla rozkładu Gaussa

w tej sekcji omówimy przykład obliczania przedziałów tolerancji na próbce danych.

najpierw zdefiniujmy naszą próbkę danych. Stworzymy próbkę 100 obserwacji z rozkładu Gaussa ze średnią 50 i odchyleniem standardowym 5.

1
2

# utworzyć tablicę danych
dane = 5 * randn(100) + 50

na przykład, Zakładamy, że nie jesteśmy świadomi prawdziwej średniej populacji i odchylenia standardowego i że wartości te muszą być oszacowane.

ponieważ parametry populacji muszą być oszacowane, istnieje dodatkowa niepewność. Na przykład dla pokrycia 95% możemy użyć 1,96 (lub 2) odchylenia standardowego od szacowanej średniej jako przedziału tolerancji. Musimy oszacować średnią i odchylenie standardowe od próbki i wziąć pod uwagę tę niepewność, dlatego obliczanie przedziału jest nieco bardziej złożone.

następnie musimy podać liczbę stopni swobody. Będzie to wykorzystywane przy obliczaniu wartości krytycznych oraz przy obliczaniu przedziału. W szczególności jest on stosowany do obliczania odchylenia standardowego.

pamiętaj, że stopnie swobody to liczba wartości w obliczeniach, które mogą się różnić. Tutaj mamy 100 obserwacji, a więc 100 stopni swobody. Nie znamy odchylenia standardowego, dlatego należy je oszacować za pomocą średniej. Oznacza to, że nasze stopnie swobody będą równe (N-1) lub 99.

1
2
3

# define liczba stopni swobody
N = len(informacje)
FD = N – 1

następnie musimy określić proporcjonalne pokrycie danych. W tym przykładzie jesteśmy zainteresowani środkowymi 95% danych. Odsetek ten wynosi 95. Musimy przesunąć tę proporcję tak, aby obejmowała środkowe 95%, czyli od 2,5 percentyla do 97,5 percentyla.

wiemy, że wartość krytyczna dla 95% wynosi 1,96, biorąc pod uwagę, że używamy jej tak często; niemniej jednak możemy obliczyć ją bezpośrednio w Pythonie, biorąc pod uwagę procent 2,5% odwrotnej funkcji przetrwania. Można to obliczyć za pomocą normy.funkcja Isf () SciPy.

1
2
3
4

# wprowadź dane pokrycia
prop = 0.95
prop_inv = (1.0 – gumowa) / 2.0
gauss_critical = norm.isf (prop_inv)

następnie musimy obliczyć ufność pokrycia. Możemy to zrobić pobierając wartość krytyczną z rozkładu Chi kwadrat dla danej liczby stopni swobody i pożądanego prawdopodobieństwa. Możemy użyć chi2.funkcja Isf () SciPy.

1
2
3

# wprowadź zaufania
problem = 0.99
chi_critical = chi2.isf (q = prob, df = dof)

mamy teraz wszystkie elementy do obliczenia interwału tolerancji Gaussa. Obliczenia są następujące:

1
interwał = pierwiastek((DEHP * (1 + (1/n)) * gauss_critical^2) / chi_critical)

gdzie FO-ilość stopni swobody, N jest wielkością próbki danych, gauss_critical jest wartością krytyczną, taką jak 1,96 dla 95% pokrycia populacji, a chi_critical jest Chi do kwadratu wartością krytyczną dla pożądanego zaufania i stopni swobody.

1
interwał = pierwiastek((DEHP * (1 + (1/n)) * gauss_critical**2) / chi_critical)

możemy powiązać to wszystko razem i obliczyć przedział tolerancji Gaussa dla naszej próbki danych.

kompletny przykład znajduje się poniżej.

uruchamiając przykład najpierw oblicza i wypisuje odpowiednie wartości krytyczne dla rozkładów Gaussa i Chi do kwadratu. Tolerancja jest drukowana, a następnie prawidłowo prezentowana.

pomocne może być również wykazanie, w jaki sposób odstęp tolerancji zmniejszy się (stanie się bardziej precyzyjny) wraz ze wzrostem wielkości próbki.

poniższy przykład pokazuje to, obliczając przedział tolerancji dla różnych rozmiarów próbki dla tego samego małego problemu.

uruchomienie przykładu tworzy wykres pokazujący przedział tolerancji wokół rzeczywistej średniej populacji.

widzimy, że przedział staje się mniejszy (bardziej precyzyjny) wraz ze wzrostem wielkości próbki z 5 do 15 przykładów.

Wykres paska błędu odstęp tolerancji vs Rozmiar próbki

rozszerzenia

Ta sekcja zawiera kilka pomysłów na rozszerzenie samouczka, które możesz chcieć zbadać.

  • Lista 3 przypadków, w których przedział tolerancji może być użyty w projekcie uczenia maszynowego.
  • Zlokalizuj zbiór danych ze zmienną Gaussa i Oblicz dla niego przedziały tolerancji.
  • zbadaj i opisz jedną metodę obliczania nieparametrycznego przedziału tolerancji.

Jeśli zbadasz którekolwiek z tych rozszerzeń, chciałbym wiedzieć.

Czytaj dalej

Ta sekcja zawiera więcej zasobów na ten temat, jeśli chcesz zagłębić się w ten temat.

Książki

  • zrozumienie nowych statystyk: rozmiary efektów, przedziały ufności i metaanaliza, 2017.
  • interwały statystyczne: Przewodnik dla praktyków i badaczy, 2017.

API

  • scipy.statystyki.norm () API
  • scipy.statystyki.chi2 () API
  • matplotlib.pyplot.errorbar() API

Artykuły

  • interwał tolerancji na Wikipedii
  • 68-95-99.7 zasada na Wikipedii
  • percentyl na Wikipedii
  • interwały tolerancji dla rozkładu normalnego

podsumowanie

w tym samouczku odkryłeś statystyczne interwały tolerancji i sposób obliczania interwału tolerancji dla danych Gaussa.

konkretnie, nauczyłeś się:

  • że interwały tolerancji statystycznej dają granice obserwacji z populacji.
  • że przedział tolerancji wymaga podania zarówno proporcji pokrycia, jak i ufności.
  • że przedział tolerancji dla próbki danych o rozkładzie Gaussa można łatwo obliczyć.

masz pytania?
Zadawaj pytania w komentarzach poniżej, a ja postaram się odpowiedzieć.

Zdobądź statystyki dla uczenia maszynowego!

rozwiń robocze zrozumienie statystyki

…pisząc linie kodu w Pythonie

Dowiedz się, jak w moim nowym ebooku:
Statystyczne metody uczenia maszynowego

zapewnia samouczki do samodzielnej nauki na takie tematy, jak:
testy hipotez, korelacja, statystyki nieparametryczne, Resampling i wiele innych…

dowiedz się, jak przekształcić dane w wiedzę

Tylko Wyniki.

Zobacz co jest w środku

Tweet Udostępnij Udostępnij

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.