Una delicata introduzione agli intervalli di tolleranza statistica nell’apprendimento automatico

Tweet Share Share

Ultimo aggiornamento l ‘ 8 agosto 2019

Può essere utile avere un limite superiore e inferiore sui dati.

Questi limiti possono essere utilizzati per aiutare a identificare le anomalie e impostare le aspettative su cosa aspettarsi. Un limite sulle osservazioni da una popolazione è chiamato intervallo di tolleranza. Un intervallo di tolleranza deriva dal campo delle statistiche di stima.

Un intervallo di tolleranza è diverso da un intervallo di previsione che quantifica l’incertezza per un singolo valore previsto. È anche diverso da un intervallo di confidenza che quantifica l’incertezza di un parametro di popolazione come una media. Invece, un intervallo di tolleranza copre una percentuale della distribuzione della popolazione.

In questo tutorial, scoprirai gli intervalli di tolleranza statistici e come calcolare un intervallo di tolleranza per i dati gaussiani.

Dopo aver completato questo tutorial, saprai:

  • Che gli intervalli di tolleranza statistica forniscono un limite alle osservazioni di una popolazione.
  • Che un intervallo di tolleranza richiede che sia una proporzione di copertura e confidenza essere specificato.
  • Che l’intervallo di tolleranza per un campione di dati con una distribuzione gaussiana può essere facilmente calcolato.

Avvia il tuo progetto con il mio nuovo libro Statistiche per l’apprendimento automatico, inclusi tutorial passo-passo e file di codice sorgente Python per tutti gli esempi.

Iniziamo.

Una delicata introduzione agli intervalli di tolleranza statistica nell’apprendimento automatico
Foto di Paul Hood, alcuni diritti riservati.

Panoramica del tutorial

Questo tutorial è diviso in 4 parti; sono:

  1. Limiti sui dati
  2. Quali sono gli intervalli di tolleranza statistica?
  3. Come calcolare gli intervalli di tolleranza
  4. Intervallo di tolleranza per la distribuzione gaussiana

Hai bisogno di aiuto con le statistiche per l’apprendimento automatico?

Prendi il mio corso accelerato gratuito di 7 giorni (con codice di esempio).

Fare clic per iscriversi e anche ottenere una versione PDF Ebook gratuito del corso.

Scarica il tuo Mini-Corso GRATUITO

Limiti sui dati

È utile mettere limiti sui dati.

Ad esempio, se si dispone di un campione di dati da un dominio, conoscere il limite superiore e inferiore per i valori normali può essere utile per identificare anomalie o valori anomali nei dati.

Per un processo o un modello che sta facendo previsioni, può essere utile conoscere l’intervallo previsto che le previsioni ragionevoli possono assumere.

Conoscere l’intervallo comune di valori può aiutare a impostare le aspettative e rilevare le anomalie.

L’intervallo di valori comuni per i dati è chiamato intervallo di tolleranza.

Quali sono gli intervalli di tolleranza statistica?

L’intervallo di tolleranza è legato a una stima della proporzione di dati in una popolazione.

Un intervallo di tolleranza statistica una proporzione specificata delle unità dalla popolazione o dal processo campionato.

— Pagina 3, Intervalli statistici: una guida per professionisti e ricercatori, 2017.

L’intervallo è limitato dall’errore di campionamento e dalla varianza della distribuzione della popolazione. Data la legge dei grandi numeri, man mano che la dimensione del campione viene aumentata, le probabilità corrisponderanno meglio alla distribuzione della popolazione sottostante.

Di seguito è riportato un esempio di intervallo di tolleranza dichiarato:

L’intervallo da x a y copre il 95% dei dati con una confidenza del 99%.

Se i dati sono gaussiani, l’intervallo può essere espresso nel contesto del valore medio; ad esempio:

x +/- y copre il 95% dei dati con una confidenza del 99%.

Ci riferiamo a questi intervalli come intervalli di tolleranza statistica, per differenziarli dagli intervalli di tolleranza in ingegneria che descrivono limiti di accettabilità, come per un progetto o di un materiale. Generalmente, li descriveremo semplicemente come “intervalli di tolleranza” per comodità.

Un intervallo di tolleranza è definito in termini di due quantità:

  • Copertura: La percentuale della popolazione coperta dall’intervallo.
  • Fiducia: la fiducia probabilistica che l’intervallo copre la proporzione della popolazione.

L’intervallo di tolleranza è costruito dai dati utilizzando due coefficienti, la copertura e il coefficiente di tolleranza. La copertura è la proporzione della popolazione (p) che l’intervallo dovrebbe contenere. Il coefficiente di tolleranza è il grado di confidenza con cui l’intervallo raggiunge la copertura specificata. Un intervallo di tolleranza con copertura del 95% e un coefficiente di tolleranza del 90% conterrà il 95% della distribuzione della popolazione con una confidenza del 90%.

— Pagina 175, Statistics for Environmental Engineers, Seconda edizione, 2002.

Come calcolare gli intervalli di tolleranza

La dimensione di un intervallo di tolleranza è proporzionale alla dimensione del campione di dati dalla popolazione e alla varianza della popolazione.

Esistono due metodi principali per calcolare gli intervalli di tolleranza in base alla distribuzione dei dati: metodi parametrici e non parametrici.

  • Intervallo di tolleranza parametrica: utilizzare la conoscenza della distribuzione della popolazione per specificare sia la copertura che la fiducia. Spesso usato per riferirsi a una distribuzione gaussiana.
  • Intervallo di tolleranza non parametrico: utilizzare le statistiche di rango per stimare la copertura e la fiducia, spesso risultando meno precisione (intervalli più ampi) data la mancanza di informazioni sulla distribuzione.

Gli intervalli di tolleranza sono relativamente semplici da calcolare per un campione di osservazioni indipendenti tratte da una distribuzione gaussiana. Dimostreremo questo calcolo nella prossima sezione.

Intervallo di tolleranza per la distribuzione gaussiana

In questa sezione, lavoreremo attraverso un esempio di calcolo degli intervalli di tolleranza su un campione di dati.

Per prima cosa, definiamo il nostro campione di dati. Creeremo un campione di 100 osservazioni tratte da una distribuzione gaussiana con una media di 50 e una deviazione standard di 5.

1
2

# genera dataset
data = 5 * randn(100) + 50

Durante l’esempio, assumeremo che non siamo a conoscenza della vera media della popolazione e della deviazione standard e che questi valori devono essere stimati.

Poiché i parametri della popolazione devono essere stimati, vi è ulteriore incertezza. Ad esempio, per una copertura del 95%, potremmo usare 1,96 (o 2) deviazioni standard dalla media stimata come intervallo di tolleranza. Dobbiamo stimare la media e la deviazione standard dal campione e tenere conto di questa incertezza, quindi il calcolo dell’intervallo è leggermente più complesso.

Successivamente, dobbiamo specificare il numero di gradi di libertà. Questo verrà utilizzato nel calcolo dei valori critici e nel calcolo dell’intervallo. In particolare, viene utilizzato nel calcolo della deviazione standard.

Ricorda che i gradi di libertà sono il numero di valori nel calcolo che possono variare. Qui, abbiamo 100 osservazioni, quindi 100 gradi di libertà. Non conosciamo la deviazione standard, quindi deve essere stimata utilizzando la media. Ciò significa che i nostri gradi di libertà saranno (N-1) o 99.

1
2
3

# specificare i gradi di libertà
n = len(dati)
gdl = n – 1

Successivamente, dobbiamo specificare la copertura proporzionale dei dati. In questo esempio, siamo interessati a metà 95% dei dati. La proporzione è 95. Dobbiamo spostare questa proporzione in modo che copra il 95% medio, cioè dal 2,5 ° percentile al 97,5 ° percentile.

Sappiamo che il valore critico per 95% è 1.96 dato che lo usiamo così spesso; tuttavia, possiamo calcolarlo direttamente in Python data la percentuale 2.5% della funzione di sopravvivenza inversa. Questo può essere calcolato usando la norma.isf () Funzione SciPy.

1
2
3
4

# specificare i dati di copertura
prop = 0.95
prop_inv = (1.0 – prop) / 2.0
gauss_critical = norma.isf (prop_inv)

Successivamente, dobbiamo calcolare l’affidabilità della copertura. Possiamo farlo recuperando il valore critico dalla distribuzione Chi Quadrato per il numero dato di gradi di libertà e probabilità desiderata. Possiamo usare il chi2.isf () Funzione SciPy.

1
2
3

# specificare la fiducia
prob = 0.99
chi_critical = chi2.isf (q = prob, df = dof)

Ora abbiamo tutti i pezzi per calcolare l’intervallo di tolleranza gaussiana. Il calcolo è il seguente:

1
interval = sqrt((dof * (1 + (1/n)) * gauss_critical^2) / chi_critical)

Dove dof è il numero di gradi di libertà, n è la dimensione del campione di dati, gauss_critical è il valore critico, come 1,96 per la copertura del 95% della popolazione, e chi_critical è il valore critico Chi quadrato per la fiducia desiderata e gradi di libertà.

1
interval = sqrt((dof * (1 + (1/n)) * gauss_critical**2) / chi_critical)

Siamo in grado di legare tutto questo insieme e calcolare l’intervallo di tolleranza gaussiana per il nostro campione di dati.

L’esempio completo è elencato di seguito.

L’esecuzione dell’esempio prima calcola e stampa i valori critici rilevanti per le distribuzioni gaussiana e Chi quadrato. La tolleranza viene stampata, quindi presentata correttamente.

Può anche essere utile dimostrare come l’intervallo di tolleranza diminuirà (diventerà più preciso) all’aumentare della dimensione del campione.

L’esempio seguente lo dimostra calcolando l’intervallo di tolleranza per diverse dimensioni del campione per lo stesso piccolo problema inventato.

L’esecuzione dell’esempio crea un grafico che mostra l’intervallo di tolleranza attorno alla media della popolazione reale.

Possiamo vedere che l’intervallo diventa più piccolo (più preciso) quando la dimensione del campione viene aumentata da 5 a 15 esempi.

Grafico della barra degli errori dell’intervallo di tolleranza rispetto alla dimensione del campione

Estensioni

Questa sezione elenca alcune idee per estendere il tutorial che potresti voler esplorare.

  • Elenca 3 casi in cui è possibile utilizzare un intervallo di tolleranza in un progetto di apprendimento automatico.
  • Individuare un set di dati con una variabile gaussiana e calcolare gli intervalli di tolleranza per esso.
  • Ricercare e descrivere un metodo per calcolare un intervallo di tolleranza non parametrica.

Se esplori una di queste estensioni, mi piacerebbe saperlo.

Ulteriori letture

Questa sezione fornisce più risorse sull’argomento se stai cercando di approfondire.

Libri

  • Comprendere le nuove statistiche: dimensioni degli effetti, intervalli di confidenza e meta-analisi, 2017.
  • Intervalli statistici: una guida per professionisti e ricercatori, 2017.

API

  • scipy.Statistica.per maggiori informazioni clicca qui.Statistica.chi2 () API
  • matplotlib.piplot.barre di errore() API

Articoli

  • intervallo di Tolleranza su Wikipedia
  • 68-95-99.7 regola su Wikipedia
  • Percentile su Wikipedia
  • intervalli di Tolleranza per una distribuzione normale

Sommario

In questo tutorial, hai scoperto di statistica intervalli di tolleranza e di come calcolare un intervallo di tolleranza per Gaussiana dei dati.

In particolare, hai imparato:

  • Che gli intervalli di tolleranza statistica forniscono un limite sulle osservazioni da una popolazione.
  • Che un intervallo di tolleranza richiede che sia una proporzione di copertura e confidenza essere specificato.
  • Che l’intervallo di tolleranza per un campione di dati con una distribuzione gaussiana può essere facilmente calcolato.

Hai qualche domanda?
Fai le tue domande nei commenti qui sotto e farò del mio meglio per rispondere.

Ottieni un handle sulle statistiche per l’apprendimento automatico!

Sviluppare un lavoro di comprensione delle statistiche

…scrivendo righe di codice in python

Scopri come nel mio nuovo Ebook:
Metodi Statistici per l’Apprendimento automatico

self-studio esercitazioni su argomenti come:
Test di Ipotesi, la Correlazione non parametrico di Statistiche, Ricampionamento, e molto di più…

Scopri come trasformare i dati in conoscenza

Salta gli accademici. Solo risultati.

Guarda cosa c’è dentro

Tweet Condividi Condividi

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.