Una introducción suave a los Intervalos de Tolerancia Estadística en el Aprendizaje Automático

Tweet Compartir Compartir

Última actualización el 8 de agosto de 2019

Puede ser útil tener un límite superior e inferior en los datos.

Estos límites se pueden usar para ayudar a identificar anomalías y establecer expectativas sobre qué esperar. Un límite en las observaciones de una población se denomina intervalo de tolerancia. Un intervalo de tolerancia proviene del campo de las estadísticas de estimación.

Un intervalo de tolerancia es diferente de un intervalo de predicción que cuantifica la incertidumbre para un único valor predicho. También es diferente de un intervalo de confianza que cuantifica la incertidumbre de un parámetro de población, como una media. En cambio, un intervalo de tolerancia cubre una proporción de la distribución de la población.

En este tutorial, descubrirá intervalos de tolerancia estadísticos y cómo calcular un intervalo de tolerancia para datos gaussianos.

Después de completar este tutorial, sabrá:

  • Que los intervalos de tolerancia estadística proporcionan límites a las observaciones de una población.
  • Que un intervalo de tolerancia requiere que se especifiquen tanto una proporción de cobertura como una confianza.
  • Que el intervalo de tolerancia para una muestra de datos con una distribución gaussiana se puede calcular fácilmente.

Inicie su proyecto con my new book Statistics for Machine Learning, que incluye tutoriales paso a paso y los archivos de código fuente de Python para todos los ejemplos.

Comencemos.

Una introducción suave a los Intervalos de Tolerancia Estadística en el Aprendizaje Automático
Foto de Paul Hood, algunos derechos reservados.

Descripción general del tutorial

Este tutorial se divide en 4 partes; son:

  1. Límites en los Datos
  2. ¿Qué Son Los Intervalos de Tolerancia Estadísticos?
  3. Cómo calcular los Intervalos de tolerancia
  4. Intervalo de tolerancia para la Distribución Gaussiana

¿Necesita ayuda con las estadísticas para el Aprendizaje Automático?

Tome mi curso intensivo de correo electrónico gratuito de 7 días ahora (con código de muestra).

Haga clic para inscribirse y también obtenga una versión gratuita en PDF del curso.

Descargar GRATIS Mini-Curso

Límites en los Datos

es útil para poner límites en los datos.

Por ejemplo, si tiene una muestra de datos de un dominio, conocer el límite superior e inferior para los valores normales puede ser útil para identificar anomalías o valores atípicos en los datos.

Para un proceso o modelo que está haciendo predicciones, puede ser útil conocer el rango esperado que pueden tomar las predicciones sensatas.

Conocer el rango común de valores puede ayudar a establecer expectativas y detectar anomalías.

El rango de valores comunes para los datos se denomina intervalo de tolerancia.

¿Qué Son Los Intervalos De Tolerancia Estadísticos?

El intervalo de tolerancia es un límite en una estimación de la proporción de datos en una población.

Un intervalo de tolerancia estadística una proporción especificada de las unidades de la población o proceso muestreados.

– Página 3, Intervalos estadísticos: Una Guía para profesionales e Investigadores, 2017.

El intervalo está limitado por el error de muestreo y por la varianza de la distribución de la población. Dada la ley de los grandes números, a medida que aumenta el tamaño de la muestra, las probabilidades coincidirán mejor con la distribución de la población subyacente.

A continuación se muestra un ejemplo de un intervalo de tolerancia declarado:

El rango de x a y cubre el 95% de los datos con una confianza del 99%.

Si los datos son gaussianos, el intervalo se puede expresar en el contexto del valor medio; por ejemplo:

x +/- y cubre el 95% de los datos con una confianza del 99%.

Nos referimos a estos intervalos como intervalos de tolerancia estadística, para diferenciarlos de los intervalos de tolerancia en ingeniería que describen límites de aceptabilidad, como para un diseño o un material. En general, los describiremos simplemente como «intervalos de tolerancia» para mayor comodidad.

Un intervalo de tolerancia se define en términos de dos cantidades:

  • Cobertura: La proporción de la población cubierta por el intervalo.Confianza
  • : La confianza probabilística de que el intervalo cubre la proporción de la población.

El intervalo de tolerancia se construye a partir de datos utilizando dos coeficientes, la cobertura y el coeficiente de tolerancia. La cobertura es la proporción de la población (p) que se supone que contiene el intervalo. El coeficiente de tolerancia es el grado de confianza con el que el intervalo alcanza la cobertura especificada. Un intervalo de tolerancia con una cobertura del 95% y un coeficiente de tolerancia del 90% contendrán el 95% de la distribución de la población con una confianza del 90%.

– Página 175, Estadísticas para Ingenieros Ambientales, Segunda Edición, 2002.

Cómo Calcular los Intervalos de Tolerancia

El tamaño de un intervalo de tolerancia es proporcional al tamaño de la muestra de datos de la población y la varianza de la población.

Existen dos métodos principales para calcular los intervalos de tolerancia en función de la distribución de los datos: métodos paramétricos y no paramétricos.

  • Intervalo de tolerancia paramétrica: Utilizar el conocimiento de la distribución de la población para especificar tanto la cobertura como la confianza. A menudo se usa para referirse a una distribución gaussiana.
  • Intervalo de tolerancia no paramétrico: Utilice estadísticas de rangos para estimar la cobertura y la confianza, lo que a menudo resulta en menos precisión (intervalos más amplios) dada la falta de información sobre la distribución.

Los intervalos de tolerancia son relativamente sencillos de calcular para una muestra de observaciones independientes extraídas de una distribución gaussiana. Demostraremos este cálculo en la siguiente sección.

Intervalo de tolerancia para Distribución Gaussiana

En esta sección, trabajaremos a través de un ejemplo de cálculo de los intervalos de tolerancia en una muestra de datos.

Primero, definamos nuestra muestra de datos. Crearemos una muestra de 100 observaciones extraídas de una distribución gaussiana con una media de 50 y una desviación estándar de 5.

1
2

# generar conjunto de datos
datos = 5 * randn(100) + 50

Durante el ejemplo, asumiremos que desconocemos la media real de la población y la desviación estándar, y que estos valores deben estimarse.

Debido a que los parámetros de la población tienen que ser estimados, hay incertidumbre adicional. Por ejemplo, para una cobertura del 95%, podríamos usar 1,96 (o 2) desviaciones estándar de la media estimada como intervalo de tolerancia. Debemos estimar la media y la desviación estándar de la muestra y tener en cuenta esta incertidumbre, por lo que el cálculo del intervalo es un poco más complejo.

A continuación, debemos especificar el número de grados de libertad. Esto se utilizará en el cálculo de valores críticos y en el cálculo del intervalo. Específicamente, se utiliza en el cálculo de la desviación estándar.

Recuerde que los grados de libertad son el número de valores en el cálculo que puede variar. Aquí tenemos 100 observaciones, por lo tanto 100 grados de libertad. No conocemos la desviación estándar, por lo tanto, debe estimarse utilizando la media. Esto significa que nuestros grados de libertad serán (N – 1) o 99.

1
2
3

# especificar los grados de libertad
n = len(datos)
dof = n – 1

A continuación, debemos especificar la cobertura proporcional de los datos. En este ejemplo, estamos interesados en el medio 95% de los datos. La proporción es de 95. Debemos cambiar esta proporción para que cubra el 95% medio, es decir, del percentil 2,5 al percentil 97,5.

Sabemos que el valor crítico para el 95% es 1.96 dado que lo usamos tan a menudo; sin embargo, podemos calcularlo directamente en Python dado el porcentaje del 2.5% de la función de supervivencia inversa. Esto se puede calcular usando la norma.función isf () SciPy.

1
2
3
4

# especificar la cobertura de los datos
prop = 0.95
prop_inv = (1.0 – prop) / 2.0
gauss_critical = norma.isf(prop_inv)

a continuación, tenemos que calcular la confianza de la cobertura. Podemos hacer esto recuperando el valor crítico de la distribución de Chi Cuadrado para el número dado de grados de libertad y probabilidad deseada. Podemos usar el chi2.función isf () SciPy.

1
2
3

# especificar confianza
prob = 0.99
chi_critical = chi2.isf (q = prob, df = dof)

Ahora tenemos todas las piezas para calcular el intervalo de tolerancia gaussiano. El cálculo es el siguiente:

1
intervalo = sqrt((dof * (1 + (1/n)) * gauss_critical^2) / chi_critical)

Donde dp es el número de grados de libertad, n es el tamaño de la muestra de datos, gauss_critical es el valor crítico, como 1,96 para una cobertura del 95% de la población, y chi_critical es el valor crítico de Chi Cuadrado para la confianza y los grados de libertad deseados.

1
intervalo = sqrt((dof * (1 + (1/n)) * gauss_critical**2) / chi_critical)

Nos puede atar todos los de este juntos y calcular el intervalo de tolerancia gaussiana para nuestra muestra de datos.

El ejemplo completo se muestra a continuación.

Al ejecutar el ejemplo, primero calcula e imprime los valores críticos relevantes para las distribuciones gaussianas y Chi al cuadrado. La tolerancia se imprime y luego se presenta correctamente.

También puede ser útil demostrar cómo el intervalo de tolerancia disminuirá (se volverá más preciso) a medida que se aumente el tamaño de la muestra.

El siguiente ejemplo demuestra esto calculando el intervalo de tolerancia para diferentes tamaños de muestra para el mismo problema artificial pequeño.

Al ejecutar el ejemplo, se crea un gráfico que muestra el intervalo de tolerancia alrededor de la media real de la población.

Podemos ver que el intervalo se hace más pequeño (más preciso) a medida que el tamaño de la muestra se incrementa de 5 a 15 ejemplos.

Gráfico de barra de errores del Intervalo de tolerancia frente al tamaño de la muestra

Extensiones

Esta sección enumera algunas ideas para ampliar el tutorial que puede explorar.

  • Enumere 3 casos en los que se podría usar un intervalo de tolerancia en un proyecto de aprendizaje automático.
  • Busque un conjunto de datos con una variable gaussiana y calcule los intervalos de tolerancia para él.
  • Investigue y describa un método para calcular un intervalo de tolerancia no paramétrico.

Si explora alguna de estas extensiones, me encantaría saberlo.

Lectura adicional

Esta sección proporciona más recursos sobre el tema si desea profundizar más.

Libros

  • Comprensión de las Nuevas Estadísticas: Tamaños de efectos, Intervalos de Confianza y Meta-Análisis, 2017.
  • Intervalos estadísticos: Una Guía para Profesionales e Investigadores, 2017.

API

  • scipy.estadísticas.API norm ()
  • scipy.estadísticas.API chi2 ()
  • matplotlib.pyplot.API de errorbar ()

Artículos

  • Intervalo de tolerancia en Wikipedia
  • 68-95-99.7 Regla en Wikipedia
  • Percentil en Wikipedia
  • Intervalos de tolerancia para una distribución normal

Resumen

En este tutorial, descubrió los intervalos de tolerancia estadísticos y cómo calcular un intervalo de tolerancia para datos gaussianos.

Específicamente, aprendiste:

  • Que los intervalos de tolerancia estadística proporcionan límites a las observaciones de una población.
  • Que un intervalo de tolerancia requiere que se especifiquen tanto una proporción de cobertura como una confianza.
  • Que el intervalo de tolerancia para una muestra de datos con una distribución gaussiana se puede calcular fácilmente.

¿Tiene alguna pregunta?Haga sus preguntas en los comentarios a continuación y haré todo lo posible para responder.

Conseguir una Manija en las Estadísticas para el Aprendizaje de Máquina!

Desarrolle una comprensión práctica de las estadísticas

writing escribiendo líneas de código en python

Descubra cómo en mi nuevo libro electrónico:
Métodos estadísticos para Aprendizaje automático

Proporciona tutoriales de autoaprendizaje sobre temas como:
Pruebas de hipótesis, Correlación, Estadísticas no Paramétricas, Remuestreo y mucho más…

Descubra cómo Transformar los Datos en Conocimiento

Omita los aspectos académicos. Sólo Resultados.

Ver Lo que está Dentro de

Tweet Compartir Compartir

Deja una respuesta

Tu dirección de correo electrónico no será publicada.