Uma introdução suave aos intervalos de tolerância Estatística na aprendizagem com máquinas

Tweet Share

última atualização em 8 de agosto de 2019

pode ser útil ter um limite superior e inferior nos dados.

estes limites podem ser usados para ajudar a identificar anomalias e definir expectativas para o que esperar. Um limite em observações de uma população é chamado de intervalo de tolerância. Um intervalo de tolerância vem do campo das estatísticas de estimação.

um intervalo de tolerância é diferente de um intervalo de previsão que quantifica a incerteza para um único valor previsto. É também diferente de um intervalo de confiança que quantifica a incerteza de um parâmetro populacional como uma média. Em vez disso, um intervalo de tolerância cobre uma proporção da distribuição da população.

neste tutorial, irá descobrir intervalos de tolerância estatística e como calcular um intervalo de tolerância para os dados Gaussianos.

Após completar este tutorial, você saberá:

  • que os intervalos de tolerância estatística fornecem um limite para as observações de uma população.que um intervalo de tolerância exige que seja especificada uma proporção de cobertura e confiança.
  • que o intervalo de tolerância para uma amostra de dados com uma distribuição gaussiana pode ser facilmente calculado.

kick-start o seu projecto com as minhas novas estatísticas de livros para a aprendizagem de máquinas, incluindo tutoriais passo-a-passo e os ficheiros de código-fonte Python para todos os exemplos.vamos começar.

a Gentle Introduction to Statistical Tolerance intervalos in Machine Learning
Photo by Paul Hood, some rights reserved.

tutorial Overview

este tutorial é dividido em 4 partes; eles são:quais são os intervalos de tolerância estatística?

  • Como Calcular Intervalos de Tolerância
  • Intervalo de Tolerância para a Distribuição Gaussiana
  • Precisar de ajuda com Estatísticas de Aprendizado de Máquina?

    tome o meu curso livre de estoiro de e-mail de 7 dias agora (com o código de exemplo).

    Clique para se inscrever e também obter uma versão ebook PDF livre do curso.

    baixe o seu Mini-curso gratuito

    limites nos dados

    é útil colocar limites nos dados.

    Por exemplo, se você tem uma amostra de dados de um domínio, conhecer o limite superior e inferior para os valores normais pode ser útil para identificar anomalias ou anómalos nos dados.

    para um processo ou modelo que está fazendo previsões, pode ser útil saber o intervalo esperado que as previsões sensatas podem tomar.conhecer a gama comum de Valores pode ajudar a definir expectativas e detectar anomalias.

    A gama de valores comuns para os dados é chamada de intervalo de tolerância.quais são os intervalos de tolerância estatística?

    o intervalo de tolerância é um limite com base numa estimativa da proporção de dados numa população.

    um intervalo de tolerância estatística uma proporção especificada das unidades da população ou processo amostrados.

    — Page 3, Statistical periods: A Guide for Practitioners and Researchers, 2017.

    O intervalo é limitado pelo erro de amostragem e pela variância da distribuição populacional. Dada a lei dos grandes números, como o tamanho da amostra é aumentado, as probabilidades melhor corresponder à distribuição da população subjacente.

    abaixo está um exemplo de um intervalo de tolerância declarado:

    a gama de x A y cobre 95% dos dados com um intervalo de confiança de 99%.

    Se os dados de Gauss, o intervalo pode ser expressa no contexto do valor médio; por exemplo:

    x +/- y cobre 95% dos dados com uma confiança de 99%.referimo-nos a estes intervalos como intervalos de tolerância estatística, para diferenciá-los dos intervalos de tolerância na engenharia que descrevem limites de aceitabilidade, tais como para um projeto ou de um material. Geralmente, vamos descrevê-los como simplesmente “intervalos de tolerância” por conveniência.um intervalo de tolerância é definido em termos de duas quantidades: cobertura: a proporção da população abrangida pelo intervalo.confiança: a confiança probabilística de que o intervalo cobre a proporção da população.

    O intervalo de tolerância é construído a partir de dados usando dois coeficientes, a cobertura e o coeficiente de tolerância. A cobertura é a proporção da população (p) que o intervalo é suposto conter. O coeficiente de tolerância é o grau de confiança com que o intervalo atinge a cobertura especificada. Um intervalo de tolerância com cobertura de 95% e um coeficiente de tolerância de 90% conterão 95% da distribuição da população com um intervalo de confiança de 90%.

    — Page 175, Statistics for Environmental Engineers, Second Edition, 2002.

    Como Calcular Intervalos de Tolerância

    O tamanho de um intervalo de tolerância é proporcional ao tamanho da amostra de dados da população e a variância da população.

    Existem dois métodos principais para calcular intervalos de tolerância dependendo da distribuição dos dados: métodos paramétricos e não paramétricos.

    • intervalo de tolerância paramétrica: Use o conhecimento da distribuição populacional para especificar tanto a cobertura quanto a confiança. Muitas vezes usado para se referir a uma distribuição gaussiana.
    • intervalo de tolerância não Parametric: Use as estatísticas rank para estimar a cobertura e confiança, muitas vezes resultando menos precisão (intervalos maiores) dada a falta de informação sobre a distribuição.os intervalos de tolerância

    são relativamente simples de calcular para uma amostra de observações independentes extraídas de uma distribuição gaussiana. Demonstraremos este cálculo na próxima secção.

    intervalo de tolerância para a distribuição gaussiana

    nesta secção, trabalharemos através de um exemplo de cálculo dos intervalos de tolerância numa amostra de dados.

    Primeiro, vamos definir nossa amostra de dados. Vamos criar uma amostra de 100 observações retiradas de uma distribuição gaussiana com uma média de 50 e um desvio padrão de 5.

    1
    2

    # generate dataset
    dados = 5 * randn(100) + 50

    Durante a exemplo, assumiremos que desconhecemos a verdadeira média populacional e o desvio padrão, e que estes valores devem ser estimados.dado que os parâmetros da população têm de ser estimados, existe incerteza adicional. Por exemplo, para uma cobertura de 95%, poderíamos usar 1,96 (ou 2) desvios padrão da média estimada como o intervalo de tolerância. Devemos estimar o desvio médio e padrão da amostra e levar em conta essa incerteza, portanto o cálculo do intervalo é um pouco mais complexo.

    em seguida, devemos especificar o número de graus de liberdade. Isto será utilizado no cálculo dos valores críticos e no cálculo do intervalo. Especificamente, é usado no cálculo do desvio padrão.

    lembre-se que os graus de liberdade são o número de valores no cálculo que podem variar. Aqui, temos 100 observações, portanto 100 graus de liberdade. Não conhecemos o desvio-padrão, pelo que deve ser estimado utilizando o meio. Isto significa que os nossos graus de liberdade serão (n-1) ou 99.

    1
    2
    3

    # especificar graus de liberdade
    n = len(data)
    graus de liberdade = n – 1

    a seguir, devemos especificar a cobertura proporcional dos dados. Neste exemplo, estamos interessados nos 95% médios dos dados. A proporção é de 95. Temos de mudar esta proporção de modo a cobrir os 95% médios, ou seja, de 2,5% para 97,5%.

    sabemos que o valor crítico para 95% é 1,96 dado que o usamos com tanta frequência; no entanto, podemos calculá-lo diretamente em Python, dada a porcentagem de 2,5% da função de sobrevivência inversa. Isto pode ser calculado usando a norma.ISF () função SciPy.

    1
    2
    3
    4

    # especifique os dados de cobertura
    prop = 0.95
    prop_inv = (1.0 – prop) / 2.0
    gauss_crítico = norma.isf(prop_inv)

    em seguida, é necessário calcular a confiança da cobertura. Podemos fazer isso recuperando o valor crítico da distribuição Chi ao quadrado para o número dado de graus de liberdade e probabilidade desejada. Podemos usar o chi2.ISF () função SciPy.

    1
    2
    3

    # especificar confiança
    prob = 0.99
    chi_critical = chi2.isf (q=prob, df=dof)

    temos agora todas as peças para calcular o intervalo de tolerância Gaussiana. O cálculo é o seguinte::

    1
    intervalo = sqrt((dof * (1 + (1/n)) * gauss_critical^2) / chi_critical)

    Onde dof é o número of degrees of freedom, n is the size of the data sample, gauss_critical is the critical value, such as 1,96 for 95% coverage of the population, and chi_critical is the Chi Squared critical value for the desired confidence and degrees of freedom.

    1
    intervalo = sqrt((dof * (1 + (1/n)) * gauss_critical**2) / chi_critical)

    podemos amarrar tudo isso juntos e calcular o intervalo de tolerância Gaussiana para a nossa amostra de dados.

    O exemplo completo está listado abaixo.

    executando o exemplo primeiro calcula e imprime os valores críticos relevantes para as distribuições Gaussianas e Chi ao quadrado. A tolerância é impressa e apresentada correctamente.

    também pode ser útil demonstrar como o intervalo de tolerância irá diminuir (tornar-se mais preciso) à medida que o tamanho da amostra é aumentado.

    o exemplo abaixo demonstra isso calculando o intervalo de tolerância para diferentes tamanhos de amostra para o mesmo pequeno problema.a execução do exemplo cria um gráfico que mostra o intervalo de tolerância em torno da média da população verdadeira.

    Podemos ver que o intervalo se torna menor (mais preciso) à medida que o tamanho da amostra é aumentado de 5 para 15 exemplos.

    a Barra de Erro Enredo do Intervalo de Tolerância vs Tamanho da Amostra

    Extensões

    Esta seção lista algumas ideias para estender o tutorial que você pode desejar explorar.

    • Lista 3 casos em que um intervalo de tolerância pode ser utilizado num projecto de aprendizagem por máquina.
    • localiza um conjunto de dados com uma variável Gaussiana e calcula os intervalos de tolerância para ele.investigação e descrição de um método para calcular um intervalo de tolerância não paramétrica.se explorar alguma destas extensões, gostaria de saber.

      Leitura Adicional

      Esta secção fornece mais recursos sobre o tópico se você está procurando ir mais fundo.

      Books

      • Understanding The New Statistics: Effect Sizes, Confidence intervalos, and Meta-Analysis, 2017.intervalos estatísticos: um guia para profissionais e investigadores, 2017.

      API

      • scipy.estatistica.norm () API
      • scipy.estatistica.chi2 () API
      • matplotlib.plot.barra de erro() API

      Artigos

      • intervalo de Tolerância na Wikipédia
      • 68-95-99.7 regra na Wikipédia
      • Percentil na Wikipédia
      • intervalos de Tolerância para uma distribuição normal

      Resumo

      neste tutorial, você descobriu tolerância estatística e intervalos de como calcular um intervalo de tolerância para Gaussiana de dados.especificamente, aprendeu:que os intervalos de tolerância estatística fornecem limites às observações de uma população.que um intervalo de tolerância exige que seja especificada uma proporção de cobertura e confiança.

    • que o intervalo de tolerância para uma amostra de dados com uma distribuição gaussiana pode ser facilmente calculado.tem alguma pergunta?Faça suas perguntas nos comentários abaixo e farei o meu melhor para responder.

      Get a Handle on Statistics for Machine Learning!

      Desenvolver uma compreensão de trabalho de estatísticas

      …escrevendo linhas de código em python

      Descubra como no meu novo e-Book:
      Métodos Estatísticos para Machine Learning

      Ele fornece auto-estudo tutoriais sobre temas como:
      Testes de Hipótese, Correlação não paramétrica de Estatísticas, Reamostragem, e muito mais…

      descubra como transformar dados em conhecimento

      Skip the Academics. Apenas Resultados.

      ver o que está dentro de

      Tweet Share

    Deixe uma resposta

    O seu endereço de email não será publicado.