機械学習における統計的許容区間の穏やかな紹介

ツイートシェア共有

Last Updated on August8,2019

データに上限と下限を持つことは便利です。

これらの境界は、異常を特定し、何を期待するかの期待値を設定するのに役立ちます。 母集団からの観測値の限界は、許容誤差区間と呼ばれます。 許容範囲は、推定統計のフィールドから得られます。

許容誤差区間は、単一の予測値の不確実性を定量化する予測区間とは異なります。

許容誤差区間は、単一の予測値の不確実性を定量化する予測区間 また、平均などの母集団パラメータの不確実性を定量化する信頼区間とは異なります。 代わりに、許容範囲は母集団分布の割合をカバーします。

このチュートリアルでは、統計的な許容範囲とガウスデータの許容範囲を計算する方法を発見します。

このチュートリアルを完了すると、次のことがわかります。

  • 統計的許容範囲は、母集団からの観測値の境界を提供します。
    • 統計的許容範囲は、母集団からの観測値の境界を提供します。
    • 許容範囲の間隔では、カバレッジの割合と信頼度の両方を指定する必要があります。
    • ガウス分布を持つデータサンプルの許容誤差区間を簡単に計算できること。私の新しい本Statistics for Machine Learningで、ステップバイステップのチュートリアルやすべての例のPythonソースコードファイルを含めて、プロジェクトを開始します。

      始めましょう。

      機械学習における統計的許容区間への穏やかな紹介
      Paul Hoodによる写真、いくつかの権利を保有しています。

      チュートリアルの概要

      このチュートリアルは4つの部分に分かれています。:

      1. データの境界
      2. 統計的許容範囲とは何ですか?
      3. 許容誤差間隔を計算する方法
      4. ガウス分布の許容誤差間隔

      機械学習の統計情報の助けが必要ですか?

      今私の無料の7日間の電子メールクラッシュコースを取る(サンプルコード付き)。

      クリックしてサインアップし、コースの無料のPDF電子ブック版を取得します。

      無料のミニコースをダウンロードしてください

      データの境界

      データに境界を置くと便利です。たとえば、ドメインからのデータのサンプルがある場合、正規値の上限と下限を知ることは、データ内の異常値または外れ値を識別するのに役立ちます。

      予測を行っているプロセスまたはモデルの場合、賢明な予測が取る可能性のある予想範囲を知ることは役立ちます。

      値の共通範囲を知ることは、期待値を設定し、異常を検出するのに役立ちます。

      データの一般的な値の範囲は、許容範囲と呼ばれます。

      統計的許容区間とは何ですか?

      許容範囲は、母集団内のデータの割合の推定値の限界です。

      統計許容区間サンプリングされた母集団またはプロセスからの単位の指定された割合。

      —ページ3、統計間隔:実務家と研究者のためのガイド、2017。

      間隔は、サンプリング誤差と母集団分布の分散によって制限されます。 大数の法則を考えると、サンプルサイズが大きくなるにつれて、確率は基になる母集団分布とよりよく一致します。

      以下は、指定された許容範囲の例です。

      xからyまでの範囲は、95%の信頼度でデータの99%をカバーします。

      以下は、指定された許容範囲の例です。

      xからyまでの範囲は、99%の信頼度データがガウスである場合、区間は平均値のコンテキストで表すことができます。

      x+/-yは、データの95%を99%の信頼度でカバーします。

      x+/-yは、データの95%を99%の信頼度でカバーします。

      x+/-yは、データの95%を99%の信頼度でカバーします。

      これらの間隔を統計的公差間隔と呼び、設計や材料などの許容範囲の限界を記述する工学における許容範囲間隔と区別します。

      これらの間隔を統計的許容範囲間隔と呼びます。

      これらの間隔を統計的許容範囲間隔と呼びます。 一般的に、便宜上、それらを単に「許容区間」として説明します。

      許容範囲は、二つの量の観点から定義されています。

      • カバレッジ:区間によってカバーされる母集団の割合。
      • 信頼度:区間が母集団の割合をカバーする確率的信頼度。

      許容区間は、カバレッジと許容係数の二つの係数を使用してデータから構築されます。 カバレッジは、区間に含まれると想定される母集団(p)の割合です。 許容誤差係数は、区間が指定されたカバレッジに到達する信頼度です。 カバレッジが95%で許容誤差係数が90%の許容誤差区間には、信頼度が90%の母集団分布の95%が含まれます。p>

      —ページ175、環境エンジニアのための統計、第二版、2002。

      許容範囲の計算方法

      許容範囲のサイズは、母集団からのデータサンプルのサイズと母集団の分散に比例します。

      データの分布に応じて公差区間を計算するには、パラメトリック法とノンパラメトリック法の2つの主な方法があります。

      • パラメトリック許容範囲:母集団分布の知識を使用して、カバレッジと信頼度の両方を指定します。 多くの場合、ガウス分布を参照するために使用されます。
      • ノンパラメトリック許容範囲:ランク統計を使用してカバレッジと信頼度を推定し、分布に関する情報が不足しているため、精度が低くなることが

      許容区間は、ガウス分布から引き出された独立した観測値のサンプルについて計算するのが比較的簡単です。 この計算については、次のセクションで説明します。

      ガウス分布の許容範囲

      このセクションでは、データサンプルの許容範囲を計算する例について説明します。

      まず、データサンプルを定義しましょう。 平均が50、標準偏差が5のガウス分布から抽出された100個の観測値のサンプルを作成します。/div>

      1

      2
      #データセットを生成
      data=5*randn(100)+50

      例, 真の母集団の平均と標準偏差を認識しておらず、これらの値を推定する必要があると仮定します。

      母集団パラメータを推定する必要があるため、追加の不確実性があります。 たとえば、95%のカバレッジの場合、推定平均から1.96(または2)の標準偏差を許容範囲間隔として使用できます。 サンプルからの平均と標準偏差を推定し、この不確実性を考慮する必要があるため、区間の計算はやや複雑です。

      次に、自由度の数を指定する必要があります。 これは、臨界値の計算および区間の計算に使用されます。 具体的には、標準偏差の計算に用いられる。

      自由度は、計算中に変化する可能性のある値の数であることに注意してください。 ここでは、100の観測値、したがって100の自由度があります。 私たちは標準偏差を知らないので、平均を使って推定する必要があります。 これは、私たちの自由度が(N–1)または99になることを意味します。/div>

      1
      2
      3
      #自由度を指定
      n=len(data)
      dof=n-1
      #自由度を指定

      n=len(data)
      dof=n-1
      #自由度を指定

      次に、データの比例カバレッジを指定する必要があります。 この例では、データの95%の中央に関心があります。 割合は95です。 この比率を中間の95%、つまり2.5番目の百分位から97.5番目の百分位までカバーするようにシフトする必要があります。それにもかかわらず、逆生存関数の2.5%の割合を考えると、Pythonで直接計算することができます。

      私たちは、95%の臨界値が1.96であることを知っています。

      私たちはそれを頻繁に使用することを考えると、逆生存関数の2.5%の割合を考えると、Pythonで直接計算することができます。 これは、ノルムを使用して計算できます。isf()SciPy関数。/div>

      1

      2
      3
      4
      #データカバレッジを指定します
      prop=0.95
      prop_inv=(1.0-prop)/2.0
      gauss_critical=ノルム。isf(prop_inv)

      次に、カバレッジの信頼度を計算する必要があります。 これを行うには、与えられた自由度と所望の確率のカイ二乗分布から臨界値を取得します。 私たちはchi2を使うことができます。isf()SciPy関数。/div>

      1
      2
      3
      isf(q=prob,df=dof)

      ガウス公差区間を計算するためのすべてのピースが得られました。 計算は次のとおりです:/div>

      1

      1

      このすべてを結ぶことができます 一緒に、私たちのデータサンプルのガウス許容区間を計算します。

      完全な例を以下に示します。

      この例を実行すると、最初にガウス分布とカイ二乗分布の関連する臨界値を計算して出力します。 公差が印刷され、正しく表示されます。また、サンプルのサイズが大きくなるにつれて、許容範囲がどのように減少するか(より正確になるか)を示すことも役立ちます。

      サンプルのサイズが

      以下の例では、同じ小さな人為的な問題について、異なるサンプルサイズの許容誤差間隔を計算することによってこれを示しています。

      この例を実行すると、真の母集団平均の周りの許容誤差間隔を示すプロットが作成されます。サンプルサイズが5例から15例に増加するにつれて、間隔が小さくなる(より正確になる)ことがわかります。

      サンプルサイズが5例から15例に増加す

      許容区間とサンプルサイズのエラーバープロット

      拡張

      このセクションでは、チュートリアルを拡張するためのいくつかのアイデアを示しています。

      • 機械学習プロジェクトで許容範囲を使用できる3つのケースをリストします。
      • ガウス変数を持つデータセットを検索し、その許容差区間を計算します。
      • ノンパラメトリック公差区間を計算するための一つの方法を研究し、説明します。これらの拡張機能のいずれかを探索する場合、私は知りたいと思います。

        さらに読む

        このセクションでは、より深く行くために探している場合は、トピックに関するより多くのリソースを提供します。

        Books

        • 新しい統計の理解:効果サイズ、信頼区間、およびメタ分析、2017。統計的間隔:実務家と研究者のためのガイド、2017。
        • 統計的間隔:実務家と研究者のためのガイド、2017。

        API

        • scipy。統計。norm()API
        • scipy。統計。chi2()API
        • matplotlib.ピプロットerrorbar()API

        Articles

        • Wikipediaの許容範囲
        • 68-95-99.7Rule on Wikipedia
        • パーセンタイルオンWikipedia
        • 正規分布の許容範囲

        Summary

        このチュートリアルでは、統計的な許容範囲とガウスデータの許容範囲を計算する方法を発見しました。

        具体的には、あなたが学んだ:

        • その統計的許容範囲は、母集団からの観測値の境界を提供します。
        • 許容範囲の間隔では、カバレッジの割合と信頼度の両方を指定する必要があります。
        • ガウス分布を持つデータサンプルの許容誤差区間を簡単に計算できること。

        何か質問がありますか?

      質問がありますか?
      以下のコメントであなたの質問をすると、私は答えるために最善を尽くします。

      機械学習のための統計のハンドルを取得!

      統計の実用的な理解を開発

      …pythonでコード行を書くことによって

      どのように私の新しい電子ブックで発見:
      機械学習のための統計的方法

      それはのようなトピックに関する自習チュートリアルを提供します:
      仮説テスト、相関、ノンパラメトリック統計、リサンプリング、および大いに多く。..

      データを知識に変換する方法を発見

      学者をスキップします。 ちょうど結果。

コメントを残す

メールアドレスが公開されることはありません。