外れ値を計算する

著者: Charles Brown
作成日: 8 2月 2021
更新日: 1 J 2024
Anonim
外れ値の判定方法解説します【箱ひげ図】【正規分布】
ビデオ: 外れ値の判定方法解説します【箱ひげ図】【正規分布】

コンテンツ

A 外れ値 または 外れ値 統計では、サンプル内の他のデータポイントとは大幅に異なるデータポイントです。多くの場合、外れ値は統計学者に対する測定値の不一致またはエラーを示し、その後、データセットから外れ値を削除できます。彼らが実際にデータセットから外れ値を削除することを選択した場合、それは研究から引き出された結論に大きな変化をもたらす可能性があります。これが、統計データを適切に解釈したい場合に外れ値を計算して決定することが重要である理由です。

ステップに

  1. 考えられる外れ値を見つける方法を学びます。 特定のデータセットから異常値を削除するかどうかを決定する前に、もちろん、最初にデータセット内の可能な外れ値を特定する必要があります。一般に、外れ値は、セット内の他の値を形成する傾向から大幅に逸脱しているデータポイントです-言い換えると、それらは 撃ち抜く 他の値の。通常、これは表や(特に)グラフで簡単に認識できます。データセットが視覚的にグラフ化されている場合、外れ値は他の値から「遠く」になります。たとえば、データセット内のほとんどの点が直線を形成している場合、外れ値はこの線に準拠しません。
    • 部屋の中の12の異なるオブジェクトの温度を示すデータセットを見てみましょう。 11個のオブジェクトの温度が最大で21°C前後で数度変動し、1つのオブジェクトであるオーブンの温度が150°Cである場合、オーブンはおそらく外れ値であることが一目でわかります。
  2. すべてのデータポイントを最低から最高に並べ替えます。 外れ値を計算する最初のステップは、データセットの中央値(または中央値)を見つけることです。セット内の値が低いものから高いものの順になっている場合、このタスクははるかに簡単になります。したがって、続行する前に、データセット内の値を次のように並べ替えます。
    • 上記の例を続けましょう。これは、部屋内のさまざまなオブジェクトの華氏での温度を示すデータセットです:{71、70、73、70、70、69、70、72、71、300、71、69}。セット内の値を最低から最高に並べ替えると、これが新しいセットになります:{69、69、70、70、70、70、71、71、71、72、73、300}。
  3. データセットの中央値を計算します。 データセットの中央値は、データの半分がその上にあり、データの半分がその下にあるデータポイントです。これは、事実上、データセットの「中心」です。データセットに奇数のポイントが含まれている場合、中央値は簡単に見つけることができます。中央値は、下と同じ数のポイントがあるポイントです。ポイントが偶数の場合、中心が1つではないため、2つの中心点の平均をとって中央値を見つける必要があります。外れ値を計算する場合、中央値は通常、変数Q2によって参照されます。これは、第1四分位数と第3四分位数であるQ1とQ3の間にあるためです。これらの変数は後で決定します。
    • 偶数のポイントを持つデータセットと混同しないでください-2つの中間のポイントの平均は、多くの場合、データセット自体にない数です-これは問題ありません。ただし、2つの中間点が同じである場合、平均ももちろんこの数値になります-これも はい.
    • この例では、12ポイントあります。真ん中の2つの項は、それぞれポイント6と7-70と71です。したがって、データセットの中央値は、これら2つのポイントの平均です:((70 + 71)/ 2)=70,5.
  4. 最初の四分位数を計算します。 変数Q1で示すこのポイントは、観測値の25%(または4分の1)がその下にあるデータポイントです。つまり、これはデータセット内のすべてのポイントの中心です。 未満 中央値。中央値より下に偶数の値がある場合は、中央値を自分で決定するために行った可能性があるように、Q1を見つけるために2つの中央値の平均を再度取得する必要があります。
    • この例では、中央値より6ポイント上、中央値より6ポイント下にあります。したがって、最初の四分位数を見つけるには、下の6つのポイントの2つの中間ポイントの平均を取る必要があります。下の6つのポイント3と4は両方とも70なので、それらの平均は((70 + 70)/ 2)=70。したがって、第1四半期の値は70です。
  5. 3番目の四分位数を計算します。 変数Q3で示すこのポイントは、データの25%がその上にあるデータポイントです。 Q3を見つけることは、Q1を見つけることと実質的に同じですが、この場合のポイントを調べている点が異なります。 上記 中央値。
    • 上記の例を続けると、中央値より上の6つのポイントの2つの中間ポイントが71と72であることがわかります。これらの2つのポイントの平均は((71 + 72)/ 2)=71,5。したがって、第3四半期の値は71.5です。
  6. 四分位範囲を見つけます。 Q1とQ3を決定したので、これら2つの変数間の距離を計算する必要があります。 Q3からQ1を引くと、Q1とQ3の間の距離を求めることができます。四分位範囲で得られる値は、データセット内の偏差のない点の境界を決定するために重要です。
    • この例では、Q1とQ3の値はそれぞれ70と71.5です。四分位範囲を見つけるために、Q3-Q1:71.5-70 =を計算します。1,5.
    • これは、Q1、Q3、または両方の数値が負の場合でも機能します。たとえば、Q1の値が-70の場合、四分位範囲は71.5-(-70)= 141.5になりますが、これは正しいことです。
  7. データセットの「内部制限」を見つけます。 異常値がいくつかの数値制限内にあるかどうかを判断することで、異常値を認識することができます。いわゆる「内側の限界」と「外側の限界」。データセットの内側の制限を超えるポイントは、1つとして分類されます 軽度の外れ値、および外側の限界の外側の点は1つとして分類されます 極端な外れ値。データセットの内側の境界を見つけるには、最初に四分位範囲に1.5を掛けます。結果をQ3に加算し、Q1から減算します。 2つの結果は、データセットの内部制限です。
    • この例では、四分位範囲は(71.5〜70)、つまり1.5です。これに1.5を掛けると、2.25になります。この数値をQ3に加算し、Q1から減算して、次のように内部境界を見つけます。
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • つまり、内部の境界線は 67.75および73.75.
    • 私たちのデータセットでは、オーブンの温度(華氏300度)のみがこの範囲外です。したがって、これは軽度の外れ値である可能性があります。ただし、この温度が極端な外れ値であるかどうかはまだ判断されていないため、まだ結論にジャンプしないでください。
  8. データセットの「外側の限界」を見つけます。 これは、内側の制限と同じ方法で行いますが、唯一の違いは、四分位範囲の距離に1.5ではなく3を掛けることです。次に、結果をQ3に加算し、Q1から減算して、外側の限界値を見つけます。
    • この例では、四分位範囲の距離に3を掛けて、(1.5 * 3)または4.5を取得します。これで、内側の制限と同じ方法で外側の制限を見つけることができます。
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • したがって、外側の限界は 65.5および76.
    • 外部境界の外側にあるデータポイントは、極端な外れ値と見なされます。この例では、オーブンの温度である華氏300度は、外側の制限をはるかに超えています。オーブンの温度は もちろん 極端な外れ値。
  9. 定性的評価を使用して、外れ値を「破棄」する必要があるかどうかを判断します。 上記の方法を使用すると、特定のポイントが軽度の外れ値であるか、極端な外れ値であるか、または外れ値がまったくないかを判断できます。しかし、間違いはありません-ポイントを外れ値として認識すると、それは1つになります 候補者 データセットから削除されますが、すぐに削除されるポイントではありません しなければならない に変わります。ザ・ 理由 外れ値がセット内の残りのポイントと異なる理由は、外れ値を削除する必要があるかどうかを判断する上で重要です。一般に、何らかのエラー(たとえば、測定、記録、または実験計画のエラー)によって引き起こされた外れ値は削除されます。対照的に、エラーが原因ではなく、新しい予測できない情報や傾向を明らかにする外れ値は、通常、 ない 削除されました。
    • 考慮すべきもう1つの基準は、外れ値が歪んだり誤解を招くような方法でデータセットの平均に影響を与えるかどうかです。これは、データセットの平均から結論を引き出すことを計画している場合に特に重要です。
    • 私たちの例を判断しましょう。以来 最高 予期しない自然の力により、炉が300°Fの温度に達した可能性はほとんどありません。この例では、炉が誤ってオンになり、異常に高い温度測定値が発生したとほぼ100%確実に結論付けることができます。さらに、外れ値を削除しない場合、データセットの平均は(69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/ 12 = 89.67°になります。 F、平均 なし 外れ値は(69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/ 11 = 70.55°Fになります。
      • 外れ値は人為的ミスが原因であり、平均室温が32°Cに近いと言うのは誤りであるため、外れ値を使用することを選択する必要があります。 削除する.
  10. (場合によっては)外れ値を保持することの重要性を理解します。 一部の外れ値は、エラーの結果であるため、または誤解を招く方法で結果を歪めるため、データセットから削除する必要がありますが、他の外れ値は保持する必要があります。たとえば、外れ値が正しく取得されている場合(したがって、エラーの結果ではない場合)、および/または外れ値が測定対象の現象に対する新しい洞察を提供する場合は、すぐに削除しないでください。科学実験は、外れ値の処理に関して特に敏感な状況です。外れ値を誤って削除すると、新しい傾向や発見に関する重要な情報が破棄される可能性があります。
    • たとえば、養魚場の魚を大きくするための新薬を設計していると想像してみてください。古いデータセット({71、70、73、70、70、69、70、72、71、300、71、69})を使用してみましょう。違いは、各ポイントが魚の質量(グラム単位)を表すことです。 )誕生から別の実験薬で治療した後。言い換えれば、最初の薬は1匹の魚に71グラムの質量を与え、2番目の薬は別の魚に70グラムの質量を与えました。この状況では、300 まだ 巨大な外れ値ですが、今は削除しないでください。なぜなら、外れ値がエラーの結果ではないと仮定した場合、それは私たちの実験で大きな成功を示しているからです。 300グラムの魚を生産した薬は他のどの薬よりもうまく機能したので、これはそれです 最も セット内の重要なデータポイントではなく、 少なくとも 重要なデータポイント。

チップ

  • 外れ値を見つけた場合は、データセットから削除する前に説明してください。それらは、分布の測定誤差または偏差を示している可能性があります。

必需品

  • 電卓