排出量の計算方法

著者: Janice Evans
作成日: 23 J 2021
更新日: 23 六月 2024
Anonim
08 スコープ1,2 自社の排出
ビデオ: 08 スコープ1,2 自社の排出

コンテンツ

統計では、外れ値は、収集されたデータセット内の他の値とは大幅に異なる値です。外れ値は、データ分布または測定エラーの異常を示している可能性があるため、外れ値はデータセットから除外されることがよくあります。データセットから外れ値を排除することにより、予期しない、またはより正確な結論に達することができます。したがって、統計を正しく理解するためには、外れ値を計算して推定できる必要があります。

ステップ

  1. 1 潜在的な外れ値を認識することを学びます。 データセットから外れ値を除外する前に、潜在的な外れ値を特定する必要があります。外れ値は、データセット内のほとんどの値とは大きく異なる値です。言い換えれば、外れ値はほとんどの値の傾向の外にあります。これは、値の表または(特に)グラフで簡単に見つけることができます。データセット内の値がプロットされている場合、外れ値は他のほとんどの値から遠く離れています。たとえば、ほとんどの値が直線上にある場合、外れ値はそのような直線の両側にあります。
    • たとえば、部屋の12個の異なるオブジェクトの温度を表すデータセットについて考えてみます。 11個のオブジェクトが約70度であるが、12番目のオブジェクト(おそらく炉)が300度である場合、値をざっと見ると、炉がパンクしている可能性が高いことがわかります。
  2. 2 データを昇順で並べ替えます。 外れ値を決定する最初のステップは、データセットの中央値を計算することです。データセット内の値が昇順(最小から最大)に配置されている場合、このタスクは大幅に簡素化されます。
    • 上記の例を続けて、複数のオブジェクトの温度を表す次のデータセットについて考えてみます:{71、70、73、70、70、69、70、72、71、300、71、69}。このセットは、{69、69、70、70、70、70、71、71、71、72、73、300}のように注文する必要があります。
  3. 3 データセットの中央値を計算します。 データセットの中央値は、データセットの中央の値です。データセットに奇数の値が含まれている場合、中央値はデータセット内に同じ数の値が存在する前後の値です。ただし、データセットに偶数の値が含まれている場合は、2つの平均の算術平均を見つける必要があります。外れ値を計算する場合、中央値は通常Q2と呼ばれます。これは、後で定義する下位四分位数と上位四分位数であるQ1とQ3の間にあるためです。
    • 偶数の値を持つデータセットで作業することを恐れないでください-2つの平均の算術平均は、データセットにない数になります;これは正常です。しかし、2つの平均値が同じ数である場合、算術平均はこの数に等しくなります。これも物事の順番です。
    • 上記の例では、中央の2つの値は70と71であるため、中央値は((70 + 71)/ 2)= 70.5です。
  4. 4 下の四分位数を計算します。 Q1と呼ばれるこの値は、それを下回るとデータセット値の25%になります。言い換えれば、それは中央値までの値の半分です。中央値の前にデータセットから偶数の値がある場合、Q1を計算するために2つの平均の算術平均を見つける必要があります(これは中央値の計算に似ています)。
    • この例では、6つの値が中央値の後にあり、6つの値が中央値の前にあります。これは、下位四分位数を計算するために、中央値の前にある6つの値の2つの平均の算術平均を見つける必要があることを意味します。ここで、平均値は70と70です。したがって、Q1 =((70 + 70)/ 2)= 70です。
  5. 5 上位四分位数を計算します。 Q3と呼ばれるこの値は、それを超えるとデータセット値の25%になります。 Q3を計算するプロセスは、Q1を計算するプロセスと似ていますが、ここでは中央値の後の値が考慮されます。
    • 上記の例では、中央値の後の6つの2つの平均は71と72です。したがって、Q3 =((71 + 72)/ 2)= 71.5です。
  6. 6 四分位範囲を計算します。 Q1とQ3を計算したら、これらの値の間の距離を見つける必要があります。これを行うには、Q3からQ1を引きます。四分位範囲の値は、外れ値ではない値の境界を決定するために非常に重要です。
    • この例では、Q1 = 70およびQ3 = 71.5です。四分位範囲は71.5〜70 = 1.5です。
    • これは、Q1とQ3の負の値にも当てはまることに注意してください。たとえば、Q1 = -70の場合、四分位範囲は71.5-(-70)= 141.5です。
  7. 7 データセット内の値の「内側の境界」を見つけます。 外れ値は、値を分析することによって決定されます-それらがいわゆる「内部境界」および「外部境界」内にあるかどうか。 「内側の境界」の外側の値は「マイナーな外れ値」として分類され、「外側の境界」の外側の値は「重要な外れ値」として分類されます。内側の境界を見つけるには、四分位範囲に1.5を掛ける必要があります。結果をQ3に加算し、Q1から減算する必要があります。見つかった2つの数値は、データセットの内側の境界です。
    • この例では、四分位範囲は(71.5-70)= 1.5です。さらに:1.5 * 1.5 = 2.25。この数値をQ3に加算し、Q1から減算して、内側の境界を見つける必要があります。
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • したがって、内部境界は67.75と73.75です。
    • この例では、炉の温度(300度)のみがこれらの制限の範囲外にあり、わずかな排出量と見なすことができます。ただし、結論にジャンプしないでください。この温度が重大な外れ値であるかどうかを判断する必要があります。
  8. 8 データセットの「外側の境界」を見つけます。 これは、四分位範囲が1.5ではなく3で乗算されることを除いて、内部境界の場合と同じ方法で実行されます。結果をQ3に加算し、Q1から減算する必要があります。見つかった2つの数値は、データセットの外側の境界です。
    • この例では、四分位範囲に3を掛けます:1.5 * 3 = 4.5。外側の境界を計算します。
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • したがって、外側の境界は65.5と76です。
    • 外側の境界の外にある値は、重大な排出量と見なされます。この例では、300度の炉温度が重大なパンクと見なされます。
  9. 9 定性的推定を使用して、外れ値をデータセットから除外する必要があるかどうかを判断します。 上記の方法では、一部の値が外れ値(マイナーまたは重要)であるかどうかを判断できます。ただし、間違いはありません。外れ値として分類される値は、例外の「候補」にすぎません。つまり、除外する必要はありません。外れ値の原因は、外れ値を除外する決定に影響を与える主な要因です。原則として、エラー(測定、記録など)が原因で発生する外れ値は除外されます。一方、エラーではなく、新しい情報や傾向に関連する外れ値は、通常、データセットに残されます。
    • データセットの中央値に対する外れ値の影響を評価することも同様に重要です(データセットを歪めるかどうかは関係ありません)。これは、データセットの中央値から結論を引き出す場合に特に重要です。
    • この例では、オーブンが300度の温度まで加熱される可能性はほとんどありません(自然の異常を考慮しない限り)。したがって、そのような温度はデータセットから除外する必要がある測定誤差であると(高い確実性で)結論付けることができます。さらに、外れ値を除外しない場合、データセットの中央値は(69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/ 12 = 89.67度になります。ただし、外れ値を除外すると、中央値は(69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/ 11 = 70.55度になります。
      • 外れ値は通常、人為的エラーの結果であるため、外れ値をデータセットから除外する必要があります。
  10. 10 データセットに残された(場合によっては)外れ値の重要性を理解します。 一部の外れ値は、エラーや技術的な問題が原因であるため、データセットから除外する必要があります。他の外れ値はデータセットに残しておく必要があります。たとえば、外れ値がエラーの結果ではない場合、および/またはテスト中の現象の新しい理解を提供する場合は、データセットに残しておく必要があります。科学実験は特に外れ値に敏感です。外れ値を誤って削除すると、新しい傾向や発見を見逃してしまう可能性があります。
    • たとえば、水産業の魚のサイズを大きくするための新薬を開発しています。古いデータセット({71、70、73、70、70、69、70、72、71、300、71、69})を使用しますが、今回は各値が魚の重量(グラム単位)を表します。実験薬摂取後。言い換えれば、最初の薬は最大71 gの魚の体重の増加につながり、2番目の薬は最大70gの魚の体重の増加につながります。この状況では、300は重大な外れ値ですが、除外してはなりません。測定誤差がなかったと仮定すると、そのような外れ値は実験で大きな成功を収めます。魚の体重を300グラムに増やしたこの薬は、他の薬よりもはるかに効果的です。したがって、300はデータセットで最も重要な値です。

チップ

  • 外れ値が見つかった場合は、データセットから除外する前に、その存在を説明してください。それらは、測定誤差または分布異常を示している可能性があります。

あなたは何が必要ですか

  • 電卓