著者:
Robert Simon
作成日:
21 六月 2021
更新日:
1 J 2024
コンテンツ
分散は、データセットの分散を測定します。これは、統計モデルの構築に非常に役立ちます。分散が小さい場合は、データの基本的な関係ではなく、ランダムなエラーまたはノイズを記述していることを示している可能性があります。この記事では、wikiHowが分散の計算方法を説明します。
手順
方法1/2:サンプルの分散を計算する
- サンプルデータセットを作成します。 ほとんどの場合、統計学者は、調査している母集団のサンプルまたはサブセットに関する情報しか持っていません。たとえば、「ドイツのすべての車のコスト」の一般的な分析を行う代わりに、統計学者は数千台の車のランダムなサンプルのコストを見つけるかもしれません。統計担当者は、このサンプルを使用して、ドイツの自動車のコストを適切に見積もることができます。ただし、実際の数値と正確に一致しない可能性が高くなります。
- 例えば: コーヒーショップで1日あたりに販売されたマフィンの数を分析すると、ランダムに6日間のサンプルを取得し、次の結果が得られました。 38、37、36、28、18、14、12、11、10.7、9.9。店舗が開いている毎日のデータがないため、これはサンプルであり、人口ではありません。
- 場合 すべて マスターのデータポイントは、以下の方法で行ってください。
サンプル分散式を書き留めます。 データセットの分散は、データポイントの分散を示します。分散がゼロに近いほど、データポイントはグループ化されます。サンプルデータセットを使用する場合は、次の式を使用して分散を計算します。- = /(n-1)
- は分散です。分散は常に2乗単位で計算されます。
- データセットの値を表します。
- 「合計」を意味する∑は、値ごとに次のパラメータを計算し、それらを合計するように指示します。
- x̅はサンプルの平均です。
- nはデータポイントの数です。
サンプルの平均を計算する. 記号x̅または「x-horizontal」は、サンプルの平均を示すために使用されます。他の平均と同じように計算します。すべてのデータポイントを合計し、ポイント数で割ります。- 例えば: まず、データポイントを合計します:17 + 15 + 23 + 7 + 9 + 13 = 84
次に、結果をデータポイントの数(この場合は6)で除算します:84÷6 = 14。
サンプル平均=x̅= 14. - 平均値は、データの「中心点」と考えることができます。データが平均を中心としている場合、分散は低くなります。それらが平均から遠く離れて分散している場合、分散は大きくなります。
- 例えば: まず、データポイントを合計します:17 + 15 + 23 + 7 + 9 + 13 = 84
各データポイントから平均を引きます。 今が計算する時です-x̅、ここでデータセットの各ポイントはです。各結果は、対応する各ポイントの平均からの偏差、または簡単に言えば、ポイントから平均までの距離を示します。- 例えば:
--x̅= 17-14 = 3
--x̅= 15-14 = 1
--x̅= 23-14 = 9
--x̅= 7-14 = -7
--x̅= 9-14 = -5
--x̅= 13-14 = -1 - 結果の合計がゼロになる必要があるため、計算を確認するのは非常に簡単です。これは、平均の定義により、負の結果(平均から少数までの距離)が原因です。肯定的な結果(平均からより大きな数までの距離)は完全に排除されます。
- 例えば:
- すべての結果を二乗します。 上記のように、現在の偏差リスト(-x̅)の合計はゼロです。つまり、「平均偏差」も常にゼロになり、データの分散については何も言えません。この問題を解決するために、各偏差の2乗を求めます。そのおかげで、すべてが正の数になり、負の値と正の値が互いに打ち消し合い、合計がゼロになることはなくなりました。
- 例えば:
(- バツ)
- バツ)
9 = 81
(-7) = 49
(-5) = 25
(-1) = 1 - これで、サンプルの各データポイントに(-x̅)ができました。
- 例えば:
- 二乗値の合計を求めます。 次に、式の分子全体を計算します。∑。大きなサイクロ∑では、値ごとに次の要素値を追加する必要があります。サンプルの各値について(-x̅)を計算したので、必要なのは結果を合計することだけです。
- 例えば: 9 + 1 + 81 + 49 + 25 + 1 = 166.
- n -1で除算します。ここで、nはデータポイントの数です。 はるか昔、サンプルの分散を計算するとき、統計学者はnで割っただけでした。その除算により、偏差の2乗の平均が得られます。これは、そのサンプルの分散と正確に一致します。ただし、サンプルはより多くの人口の推定値にすぎないことに注意してください。別のランダムサンプルを取得して同じ計算を行うと、異なる結果が得られます。結局のところ、nではなくn -1で割ると、より大きな母集団の分散をより正確に見積もることができます。これは本当に気になります。この修正は非常に一般的であるため、現在ではサンプル分散の定義として認められています。
- 例えば: サンプルには6つのデータポイントがあるため、n = 6です。
サンプル分散= 33,2
- 例えば: サンプルには6つのデータポイントがあるため、n = 6です。
- 分散と標準偏差を理解します。 式には累乗があるため、分散は元のデータの単位の2乗で測定されることに注意してください。これは視覚的に混乱します。代わりに、多くの場合、標準偏差が非常に役立ちます。ただし、標準偏差は分散の平方根によって決定されるため、労力を無駄にする意味はありません。そのため、サンプルの分散は用語で記述され、サンプルの標準偏差はです。
- たとえば、上記のサンプルの標準偏差= s =√33.2= 5.76。
方法2/2:母集団の分散を計算する
- マスターデータセットから始めます。 「人口」という用語は、関連するすべての観察結果を指すために使用されます。たとえば、ハノイの住民の年齢を調査している場合、全体の人口には、ハノイに住むすべての個人の年齢が含まれます。通常、このような大きなデータセットのスプレッドシートを作成しますが、以下に小さなサンプルデータセットを示します。
- 例えば: 水族館の部屋にはちょうど6つの水族館があります。これらの6つのタンクには、次の数の魚が含まれています。
- 例えば: 水族館の部屋にはちょうど6つの水族館があります。これらの6つのタンクには、次の数の魚が含まれています。
- 全体的な分散の式を書き留めます。 人口には必要なすべてのデータが含まれているため、この式は人口の正確な分散を示します。サンプルの分散(これは単なる推定値です)と区別するために、統計学者は他の変数を使用します。
- σ = /n
- σ=サンプル分散。これは通常四角いソーセージです。分散は二乗単位で測定されます。
- データセット内の要素を表します。
- ∑の要素は、値ごとに計算され、合計されます。
- μは全体の平均です。
- nは、母集団内のデータポイントの数です。
- 人口の平均を見つけます。 集団を分析する場合、記号μ(「mu」)は算術平均を表します。平均を求めるには、すべてのデータポイントを合計し、ポイント数で割ります。
- 平均は「平均」と考えることができますが、その単語には多くの数学的な定義があるため、注意してください。
- 例えば: 平均値=μ== 10,5
- 各データポイントから平均を引きます。 平均に近いデータポイントの差はゼロに近くなります。すべてのデータポイントに対して減算の問題を繰り返すと、おそらくデータの分散を感じ始めるでしょう。
- 例えば:
- μ = 5 – 10,5 = -5,5
- μ = 5 – 10,5 = -5,5
- μ = 8 – 10,5 = -2,5
- μ = 12 - 10., = 1,5
- μ = 15 – 10,5 = 4,5
- μ = 18 – 10,5 = 7,5
- 例えば:
- 各標識を四角にします。 この時点で、前のステップで得られた結果の一部はネガティブになり、一部はポジティブになります。同形の線でデータを視覚化すると、これら2つの項目は、平均の左右の数値を表します。これらの2つのグループは互いに打ち消し合うため、これは分散の計算には役立ちません。代わりに、それらをすべて二乗して、すべてが正になるようにします。
- 例えば:
(-μ)の各値に対して 私 1から6まで実行されます:
(-5,5) = 30,25
(-5,5) = 30,25
(-2,5) = 6,25
(1,5) = 2,25
(4,5) = 20,25
(7,5) = 56,25
- 例えば:
- 結果の平均を見つけます。 これで、各データポイントの値が得られ、そのデータポイントが平均からどれだけ離れているかに(直接ではなく)関連付けられます。それらを合計し、あなたが持っている値の数で割って平均します。
- 例えば:
全体的な分散= 24,25
- 例えば:
- お問い合わせレシピ。 これがメソッドの最初に概説した式にどのように適合するかわからない場合は、問題全体を手作業で書き留め、省略しないでください。
- 平均と二乗からの差を見つけた後、(-μ)、(-μ)などを(-μ)まで取得します。ここで、は最後のデータポイントです。データセット内。
- これらの値の平均を見つけるには、それらを合計してnで除算します:((-μ)+(-μ)+ ... +(-μ))/ n
- シグモイド表記で分子を書き直した後、次のようになります。n、式の分散。
助言
- 分散は解釈が難しいため、この値は標準偏差を見つけるための開始点として計算されることがよくあります。
- 分母に「n」の代わりに「n-1」を使用することは、ベッセル補正と呼ばれる手法です。サンプルは完全な母集団の推定値にすぎず、サンプルの平均にはその推定値に一致する特定のバイアスがあります。この修正により、上記のバイアスが排除されます。 n -1個のデータポイントが列挙されると、最後の5番目のポイントが列挙されるという事実に関係します。 n 分散式のサンプルの平均(x̅)の計算に特定の値のみが使用されたため、は定数でした。