共分散を計算する

著者: Judy Howell
作成日: 2 J 2021
更新日: 1 J 2024
Anonim
相関係数・共分散【超わかる!高校数学Ⅰ・A】~授業~データの分析#23
ビデオ: 相関係数・共分散【超わかる!高校数学Ⅰ・A】~授業~データの分析#23

コンテンツ

共分散は、2つのデータセット間の関係をより透過的にするための統計計算です。たとえば、人類学者が特定の文化内の人口の身長と体重を研究するとします。調査対象の各人について、身長と体重を1組のデータ(x、y)で表示できます。これらの値は、共分散関係を計算するための標準的な式で使用できます。この記事では、最初にデータセットの共分散を決定するための計算について説明します。次に、結果を決定する他の2つの自動化された方法について説明します。

ステップに

4の方法1/4:標準式を使用して手動で共分散を計算します

  1. 標準の共分散式とその部分を学びます。 共分散を計算するための標準的な式は次のとおりです。 Σ(バツバツ平均)(yy平均)/(n1){ displaystyle Sigma(x_ {i} -x _ { text {avg}})(y_ {i} -y _ { text {avg}})/(n-1)}データテーブルを作成します。 始める前に、データを収集しておくと役に立ちます。 5つの列で構成されるテーブルを作成します。各列を次のように宣言する必要があります。
    • バツ{ displaystyle x}xデータポイントの平均を計算します。 このサンプルデータセットには、9つの数値が含まれています。平均を見つけるには、それらを合計し、合計を9で割ります。これにより、結果は1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44になります。これを9で割ると、平均が得られます。 4.89。これは、今後の計算でx(avg)として使用する値です。
    • yデータポイントの平均を計算します。 このy列も、xデータポイントと一致する9つのデータポイントで構成されている必要があります。これらの平均を決定します。このサンプルデータセットの場合、これは8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 49になります。この合計を9で割ると、平均5.44になります。今後の計算では、y(avg)の値として5.44を使用します。
    • 値を計算する (バツバツ平均){ displaystyle(x_ {i} -x _ { text {avg}})}値を計算する (yy平均){ displaystyle(y_ {i} -y _ { text {avg}})}各データ行の積を計算します。 前の2つの列で計算した数値を乗算して、最後の列の行に入力します。 (バツバツ平均){ displaystyle(x_ {i} -x _ { text {avg}})}最後の列で値の合計を見つけます。 これがΣ記号の出番です。これまでのすべての計算を行った後、結果を合計します。このサンプルデータセットでは、最後の列に9つの値が含まれているはずです。これらの9つの数字を合計します。数値が正であるか負であるかに細心の注意を払ってください。
      • このサンプルデータセットの合計は、合計で-64.57になるはずです。この合計を列の下部のスペースに記入します。これは、標準の共分散式の分子の値です。
    • 共分散式の分母を計算します。 標準の共分散式の分子は、計算したばかりの値です。分母は(n-1)で表され、データセット内のデータのペアの数より1つ少なくなります。
      • この例の問題では、データのペアが9つあるため、nは9です。したがって、(n-1)の値は8に等しくなります。
    • 分子を分母で割ります。 共分散の計算の最後のステップは、分子を除算することです。 Σ(バツバツ平均)(yy平均){ displaystyle Sigma(x_ {i} -x _ { text {avg}})(y_ {i} -y _ { text {avg}})}繰り返し計算があることに注意してください。 共分散は、結果の意味を理解するために、手作業で数回実行する必要がある計算です。ただし、データの解釈に共分散を日常的に使用する場合は、結果を取得するためのより高速で自動化された方法が必要です。これまでに、わずか9つのデータペアの比較的小さなデータセットでは、計算が2つの平均、18の個別の減算、9つの乗算、1つの加算、そして最後に別の除算で構成されていることに気付いたかもしれません。これは、解決策を見つけるための31の比較的小さな計算です。途中で、否定的な兆候を見落としたり、結果を誤ってコピーしたりするリスクがあり、その結果、答えは正しくなくなります。
    • 共分散を計算するためのワークシートを作成します。 Excel(または別の計算プログラム)に精通している場合は、共分散を決定するためのテーブルを簡単に作成できます。手作業で計算した場合と同じように、5つの列の見出しにラベルを付けます:x、y、(x(i)-x(avg))、(y(i)-y(avg))、およびProduct。
      • 命名を簡単にするために、データの意味を覚えている限り、3番目の列を「xの違い」、4番目の列を「yの違い」のように呼びます。
      • テーブルがワークシートの左上隅から始まる場合、セルA1にはxのラベルが付けられ、他のラベルはセルE1まで続きます。
    • データポイントを入力します。 xとyの2つの列にデータ値を入力します。データポイントの順序が重要であるため、各yを対応するxの値と一致させる必要があることに注意してください。
      • x値はセルA2で始まり、必要なデータポイントの数まで続きます。
      • y値はセルB2で始まり、必要なデータポイントの数まで続きます。
    • x値とy値の平均を決定します。 Excelは、非常に迅速に平均を計算します。データの各列の下にある最初の空白のセルに、数式= AVERAGE(A2:A ___)を入力します。空のスペースに、最後のデータポイントに対応するセルの番号を入力します。
      • たとえば、100個のデータポイントがある場合、セルA2からA101が入力されるため、セルに= AVERAGE(A2:A101)と入力します。
      • yデータには、式= AVERAGE(B2:B101)を入力します。
      • Excelの数式は「=」記号で始まることに注意してください。
    • 列の式を入力します(x(i)-x(avg))。 セルC2に、最初の減算を計算するための数式を入力します。この式は次のようになります:= A2 -___。 xデータの平均を含むセルアドレスを空白スペースに入力します。
      • たとえば、100個のデータポイントのうち、平均はセルA103にあるため、数式は次のようになります。= A2-A103。
    • データポイントに対して式を繰り返します(y(i)-y(avg))。 同じ例に従って、セルD2に入ります。式は次のようになります:= B2-B103。
    • 「製品」列の式を入力します。 5番目の列に、セルE2に数式を入力して、先行する2つのセルの積を計算します。これは次のようになります:= C2 * D2。
    • 数式をコピーして表に記入します。 これまで、行2の最初のいくつかのデータポイントのみをプログラムしました。マウスを使用して、セルC2、D2、およびE2にマークを付けます。プラス記号が表示されるまで、右下隅の小さなボックスにカーソルを置きます。マウスボタンをクリックして押したまま、マウスを下にドラッグして選択範囲を拡大し、データテーブル全体に入力します。この手順では、セルC2、D2、およびE2からテーブル全体に3つの数式が自動的にコピーされます。テーブルには、すべての計算が自動的に入力されます。
    • 最後の列の合計をプログラムします。 「製品」列の項目の合計が必要です。その列の最後のデータポイントのすぐ下の空白のセルに、数式を入力します:= SUM(E2:E ___)。最後のデータポイントのセルアドレスで空白を埋めます。
      • 100個のデータポイントがある例では、この式はセルE103に入ります。タイプ:= SUM(E2:E102)。
    • 共分散を決定します。 Excelに最終的な計算を実行させることもできます。この例のセルE103の最後の計算は、共分散式の分子を表しています。そのセルのすぐ下に、数式= E103 / ___を入力します。空のスペースにデータポイントの数を入力します。この例では、これは100です。結果はデー​​タの共分散です。

方法3/4:オンライン共分散計算機の使用

  1. 共分散計算機をオンラインで検索します。 さまざまな学校、企業、またはその他の情報源が、共分散値を非常に簡単に計算するWebサイトを持っています。検索エンジンで「共分散計算機」という検索用語を使用します。
  2. 詳細を入力してください。 Webサイトの指示を注意深く読み、情報を正しく入力していることを確認してください。データペアを順番に保つことが重要です。そうしないと、生成される結果が誤った共分散になります。 Webサイトには、さまざまなスタイルのデータ入力があります。
    • たとえば、ウェブサイトhttp://ncalculators.com/statistics/covariance-calculator.htmには、x値を入力するための水平ボックスとy値を入力するための2番目の水平ボックスがあります。データはコンマで区切って入力する必要があります。したがって、この記事の前半で計算されたxデータセットは、1,3,2,5,8,7,12,2,4として入力する必要があります。 yデータは8、6、9、4、3、3、2、7、7です。
    • 別のサイトhttps://www.thecalculator.co/math/Covariance-Calculator-705.htmlでは、最初のボックスにxデータを入力するように求められます。データは垂直方向に入力され、1行に1つの項目があります。したがって、このサイトのエントリは次のようになります。
    • 1
    • 3
    • 2
    • 5
    • 8
    • 7
    • 12
    • 2
    • 4
  3. 結果を計算します。 これらのオンライン計算の魅力は、データを入力した後、通常は[計算]ボタンをクリックするだけで、結果が自動的に表示されることです。ほとんどのサイトでは、x(avg)、y(avg)、およびnの中間計算が提供されます。

方法4/4:共分散の結果を解釈する

  1. 正または負の関係を探します。 共分散は、あるデータセットと別のデータセットの間の関係を示す単一の統計数値です。冒頭で述べた例では、身長と体重が測定されています。人々が成長するにつれて、彼らの体重も増加し、前向​​きな共分散の見方につながることが期待されます。別の例:誰かがゴルフを練習する時間数と彼または彼女が達成するスコアを示すデータが収集されたとします。この場合、負の共分散が予想されます。これは、トレーニング時間数が増えると、ゴルフスコアが減少することを意味します。 (ゴルフでは、スコアが低いほど良いです)。
    • 上で計算されたサンプルデータセットについて考えてみます。結果の共分散は-8.07です。マイナス記号は、x値が増加すると、y値が減少する傾向があることを意味します。いくつかの値を見ると、これが当てはまることがわかります。たとえば、1と2のx値は7、8、9のy値に対応します。8と12のx値はそれぞれ3と2のy値にリンクされます。 。
  2. 共分散の大きさを解釈します。 共分散スコアの数が大きい場合(正の数が大きい場合または負の数が大きい場合)、これは、正または負の方法で強く接続されている2つのデータ要素として解釈できます。
    • サンプルデータセットの-8.07共分散は非常に大きいです。データの範囲は1〜12であることに注意してください。したがって、8はかなり大きな数です。これは、データセットxとyの間にかなり強い関係があることを示しています。
  3. 関係の欠如を理解します。 結果が0に等しいか非常に近い共分散である場合、データポイントは無関係であると結論付けることができます。つまり、一方の値を増やすと、もう一方の値を増やすことができますが、必ずしもそうする必要はありません。 2つの用語はほぼランダムにリンクされています。
    • 靴のサイズを試験の成績に関連付けるとします。学生の試験の成績に影響を与える要因は非常に多いため、0に近い共分散スコアが期待できます。これは、2つの値の間にほとんど関係がないことを示しています。
  4. 関係をグラフィカルに表示します。 共分散を視覚的に理解するために、データポイントをx、yグラフにプロットできます。これを行うと、ポイントは正確には直線ではありませんが、左上から右下に対角線でクラスターに近づく傾向があることが非常に簡単にわかります。これは、負の共分散の説明です。また、共分散の値が-8.07に等しいこともわかります。これは、データポイントと比較してかなりの数です。数値が高いことは、共分散が非常に強いことを示しています。これは、データポイントの線形形状から推測できます。
    • これをもう一度確認するには、wikiHowの座標系での点の描画に関する記事を読んでください。

警告

  • 共分散は、統計への適用が限られています。多くの場合、相関係数やその他の概念を計算するためのステップです。共分散スコアに基づく過度に大胆な解釈に注意してください。