クロス集計表の連関の検定で利用される確率分布として、正しいものを1つ選ぶ問題です。
統計は、たとえ初歩的な内容であっても解説するのが大変なのでどうしても後回しにしてしまいますね。
統計については、数字の計算などをできなくてもいいのですが、概念的なことをしっかりと覚えておくことが求められます。
ある統計概念がどういうときに用いられるものなのか、ということをしっかりと理解しておくことです。
解答のポイント
2変数の記述統計について概説ができる。
2変数の記述統計について
心理統計(心理に限らないかもしれないけど)では、2つの変数の関係を考えていくことがある。
ストレス量と社交性の関係や、性差と好きなお酒の種類の関係など。
前者は両方とも量的変数、後者は両方とも質的変数です。
まずはこれらの違いをしっかりと把握しておくことが大切です。
【量的変数と量的変数の場合】
ストレス量と社交性のように、量的変数と量的変数の関係について考える場合、その関係のことを「相関」と呼びます。
量的変数とは、数字に置き換えるなどして、その大小関係を問題にできる変数です。
相関では、その様子を視覚的に把握するために「散布図」を用いることが一般的です。
以下のようなものになります。
その後、この図を数値化していくことになり、この際の代表的な指標が「相関係数」になります。
相関係数にもいろいろ種類があり、最も使われるのがピアソンの「積率相関係数」です(他にも順位相関係数(ケンドールやスピアマン)などがある)。
本問では相関は関係が無いので、このくらいに。
【質的変数と質的変数の場合】
性差と好きなお酒の種類のように、質的変数と質的変数の関係について考える場合、その関係のことを「連関」と呼びます。
質的変数とは、性別(男性・女性)のように対象を分類する変数のことを指します。
質的変数と質的変数の関係(連関)について把握する際、しばしば用いられるのが「クロス集計表」になります。
以下のようなものになります(「心理学検定 基本キーワード」に載っていました)。
この表を1つの値に集約する指標として「クラメールの連関係数」「φ(ファイ)係数」などがあります。
「φ係数」は2×2のクロス集計に、「クラメールの連関係数」については2×2やそれ以上のクロス集計表にも用いることが可能です。
詳しい説明はさておき、これらの指標では示された数値に連関があるかどうかを数字で示すわけですが、いずれも0~1の数字で表記され、2つの変数にまったく関係がない場合は0になります。
本問を解くにあたって知っておかねばならないのは、「クラメールの連関係数」「φ(ファイ)係数」などを算出するにあたって「カイ2乗値」を求めることが必要であるということです。
上記をまとめた表が以下の通りです(こちらも「心理学検定 基本キーワード」に載っていました)。
これらを踏まえて、選択肢の解説に入っていきます。
選択肢の解説
『①F分布』
F分布は分散分析においてF値を求めるときに用いるものです。
分散分析は「分散」すなわちバラつきをバラして分析する手法です。
分散分析ではバラつきを以下のように分けます。
- 全体平方和:データ全体のバラつき
- 群間平方和:平均値の違いで説明できるバラつき
- 郡内平方和:平均値の違いでは説明できないバラつき
『②t分布』
t分布はt検定においてt値を求めるときに用いるものです。
t検定では、従属変数が間隔尺度もしくは比率尺度、統計量は平均値、独立変数が1で2条件の場合に用いられる統計手法です(対応の有無については省略します)。
ざっくりと、「平均値の差が有意であるか否かを判断するもの」と覚えておいてもいいかもしれません。
その計算の結果、t値が示されます。
選択肢①のF値と同じように、それをt分布表を見て有意か否かを判断することになります。
自由度の数を基に、有意確率の各数字をt値が超えているか否かで判断します。
超えていれば「有意である」と言えるわけですね。
このようにt分布はt検定を通して使われるものであり、本問の「クロス集計表の連関の検定で利用される確率分布」としては適切でないと言えます。
よって、選択肢②は誤りと判断できます。
『③2項分布』
「コインを投げたときに表が出るか裏が出るか」のように、何かを行ったときに起こる結果が2つしかない試行のことを「ベルヌーイ試行」といいます。
ベルヌーイ試行を実施し、独立にn回行ったときの成功回数を確率変数とする離散確率分布のことを「2項分布」と呼びます。
上記のようなものですね。
単純に言えば、ベルヌーイ試行をn回行ったときに、ある事象が何回起こるかの確率分布のことを2項分布と言うわけです。
例えば、「コインを5回投げた時に表2回出る確率」「対戦ゲームで90%の確率で当たる技を10回中8回当てる確率」などを表した確率分布です。
これらより、選択肢③は誤りと判断できます。
『④正規分布』
正規分布とは統計・統計学を理解する上で一番大切な確率分布です。
正規曲線自体を発見したのはピエール=シモン・ラプラス(1749-1827)で、これを統計学的に展開することに成功したのがカール・フリードリヒ・ガウス(1777-1855)でした。
ガウスが18世紀末に「正規曲線」という言葉を導入し、ゴルトンは「誤差曲線」という言葉を使い、その後研究論文で「誤差曲線」を「正規曲線」と名付けたという経緯があります。
ガウス曲線は実はラプラスが発見したことがわかったので、ラプラス・ガウス曲線と呼ぶことも提唱しましたが、どちらが先かという論争が国を超えて広がるのを避けるため(ラプラスさんとガウスさんは出身国が違った)に「正規分布」と呼ぶことになっています。
今でも「誤差分布」「ガウス分布」という表現もなされますね。
- 左右対称(歪度=0)
- 中央に山が一つ
- 両裾がなだらかに広がっている(尖度=3)
『⑤カイ2乗分布』
すでに述べたとおり、本問を解くにあたって知っておかねばならないのは、「クラメールの連関係数」「φ(ファイ)係数」などを算出するにあたって「カイ2乗値」を求めることが必要であるということです。
ピアソンは1896年の末頃に、生物学者や経済学者が遭遇する比対称分布の検定に興味を持ち、1900年にカイ2乗検定が誕生しました。
- クロス集計表は、質的変数と質的変数の関係(連関)について把握する際に用いられる。
- クロス集計表を1つの値に集約する指標として「クラメールの連関係数」「φ(ファイ)係数」などがある。
- 「クラメールの連関係数」「φ(ファイ)係数」などを算出するにあたって「カイ2乗値」を求めることが必要になる。
- 「カイ2乗値」はカイ2乗分布に従う検定統計量である。