公認心理師 2019-80

問80は分散分析と帰無仮説に関する理解を問うている内容です。
分散分析もそうですが、帰無仮説に関する理解は心理統計の基礎となりますから、しっかりと押さえておきましょう。

問80 1要因分散分析の帰無仮説として、正しいものを1つ選べ。
①全ての水準の母平均は等しい。
②全ての水準間の母分散は等しい。
③全ての水準の母平均は等しくない。
④少なくとも1組の水準間の母平均は等しい。
⑤少なくとも1組の水準間の母平均は等しくない。

ここでは、まずは帰無仮説に関する基本的な理解を示し、その後に分散分析に関する概説的な説明をしていきましょう。
本問ではこれら二つに関する基本的な理解が問われています。

どの問題でもそうですけど、「この問題で問われていることは何か?」について把握しつつ解いていくことが大切ですね。
試験本番では、そういった作業は無意識下で行っているものですけど、試験勉強にあたってはそういうことを意識しつつ解いていく癖をつけましょう。

解答のポイント

帰無仮説に関する基本的な理解がある。
分散分析に関する基本的な理解がある。

帰無仮説

例えば、超能力の有無を調べるという研究を行うときには、以下のような手順で仮説を検証していきます。

  1. 第一の手順:超能力は存在しない、と考える。そういう結果を見せられたとしても偶然によって起こった、とみなす。このことを「仮説を立てる」という。
  2. 第二の手順:仮説を検討するために実験を行う。イカサマやトリックの余地が無いような実験計画を立てる(統制する)。
  3. 第三の手順:仮説を検定する。超能力が存在しない、という仮説を立てたときに、出た結果が偶然によって生じる確率(危険率)を計算する。
そしてこのときの危険率(=有意水準)が、例えば5%以下なら仮説を捨てる(棄却する)ことになり、間接的に超能力の存在を認めることになるということです。
ふつう、仮説は正しいものとして設定されますよね。
上記で言えば「超能力はある」と仮説を立てて検証していく方が、手っ取り早い気がします。
なぜ、わざわざ「超能力は無い」という仮説を立てて、示された出現可能性が低かったら(例えば5%以下だったら)、「超能力は無い」という仮説を棄却して、間接的に「超能力が存在する」と見なすという、回りくどいことをするのか?
また、帰無仮説はなぜ捨てられるかどうかを検証するために設定されるのか?
この辺について理解しておくことが大切です。
超能力を例に、仮に「超能力がある」という仮説を帰無仮説にとってみましょう。
すると「超能力がある」ということは、サイコロを振って100%奇数の目を出せる能力から、90%、80%、70%…などといろいろな数、厳密にいえば無限大の数の能力が含まれることになりますよね。
これだと各々の場合について検証が必要となり、単純な場合であれば検証可能でしょうけど、どういった状況にも対応できるような統計的仮説検定の基本ラインとして設定することは事実上不可能と言えるわけです。
これに対して「超能力がない」という仮説は内容が一つであり、捨てやすい仮説となります。
すなわち、帰無仮説はその仮説をもとに、事象の起こる確率を計算しなければならないから厳密な仮説でなければならないのです。
「超能力はある」のように曖昧な仮説は帰無仮説になり得ないということですね。
よって帰無仮説とは、その比べるもの同士に「差がない」と見なすのが基本ラインになります。
こうした帰無仮説と対になる「対立仮説」は「AとBに差がある」「Aの方がBより大きい」などのように「差がある」というニュアンスの仮説になります
ちなみに「対立仮説」が「AとBに差がある」などのように、どちらの方が大きいといった限定がない場合には「両側検定」と用います。
一方で「Aの方がBより大きい」などのように、既にどちらかに偏った仮説を立てている場合には「片側検定」を利用することになります。
両側検定より片側検定の方が有意になりやすい、というのは臨床心理士資格試験でも出題されていますね。
少し有意水準に関しても触れておきましょう。
「超能力がない」という仮説を立て、例えば、奇数の目が542回、偶数の目が458回出たとしましょう。
この数字が偶然出る確率は1%以下であり、自然界では起こりにくいわけですが、注意せねばならないのは「1%という確率は存在している」ということです。
つまり「本当は超能力なんて無いんだけど、たまたまこの結果が出たので、間違って「超能力は無い」という帰無仮説を棄却しちゃった」ということが起こる可能性=危険性が1%はありますよ、ということになります。
このように間違っちゃう可能性があるよ、という点から有意水準のことを「危険率」とも呼ぶわけです。
このように「ないのにある」とすることを第1種の誤り(Type1Error:偽陽性;α)と呼びます。
対して、逆に「あるのにない」とすることを第2種の誤り(Type2Error:偽陰性;β)と呼びます。
これは「本当は超能力はあるのに、たまたま結果が伴わなかった」という場合などですね。
有意水準は5%、1%、0.1%などの設定がなされます。
これらは明確な基準があって設定されるというわけではなく、慣習的に5%や1%などが採用されています。
ただし、どんな研究でも「1%で良いでしょ」とはなりません。
同じ1%でも、超能力の有無と、飛行機の墜落の確率で比べると、後者は明らかに高くなりますし、「100回に1回は墜落しますけど、たった1%だから大丈夫ですよね」と言われても納得はできませんよね。
危険率を何%にするかは、仮説が正しいにも関わらず仮説を捨ててしまうという誤り(第1種の誤り)を犯した時に、こうむる損害の重大さによって決める必要があるというわけです。
これは推計学ではなく、人生観・社会観・自然科学の問題と言えますね。

分散分析

分散分析はフィッシャーによって1916年に開発されました。
フィッシャーは小麦の収穫量について、以下の3種類のバラツキを分けて考える必要があることに気づきました。

  1. 年度のバラツキ:植物生育を直接左右する天候の影響によるバラツキ
  2. 土壌の影響:土壌の持つ栄養が次第に減ってゆくことによるバラツキ
  3. ゆっくりとした変化:ランダムに発生する小さな変動によるバラツキ

分析の結果、「雨が多いと土地がやせる」という大きな流れ、つまり主効果を他の要素から分離することに成功したという経緯があります。

このようにバラツキをバラスから「分散(=バラつきのこと)分析」と呼ぶのです。



上記の分類をもっと統計的に言えば以下の通りです。

  1. データ全体のバラつき=全体平方和
  2. 平均値の違いで説明できるバラつき=群間平方和
  3. 平均値の違いでは説明できないバラつき=群内平方和
上記の「群内平方和」とは自然に生じる「誤差」のことであり、「群間平方和」がこの誤差に比べて十分に大きければ、比較している群の平均に標本変動を超えた違いがある(設定した要因によってその違いが生じた可能性が高くなる)と考えます。
ちなみに、群間平方和+群内平方和=全体平方和ですよ。
分散分析では、母平均の差を検定します
平均値を活用するわけですから、従属変数が量的変数、独立変数が質的変数の場合です(分散の差の検定を行いますから、従属変数は量的変数でなくてはダメですね)
分散分析は算術計算で求められるので、従属変数のデータは「間隔尺度」か「比例尺度」に基づくものでなくてはなりません(「名義尺度」や「順序尺度」(特に名義尺度)を扱うときには、母集団の分布に関しての仮定を置かずにデータの処理が可能な「ノンパラメトリック検定」が用いられる)。
「分散分析」という表現から分散を比べると考えてしまわないことが大切です。
平均値から「こちらが設定した要因によるバラつき(群間平方和)」と「自然に生じるバラつき(群内平方和)」を抽出し、これらを比べるということから「分散分析」と表記されるのであって、比べるものは「母平均」であるということですね

ちなみに分散分析はパラメトリック検定に分類されますが、これは比べる母集団同士の分布に関して仮定を置くという意味があります。
すなわち、「比べる母集団の平均値は等しいだろう」という仮定(=帰無仮説)を立てて検証していくということですね

パラメトリックの「パラ」とは、パラメーターのことであり、「母数」を意味します。
よって、パラメトリック検定とは、扱っている標本から「母集団」を想定している検定を指す表現ということですね。
これに対して、一般に母集団についての特定の分布を仮定しない検定法をノンパラメトリック検定と呼びます。

選択肢の解説

①全ての水準の母平均は等しい。

上記の通り、分散分析は「標本から母集団を想定している」「平均値を比べる」という特性があるため「母平均」という点は正しいと言えます。
また、帰無仮説では「全ての水準間で差はない」と見なしますから、選択肢の表記は適切と言えるでしょう。

よって、選択肢①が正しいと判断できます。

②全ての水準間の母分散は等しい。
③全ての水準の母平均は等しくない。
④少なくとも1組の水準間の母平均は等しい。
⑤少なくとも1組の水準間の母平均は等しくない。

上記からもわかるとおり、これらの選択肢にはそれぞれに誤りの部分があります。
選択肢②は「分散」の箇所が誤りであり、正しくは「平均」ですね。
選択肢③は「等しくない」の箇所が誤りであり、正しくは「等しい」ですね。
選択肢④と⑤は「少なくとも1組の水準間」という箇所が誤りであり、正しくは「全ての水準」ということになります(選択肢⑤は「等しくない」も誤りですね)。

よって、選択肢②~選択肢⑤は誤りと判断できます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です