公認心理師 2019-7

問7はデータ解析を行う各分析法の特徴の把握を問う内容です。
あまり数字を持ち出して考えてもややこしいので、概念的に理解するということを念頭に置いて説明していきましょう。

問7 量的な説明変数によって1つの質的な基準変数を予測するための解析方法として、最も適切なものを1つ選べ。
①因子分析
②判別分析
③分散分析
④重回帰分析
⑤クラスター分析

まず基本用語を理解しておきましょう。
「独立変数」とは実験研究領域において研究者が操作する変数であり、「実験変数」や「処理」と呼ぶこともあるが、「従属変数」との対比で「独立変数」と呼ぶのが一般的です。
調査研究領域では「独立変数」のことを、「説明変数」とも呼びます。

また、従属変数とは実験研究領域において「独立変数」に依存して変化する変数のことを指します。
調査研究領域では「従属変数」のことを、「目的変数」「基準変数」とも呼びます。

本問の場合、量的な説明変数(独立変数)によって、1つの質的な基準変数(従属変数)を予測するための解析方法、を問われています。
大切なのは「量的な説明変数」「1つの質的な基準変数」「予測するため」というワードです。

独立変数のデータの種類、従属変数のデータの種類、何を使用しているのか、ということが明確になることで、使用できる分析手法が以下のように分かれます。

こちらを頭に入れておけば、本問のようなタイプの問題なら容易に解くことが可能です。
これらを踏まえて各選択肢を見ていきましょう。

解答のポイント

多変量解析の目的、尺度変数の種類、それらによって導かれる分析手法を把握していること。

選択肢の解説

①因子分析

ある国の国民性に関するイメージ調査で、あるアンケートを取ったが項目は以下のようなものだったとします。

  1. 時間を守りそうか
  2. メールをすぐに返しそうか
  3. 整理整頓が好きそうか
  4. 笑顔が多そうか
  5. 自分の意思を正確に伝えるのが得意か
  6. 相手の意図を正確に汲み取るのがうまいか
これらは独立した項目だが、1~3は几帳面さ、4~6はコミュニケーション能力について問うているようにも見えるはずです。
このように各項目は我々が持つイメージについて独立に問うものだが、背景に共通する評価軸が存在している可能性があります。
このように観測された変数に影響を与えていると考えられる「まだ見ぬ要因」を見つけ出そうとする分析手法が「因子分析」です

「きっと世の中に存在するに違いない「データの背後に潜む説明変数」を見つけ出す」分析手法とも言えますね

上記のようなイメージ図になります。
因子分析は目に見えないプロセスの解明を目指す心理学の研究において、大変有用な手法です。

因子分析は量的変数に用い、その目的も背景にある因子を探ろうというものです。
以上より、選択肢①は誤りと判断できます。

②判別分析
⑤クラスター分析

判別分析は、目的変数が質的データ、説明変数が量的データとなる多変量解析です(説明変数が質的でもダミー変数を用いることができなくはないけど)。
判別分析は、どの群に属しているかが分かっている標本があるときに、まだ分類されていない標本がどちらの群に属するかを「予測」する手法のことを指します
例えば…

  • 各種の検査項目から、ある病気であるかないかを判別する。
  • 各種アンケート結果から各々の消費者が、製品Aを選ぶか製品Bを選ぶかを予測する。
  • 筆記試験、面接、作文、適性検査など多面的な試験項目からなる入社試験、入学試験において合格群と不合格群を判別する。
  • 重金属の含有比から、出土品の金属がどの鉱山のものか推定する
…などの場合に採用される分析手法です。
判別分析のように、判別すべき群があらかじめ与えられていない場合に、群を構成する手法、すなわち似た個体動詞は同一群、隔たる個体同士は異なる群に属するように個体を群分けする手法を「クラスター分析」と呼びます。
簡単に言えば、様々な特性をもつ対象を類似性の指標を元にグルーピングする手法ですね(この「類似性」というのがクラスター分析のキーワードかなと思います)。
例えば、世界各国の100個のチョコレートを試食したときに…
  1. 甘味も苦みも強いチョコ
  2. 甘味が強いチョコ
  3. 苦みが強いチョコ
  4. 甘味も苦みも弱いチョコ
…という4つのまとまりが見出されたとします。
この「類似性」を基準として統計的に対象を分類していくクラスター分析を用いて、まとまりについての検証を行うことができます。
以上より、選択肢⑤は誤りと判断でき、選択肢②が正しいと判断できます。

③分散分析

分散分析はフィッシャーによって1916年に開発されました。
フィッシャーは小麦の収穫量について、以下の3種類のバラツキを分けて考える必要があることに気づきました。

  1. 年度のバラツキ:植物生育を直接左右する天候の影響によるバラツキ
  2. 土壌の影響:土壌の持つ栄養が次第に減ってゆくことによるバラツキ
  3. ゆっくりとした変化:ランダムに発生する小さな変動によるバラツキ

分析の結果、「雨が多いと土地がやせる」という大きな流れ、つまり主効果を他の要素から分離することに成功したという経緯があります。

このようにバラツキをバラスから「分散(=バラつきのこと)分析」と呼ぶのです。

上記の分類をもっと統計的に言えば以下の通りです。

  1. データ全体のバラつき=全体平方和
  2. 平均値の違いで説明できるバラつき=群間平方和
  3. 平均値の違いでは説明できないバラつき=群内平方和
上記の「群内平方和」とは自然に生じる「誤差」のことであり、「群間平方和」がこの誤差に比べて十分に大きければ、比較している群の平均に標本変動を超えた違いがある(設定した要因によってその違いが生じた可能性が高くなる)と考えます。
ちなみに、群間平方和+群内平方和=全体平方和ですよ。
分散分析が適用されるのは、従属変数が量的変数、独立変数が質的変数の場合です(分散の差の検定を行いますから、従属変数は量的変数でなくてはダメですね)
分散分析は算術計算で求められるので、従属変数のデータは「間隔尺度」か「比例尺度」に基づくものでなくてはなりません(「名義尺度」や「順序尺度」(特に名義尺度)を扱うときには、母集団の分布に関しての仮定を置かずにデータの処理が可能な「ノンパラメトリック検定」が用いられる)。
以上より、選択肢③は誤りと判断できます。

④重回帰分析

説明変数も基準変数も量的データであり「すべての変数の間で相関係数を算出できるとき」の分析には、重回帰分析を用いることができます。
このように、重回帰分析を使用できるのは、複数の説明変数によって1つの基準変数を説明しようというモデルにおいてです
この時、説明変数相互の相関関係にも考慮し、その影響を取り除いて、各説明変数の純粋な影響を取り出すのが狙いになります。

上記のようなイメージです。

重回帰分析において、必ず理解しておかねばならないのが重相関係数と標準偏回帰係数についてです。
「重相関係数」とは、独立変数全体での影響の大きさを表します。
よって、重相関係数は1つのみです。
ただし、影響の向きを表すものではないので値は常に正の数になります。
一般にRで表され、普通の相関係数(r)は区別のために「単純相関係数」や「単相関係数」と呼ばれます。
「標準偏回帰係数」とは、他の変数の影響を取り除いた時の、独立変数の影響の大きさと向きを表します(βであらわされる)。

重回帰分析では、説明変数間の相関が強いとあまり宜しくないと言われます。
重回帰分析では、説明変数間の相関を考慮しながら検定を行うが、説明変数間の相関が低いほど、より正確な予測が可能になるためです。
独立変数間の相関が強いと、重相関係数が下がる傾向にあり、これは抑圧(抑制変数)がかかるためとされています。
抑圧とは「変数間の複雑な関係によって、独立変数の分散の一部が言わばおしつぶされて、その変数と従属変数との関係が歪められる」ことであり、抑圧が起こっている場合、その結果が妥当か否かを検証せねばならなくなります。
すべての独立変数について、その相関係数と標準偏回帰係数を掛け合わせて寄与率を求め、合計すると、重相関係数の2乗となり、これは「決定係数」と呼ばれます。
「決定係数」とは、「用いられた独立変数全体によって説明される従属変数の分散の割合」です。
例えば、ストレスの研究で3つの説明変数について調べた結果、重相関係数.471の場合、.471の2乗で.222となり、挙げた3つの説明変数によってストレスの22%を説明できるということになるわけです。
重回帰分析については、2018-41でも解説を行っていますのでご参照ください。
重回帰分析は説明変数も基準変数も量的データであることから、本問の内容とは齟齬があると見なせます(1つの基準変数を算出という点は類似しているんですけどね)。
以上より、選択肢④は誤りと判断できます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です