オペラント条件づけ - 公認心理師・臨床心理士の勉強会

オペラント条件づけについてです。
古典的条件づけとセットにして覚えておくと良いでしょう。
例によって、赤字は公認心理師試験で出たところです。

基本的理解

生体は様々な行動を自発し、その行動の結果によって次の行動が変化します。
オペラント＝自発するという意味です。
自発していた行動（オペラント行動）に続いて刺激を提示もしくは除去することで、そのオペラント行動がその後に自発する頻度が変化（増加or減少）します。

つまり、元々なにかしらの反応があって、その後に刺激を与えるというのがオペラント条件づけの特徴と言えます。
これに対して、レスポンデント条件づけは、まず刺激を与えて出現する反応に対して操作を行っていきます。

この「反応→刺激」がオペラント、「刺激→反応」がレスポンデントという、単純な見分けではありますが基本として覚えておくことが大切です。
もちろん実際の見分けはもう少し複雑なので、臨床心理士資格試験などの過去問を参照に見分ける訓練をしておきましょう。

オペラント条件づけの歴史についてみていきます。
まず、Thorndike（ソーンダイク）が、迷路ボックスと空腹猫を使って実験し、「試行錯誤学習」を見出しました。
「ソーンダイク＝損な大工」と考えて「作っては壊し、作っては壊し（試行錯誤、ですね）の損な大工」と覚えておくと良いでしょう。

試行錯誤学習は満足をもたらした反応（R）と刺激（S）が結合するS-Rの連合学習で、効果の法則に従うと考えました。
効果の法則とは、以下の法則を指します。

満足の法則：満足な結果で生じやすくなる
不満足の法則：不満足な結果で生じにくくなる
強度の法則：満足や不快の程度が強いほど、連合の変化が大きい

その後、Skinner（スキナー）がスキナー箱を作成し、フリーオペラント手続き（ソーンダイクは実験者がいちいち猫を入れるので「フリー」ではない）を考案しました。

【2018-5】

スキナーのオペラント学習に関する基本的用語

ここではオペラント条件づけ、オペラント学習を語る上で当たり前のように使われる用語について解説します。

強化：
反応に随伴してエサなどの刺激を与える手続き。
オペラント水準：
オペラント条件づけでは、自発的に生じた行動を「オペラント行動」といい、この頻度のことを「オペラント水準」と呼ぶ。
強化を与えない時の反応率。
オペラント条件づけでは、すでに示されている「反応」を「強化」することによって学習を成立させる。
よって、強化を与える前に、その反応がどの程度の頻度で生じているかを把握することが重要となる（すなわち、オペラント水準を知っておくことが重要となる）。
消去：
強化を止めること。
一般に強化回数が多いほど生じにくく、消去回数が多いほど消去されやすい。
消去抵抗とは、消去されるまでに要した反応数や時間などで示される消去されにくさを指す。
一般に連続強化で訓練された行動は、消去抵抗が低く、容易に消去されるが、間歇強化で訓練された行動は消去抵抗が高く、消去されにくいと言われる。
これはハンフリーズ効果、部分強化効果、強化矛盾と呼ばれる現象である。

これらは基本的な事柄ですので忘れないように。

オペラント条件づけでは、強化と罰の関係やその意味をしっかりと理解することが重要です。

刺激を提示することを「正の○○」と言い、除去することを「負の○○」と呼びます。

あくまでも提示・除去で「正の」「負の」という呼び方になることを理解しましょう。

そして上記の「○○」の部分には、「強化」か「罰」が入ります。

刺激の提示or除去によって、オペラント行動の反応頻度が増大することを「強化」と呼び、逆に反応頻度が減少することを「罰」と呼びます。
※近年は、訳語の印象から誤解を招かないよう、「罰」→「弱化」、「罰子」→「弱化子」という訳語への置き換えが進んでいます。

すなわち、「刺激を提示or除去」+「反応頻度の増加or減少」の4パターンが生じるわけです。

以下の通りです。

刺激の提示+反応頻度の増大＝正の強化
刺激の提示+反応頻度の減少＝正の罰（正の弱化）
刺激の除去+反応頻度の増大＝負の強化
刺激の除去+反応頻度の減少＝負の罰（負の弱化）（オミッション）

ちなみに正の強化と負の罰を生じさせる刺激は、理論的には「快刺激」であり、正の罰と負の強化を生じさせる刺激は「不快刺激」になります（なぜ「理論的には」という言葉を使ったかは、コメント欄をご覧ください。試験には関係ないのですけど…）。

考えてみれば当然かもしれませんが、しっかりと押さえておきましょう。

特に、負の強化（不快刺激を除去すると、反応が増加する）は、「逃避学習」と「回避学習」に分けることができます。
不快刺激を経験している状況から逃れることを「逃避」といい、これから経験するであろう不快刺激を事前に避けることを「回避」と呼びます。

逃避学習とは、「経験によって、不快刺激が呈示されてから逃避反応がなされるまでの反応時間が短縮されていく学習過程」を指します。
例えば、頭痛がひどいときに薬を飲むという行動を採って頭痛が治まれば、次に頭痛が生じたときに薬を飲むという行動がすぐに採られるようになります。

すなわち頭痛の除去（不快刺激の除去）によって、薬を飲むという行動の増加（反応頻度の増大）が生じたということになり、このことを上記の4パターンで判断すれば「負の強化」ということになるのがわかります。

回避学習とは、「不快刺激を予告する刺激が呈示され、刺激呈示中に特定の反応をすれば不快刺激は来ないという学習」を指します（当然、反応は増大します）。
代表的な実験として、往復箱（シャトルボックス）の実験があります。
仕切られた2つの部屋があり、ラットを入れた一方の部屋に電流を流すと、もう一方の部屋に逃避します。
電流前に警告音を呈示することで、次第に電流呈示前に移動するようになります。
これが、「回避学習」が完成した姿になります。

こちらは移動するという行動を採ることによって電流という不快刺激が回避され（刺激の除去）、その結果として回避行動の増大（反応頻度の増大）が生じたということになり、やはり「負の強化」であることがわかりますね。

回避学習の形成過程をたどってみると、最初の数試行では被験体は警告刺激 (条件刺激) が提示されても所定の反応を行わず、有害刺激 (無条件刺激) を与えられるが、試行が進むに従って警告刺激が提示されるとただちに反応し、有害刺激を回避できるようになります。

これは以下の段階を踏むとされています。

第1段階として最初の数試行で警告刺激が古典的条件づけによって有害刺激と結合され、条件性の情動反応 (恐れ) を引起すようになる。
第2段階としてこの恐れの動因に基づいて特定の道具的反応が学習されると考えられる。

このような考え方を「回避学習の2要因説」と呼びます。

【2018-7③④、2018追加-39】

教科のスケジュール

スキナーは「いつ強化するか」という環境側から見た規則を「強化のスケジュール」と呼びました。

以下のような分類が一般的です。

定比率スケジュール：
反応を一定数繰り返すと強化が与えられる。時間には関係が無いので、反応の出現が遅れればそれだけ時間がかかる。給料みたいなもの。
変動比率スケジュール：
何回か反応を繰り返すと強化が与えられるが、次に強化を与えられるのが何回目の反応かという強化までに必要な反応回数が随時変化する。その強化に必要な反応数の平均値や中央値は一定にしてある。パチンコ。要求される反応数が不規則。
定間隔スケジュール：
前の強化から一定時間後の最初の反応に強化を与える。何回反応したかは関係が無い。
変動間隔スケジュール：前に強化を受けた反応の出現からある時間を経過した後の最初の反応が強化されるが、強化されるために必要な経過時間は随時変化する。その強化に必要な経過時間の平均値や中央値は一定にしてある。反応が安定し、強化時も消去時も滑らかな累積記録になる。メールチェック動作がこれ。

オペラント条件付けでは、1つの行動を「先行条件-行動-結果」の枠組み（三項随伴性）で捉え、特定の行動に対して、当人にとって望ましい結果や望ましくない結果を伴わせることで、その行動の生起頻度を変化させます。

基本的理解

スキナーのオペラント学習に関する基本的用語

教科のスケジュール

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル