オペラントの動作

1930年代にB.F.スキナーは、動物の学習と行動の研究のための新しい方法論を開発しました。彼は動物が報酬、または強化者を生成するために環境上で”動作”しているという事実を反映するために、それをオペラント行動と呼んだ。 1938年に出版された生物の行動は、彼が彼の調査結果と動物の学習と行動の研究への彼の概念的なアプローチを発表した主要な文書でした。

スキナーが開発した方法では、動物（ほとんどの場合、ラット、ハト、またはサル）は、強化剤を得るために、器械的応答（または行動）と呼ばれる特定の行動を発ほとんどの場合、これらの応答には、被験者の運動能力に適したオペランド（以前はマニピュランダムと呼ばれていました）が含まれます。ラット、サル、および他の哺乳類は、実験室（しばしばスキナーボックスと呼ばれる）で水平バー（またはレバー）を押し、ハトは垂直ディスク（またはキー）でペックし通常、reinforcerはすぐに応答に従います。

動物は、強化剤が行動を形作るので、特定の器械的応答を放出することを学ぶ。 Reinforcerが続いている動作は頻度が増加し、reinforcerが続いていない動作は頻度が減少します。例えば、レバーを押すようにラットを訓練するために、実験者は最初にレバーに近づくたびに動物を強化することができる。ラットが確実にレバーに近づいているとき、補強材は実際にレバーに触れた場合にのみ提供される。最後に、レバーを押すだけで強化されます。強化される動作の範囲（オペラントクラス）を徐々に狭めることによるこの動作の整形は、逐次近似の方法として知られています。ビヘイビアの強化が中止されると、ビヘイビアの頻度が低下し、完全に停止する可能性があります。このプロセスは絶滅として知られています。

離散試行手順では、試行は単一の応答で終了し、その応答の確率、待ち時間、または力が行動の尺度として記録されます。スキナーは、彼が自由オペラント手順と呼ばれる行動を研究する別の方法を開発しました。ここでは、被験者はオペランドに長時間アクセスすることができ、時には延長された試行、他の機会には実験セッション全体にアクセスし、その期間中に繰り返し応答することができます。したがって、応答率は行動の主要な尺度になります。スキナーは、累積レコードでレートを表示するための独創的な方法を開発しました（図1参照）。各応答は、移動する紙片上で少量のペンを上方に変位させる。これにより、応答速度が行動の尺度としてすぐに表示されます。応答率が高いほど、累積レコードの傾きが急になります。しかし、ほとんどの現在の実験的なアプリケーションでは、カウンタとコンピュータが応答出力を記録して分析するために使用されています。これらの措置は、行動のより定量的な分析を可能にする。

補強のスケジュール
刺激制御
嫌悪刺激によるコントロール
要約
参考文献

補強のスケジュール

指定された楽器の応答は、少なくともいくつかの機会に、ラットやサルのための食糧ペレットや液体のリフレッシュメント、鳥のための穀物、または人間の被験者のためのお金、トークン、または”ポイント”などの補強者によって追跡される。スキナーは、各応答が強化される連続的な補強とは対照的に、断続的にのみ報酬を提供する補強のスケジュールを設計しました。被験者は、比率スケジュール上の多数の応答を放出した後、または間隔スケジュール上の一定期間が経過した後の応答のためにのみ補強されてもよい。必要な比率はすべての場面で一定であるかもしれない;これは固定比率のスケジュールである。またはそれは試験から試験に変わるかもしれない;これは可変的比率のスケジュールである。

同様に、間隔スケジュールでは、間隔は固定または可変であってもよい。スキナーは、これらのスケジュールのそれぞれが独特の累積記録を生成することを発見しました。例えば、固定比のスケジュールでは、動物はしばしば補強剤の直後に応答しない。その後、それらは高レートの”バースト”で応答を放出して補強子を得る。固定間隔のスケジュールでは、被験者は通常、補強子の直後に応答せず、間隔の終わりが近づくにつれて応答速度は着実に加速する。可変間隔および可変比率のスケジュールは通常応答の安定した率を発生させる。比率のスケジュールは一般に補強の率が応答の率に完全に依存するので応答の高い率を作り出す。しかし、各強化者に対して多数の応答を必要とする比率スケジュールは、応答しないという長期間の形でひずみを誘発する可能性がある。

これらの単純な補強スケジュールは、より複雑なスケジュールに組み合わせることができます。一つのスケジュールは、補強子が与えられる前にさらに別のスケジュールを生成することができ、チェーンスケジュール、または二つのスケジュールは、定期的に一つのオペランド、複数のスケジュールに交互にすることができます。これらのスケジュールでは、特定のスケジュールが現在有効であることを特徴的な刺激が示す。混合スケジュールでは、コンポーネントのスケジュールが交互に表示されますが、外部キューでは通知されません。

同時スケジュールでは、二つ（またはそれ以上）のスケジュールが同時に有効であり、被験者はそれらの間で選択することができます。これらのスケジュールは、別々のオペランドまたは一つのオペランドに配置することができます。後者の手順では、被験者は、異なるオペランドへの切り替え応答を実行することによって、スケジュールの間で選択することができる。動物は、それぞれから得られた補強の速度に比例して、各スケジュールに応答するのに費やされた時間を分配することが見出されている。この関係はマッチング法則として知られています。スケジュールの種類、補強材の大きさ、および補強の種類も選択の重要な決定要因です。例えば、自制の研究は、動物が「衝動的」であることを示している;彼らは遅れているが、はるかに大きい、強化者よりも小さい、即時の強化者を選ぶ。

刺激制御

識別刺激は、強化の効果的なスケジュールを示すことができます。ラットの場合、これらは異なる色調またはチャンバー内の”家の光”の存在または不在であり得る。ハトの場合、異なる色やパターンが応答キーに投影されることがあります。サルはしばしば複雑な視覚パターンを提示されます。差別的な刺激は応答の率を制御することを来る。たとえば、ハトは、両方の色が可変間隔（VI）スケジュールを通知する場合、赤または緑に点灯したキーに同じ速度で応答します。しかし、緑色光成分中のVIスケジュールが除去されると、この負の刺激に応答する速度は急速に低下する。赤色光、正の刺激に対する応答率は、実際にはその前のレベル、行動コントラストと呼ばれる現象を超えて増加します。同じ刺激次元からの新しい刺激は、一般化テストで提示することができる。例えば、訓練に使用される判別刺激が２つの色調である場合、ラットは、ある範囲の色調周波数で試験され得る。一般化（または差別）の勾配は容易に得られる;すなわち、それぞれの新しい刺激に応答する量は、正の訓練刺激との類似性の整然とした関数である。

画像のような刺激がより複雑な場合、これは刺激が異なるクラスに属しているときの概念達成の研究の機会を提供します。例えば、ハトは、1人以上の人の画像を含む写真と人のいない写真を容易に区別することを学びます。

刺激制御も離散選択法を用いて研究されている。刺激はサンプルとして提示され、動物はその特定の刺激に対して正しい2つの応答選択肢のうちのどれを選択しなければならない。正しい選択は補強される。このような方法は、ヒト被験者を用いた信号検出実験に類似しており、動物の知覚の正確な測定を提供している。サンプル刺激と選択の間に遅延が介在する場合、動物の短期記憶または作業記憶を研究することができる。一般に、選択の正確さは数秒の遅れと著しく減る。

嫌悪刺激によるコントロール

正の強化剤は、通常、食欲刺激である。感電や大きな騒音などの嫌悪刺激は、行動の制御にも有効です。嫌悪刺激が応答の結果である場合、それらは処罰者であり、応答速度を低下させ、それ以外の場合は肯定的な強化によって維持される。動物は、懲罰者の強さと頻度の両方に非常に敏感です。嫌悪刺激は、脱出と回避の研究にも使用されます。後者は、自由操作の状況で最も頻繁に研究されています。被験者、最も頻繁にはラットは、短時間の断続的な衝撃を受けます。バーを押したり、ハードルを越えたりするなど、必要な応答を発することにより、被験者は衝撃を延期またはキャンセルすることができます。この手順は、特に各応答がショックフリー間隔を保証する場合、ラット、サル、および他の生物における回避行動の一貫した速度を生成する。

要約

オペラントの方法論は、動物の行動はその先行詞（差別的刺激）とその結果（強化と罰）の秩序ある機能であることを示しています。また、実験者は動物の知覚、認知、および選択の様々な分野を探索することを可能にしました。さらに、オペラント行動の原則は、人間に適用されています。オペラント技術は、個人的な指導と機能不全の人間の行動の治療に採用されています。

も参照してください：コンディショニング、古典と楽器;差別と一般化;補強