Dans les années 1930, B. F. Skinner a développé une nouvelle méthodologie pour l’étude de l’apprentissage et du comportement des animaux. Il l’a appelé comportement opérant, pour refléter le fait que l’animal « opérait » sur l’environnement pour produire une récompense, ou un renfort. Le comportement des organismes, publié en 1938, est le principal document dans lequel il présente ses résultats et son approche conceptuelle de l’étude de l’apprentissage et du comportement des animaux.
Dans la méthode développée par Skinner, l’animal (le plus souvent un rat, un pigeon ou un singe) émet des comportements particuliers, appelés réponses instrumentales (ou comportements), pour obtenir un renfort. Le plus souvent, ces réponses impliquent un opérande (anciennement appelé manipulandum) adapté aux capacités motrices du sujet. Les rats, les singes et d’autres mammifères pressent une barre horizontale (ou un levier) dans la chambre expérimentale (souvent appelée boîte de Skinner), tandis que les pigeons picorent sur un disque vertical (ou une clé); on peut apprendre aux poissons à nager à travers un anneau. Normalement, le renfort suit immédiatement la réponse.
Les animaux apprennent à émettre des réponses instrumentales particulières car les renforçateurs façonnent le comportement. Les comportements qui sont suivis d’une augmentation de fréquence du renforçateur et les comportements qui ne sont pas suivis d’une diminution de fréquence du renforçateur. Par exemple, pour entraîner un rat à appuyer sur un levier, l’expérimentateur peut d’abord renforcer l’animal chaque fois qu’il s’approche du levier. Lorsque le rat s’approche de manière fiable du levier, des renforts ne sont fournis que s’il touche réellement le levier. Enfin, seule la pression sur le levier est renforcée. Cette mise en forme du comportement en rétrécissant progressivement la gamme de comportements renforcés (la classe opérante) est connue sous le nom de méthode d’approximation successive. Si le renforcement d’un comportement est interrompu, le comportement diminuera en fréquence et peut s’arrêter complètement. Ce processus est connu sous le nom d’extinction.
Dans les procédures d’essais discrets, l’essai se termine par une réponse unique, et la probabilité, la latence ou la force de cette réponse est enregistrée comme mesure du comportement. Skinner a développé une autre méthode d’étude du comportement qu’il a appelée procédures opérantes libres. Ici, le sujet a accès à l’opérande pendant de longues périodes — parfois un essai prolongé, à d’autres occasions une session expérimentale entière — et peut répondre à plusieurs reprises pendant cette période. Par conséquent, le taux de réponse devient la principale mesure du comportement. Skinner a mis au point une méthode ingénieuse pour afficher le taux avec un enregistrement cumulatif (voir Figure 1). Chaque réponse déplace un stylo vers le haut d’une petite quantité sur une bande de papier en mouvement. Cela rend le taux de réponse immédiatement visible comme mesure du comportement. Plus le taux de réponse est élevé, plus la pente du record cumulatif est raide. Cependant, dans la plupart des applications expérimentales actuelles, des compteurs et des ordinateurs sont utilisés pour enregistrer et analyser la sortie de réponse. Ces mesures permettent des analyses plus quantitatives du comportement.
Horaires de renforcement
La réponse instrumentale désignée est suivie au moins à certaines occasions par un renfort tel qu’une pastille alimentaire ou un rafraîchissement liquide pour le rat ou le singe, du grain pour l’oiseau, ou de l’argent, des jetons ou des « points » pour un sujet humain. Skinner a conçu des programmes de renforcement qui ne fournissaient de récompense que de manière intermittente, contrairement au renforcement continu, où chaque réponse est renforcée. Le sujet ne peut être renforcé qu’après avoir émis un certain nombre de réponses, selon un calendrier de ratio, ou pour une réponse après un laps de temps écoulé, selon un calendrier d’intervalles. Le ratio requis peut être constant en toutes occasions; il s’agit d’un calendrier à ratio fixe. Ou cela peut varier d’un essai à l’autre; il s’agit d’un calendrier à ratio variable.
De même, dans un calendrier d’intervalles, l’intervalle peut être fixe ou variable. Skinner a constaté que chacune de ces annexes produisait des enregistrements cumulatifs distincts. Par exemple, dans les calendriers à ratio fixe, les animaux ne réagissent souvent pas immédiatement après un renfort; c’est ce qu’on appelle une pause post-renforcement. Ensuite, ils émettent des réponses en « rafale » à haut débit pour obtenir le renfort. Dans les calendriers à intervalles fixes, le sujet ne répond généralement pas immédiatement après le renforçateur, et le taux de réponse s’accélère régulièrement à mesure que la fin de l’intervalle approche. Les calendriers à intervalle variable et à ratio variable génèrent généralement des taux de réponse stables. Les calendriers de ratios produisent généralement des taux de réponse élevés parce que le taux de renforcement dépend entièrement du taux de réponse. Cependant, des schémas de rapport nécessitant un grand nombre de réponses pour chaque renforçateur peuvent induire une contrainte sous la forme de périodes prolongées de non-réponse.
Ces horaires simples de renforcement peuvent être combinés en des horaires plus complexes. Un programme peut produire encore un autre programme avant qu’un renforçateur ne soit donné, un programme en chaîne, ou deux programmes peuvent régulièrement alterner sur un opérandum, un programme multiple. Dans ces programmes, des stimuli distinctifs signalent quel programme particulier est actuellement en vigueur. Dans un programme mixte, les programmes de composants alternent, mais ils ne sont pas signalés par un signal externe.
Dans les horaires simultanés, deux (ou plus) horaires sont simultanément en vigueur et le sujet peut choisir entre eux. Ces horaires peuvent être organisés sur une opérande séparée ou sur un seul opérande. Dans cette dernière procédure, le sujet peut choisir entre des programmes en effectuant une réponse de commutation à un opérande différent. Il a été constaté que les animaux répartissent le temps passé à répondre à chaque horaire proportionnellement au taux de renforcement obtenu de chacun. Cette relation est connue sous le nom de loi d’appariement. Le type de calendrier, l’ampleur des renforts et le type de renforcement sont également des déterminants importants du choix. Par exemple, des études sur la maîtrise de soi ont montré que les animaux sont « impulsifs »; ils choisissent de petits renforts immédiats plutôt que des renforts retardés, mais beaucoup plus grands.
Contrôle du stimulus
Les stimuli discriminants peuvent signaler le calendrier efficace de renforcement. Pour les rats, il peut s’agir de tons différents ou de la présence ou de l’absence d’une « lumière domestique » dans la chambre. Pour les pigeons, différentes couleurs ou motifs peuvent être projetés sur la touche de réponse. Les singes sont souvent présentés avec des motifs visuels complexes. Les stimuli discriminants viennent contrôler les taux de réponse. Par exemple, un pigeon répondra au même rythme à une touche allumée en rouge ou en vert si les deux couleurs signalent un horaire à intervalle variable (VI). Cependant, si le calendrier VI pendant la composante feu vert est supprimé, le taux de réponse à ce stimulus négatif diminue rapidement. Le taux de réponse à la lumière rouge, le stimulus positif, augmentera en fait par rapport à son niveau précédent, un phénomène appelé contraste comportemental. De nouveaux stimuli de la même dimension de stimulus peuvent être présentés dans un test de généralisation. Par exemple, si les stimuli discriminants utilisés dans l’entraînement sont de deux tons, un rat peut être testé avec une gamme de fréquences tonales. Des gradients de généralisation (ou de discrimination) sont facilement obtenus; c’est-à-dire que la quantité de réponse à chaque nouveau stimulus est une fonction ordonnée de sa similitude avec le stimulus d’entraînement positif.
Si les stimuli sont plus complexes, tels que les images, cela offre une opportunité pour l’étude de la réalisation du concept lorsque les stimuli appartiennent à différentes classes. Les pigeons, par exemple, apprennent facilement à faire la distinction entre des images contenant des images d’une ou plusieurs personnes et des images sans personne.
Le contrôle du stimulus est également étudié en utilisant des procédures de choix discrets. Un stimulus est présenté comme un échantillon, puis l’animal doit choisir laquelle des deux alternatives de réponse est correcte pour ce stimulus particulier. Les bons choix sont renforcés. De telles méthodes sont analogues aux expériences de détection de signaux avec des sujets humains et ont fourni des mesures précises de la perception animale. Si un délai intervient entre le stimulus de l’échantillon et le choix, la mémoire à court terme ou la mémoire de travail des animaux peut être étudiée. Généralement, la précision du choix diminue nettement avec des retards de quelques secondes.
Contrôle avec des stimuli aversifs
Les renforçateurs positifs sont normalement des stimuli appétitifs. Les stimuli aversifs, tels que les chocs électriques ou les bruits forts, sont également efficaces dans le contrôle du comportement. Si les stimuli aversifs sont des conséquences pour la réponse, ils sont des punisseurs et ils réduisent le taux de réponse, qui est autrement maintenu par un renforcement positif. Les animaux sont très sensibles à la force et à la fréquence des punisseurs. Les stimuli aversifs sont également utilisés dans l’étude de l’évasion et de l’évitement. Ce dernier est le plus souvent étudié dans une situation de libre fonctionnement. Le sujet, le plus souvent un rat, est soumis à de brefs chocs intermittents. En émettant une réponse requise, telle que le pressage d’une barre ou le franchissement d’un obstacle, le sujet peut reporter ou annuler le choc. Cette procédure génère des taux constants de comportement d’évitement chez les rats, les singes et d’autres organismes, en particulier lorsque chaque réponse garantit un intervalle sans choc.
Résumé
La méthodologie opérante a montré que le comportement animal est une fonction ordonnée de ses antécédents (stimuli discriminants) et de ses conséquences (renforcement et punition). Il a également permis aux expérimentateurs d’explorer divers domaines de la perception, de la cognition et du choix des animaux. De plus, les principes du comportement opérant s’appliquent aux humains. Des techniques opératoires ont été utilisées dans l’instruction personnelle et dans le traitement du comportement humain dysfonctionnel.
Voir aussi: CONDITIONNEMENT, CLASSIQUE ET INSTRUMENTAL; DISCRIMINATION ET GÉNÉRALISATION; RENFORCEMENT
Bibliographie
Catane, A.C. (1979). Apprentissage. Englewood Cliffs, NJ : Prentice-Hall.
Domjan, député, et Burkhard, B. (1985). Les principes de l’apprentissage et du comportement, 2e édition. San Francisco : Brooks/ Cole.
Flaherty, C. F. (1985). Apprentissage et cognition des animaux. New York : Knopf.
Schwartz, B., et Reisberg, D. (1991). Apprentissage et mémoire. La ville de New York : Norton.
Skinner, B. F. (1938). Le comportement des organismes. La ville de New York : Appleton -Siècle.
W. K.Honig
BrentAlsop