Comportamiento Operante

En la década de 1930, B. F. Skinner desarrolló una nueva metodología para el estudio del aprendizaje y el comportamiento de los animales. Lo llamó comportamiento operante, para reflejar el hecho de que el animal «operaba» en el medio ambiente para producir una recompensa o refuerzo. El comportamiento de los organismos, publicado en 1938, fue el principal documento en el que presentó sus hallazgos y su enfoque conceptual para el estudio del aprendizaje y el comportamiento de los animales.

En el método que Skinner desarrolló, el animal (más a menudo una rata, paloma o mono) emite comportamientos particulares, llamados respuestas instrumentales (o comportamientos), para obtener un refuerzo. Muy a menudo, estas respuestas involucran un operandum (anteriormente llamado manipulandum) que se adapta a las habilidades motoras del sujeto. Ratas, monos y otros mamíferos presionan una barra horizontal (o palanca) en la cámara experimental (a menudo llamada caja de desollador), mientras que las palomas picotean en un disco vertical (o llave); se puede enseñar a los peces a nadar a través de un anillo. Normalmente, el reforzador sigue inmediatamente la respuesta.

Los animales aprenden a emitir respuestas instrumentales particulares porque los reforzadores moldean el comportamiento. Los comportamientos que son seguidos por un refuerzo aumentan en frecuencia, y los comportamientos que no son seguidos por un refuerzo disminuyen en frecuencia. Por ejemplo, para entrenar a una rata a presionar una palanca, el experimentador primero puede reforzar al animal cada vez que se acerca a la palanca. Cuando la rata se acerca de forma fiable a la palanca, solo se proporcionan refuerzos si realmente toca la palanca. Por último, solo se refuerza la presión de la palanca. Esta forma de comportamiento al reducir progresivamente el rango de comportamientos reforzados (la clase operante) se conoce como el método de aproximación sucesiva. Si se interrumpe el refuerzo de un comportamiento, el comportamiento disminuirá en frecuencia y puede detenerse por completo. Este proceso se conoce como extinción.

En procedimientos de ensayo discreto, el ensayo termina con una sola respuesta, y la probabilidad, latencia o fuerza de esa respuesta se registra como la medida del comportamiento. Skinner desarrolló otro método de estudio del comportamiento que llamó procedimientos de operación libre. Aquí, el sujeto tiene acceso al operandum durante períodos prolongados, a veces un ensayo prolongado, en otras ocasiones una sesión experimental completa, y puede responder repetidamente durante ese período. Por lo tanto, la tasa de respuesta se convierte en la medida primaria del comportamiento. Skinner desarrolló un ingenioso método para mostrar la tasa con un registro acumulativo (véase la Figura 1). Cada respuesta desplaza un bolígrafo hacia arriba en una pequeña cantidad sobre una tira de papel móvil. Esto hace que la tasa de respuesta sea visible de inmediato como la medida del comportamiento. Cuanto mayor sea la tasa de respuesta, más pronunciada será la pendiente del registro acumulativo. Sin embargo, en la mayoría de las aplicaciones experimentales actuales, se utilizan contadores y computadoras para registrar y analizar la salida de respuesta. Estas medidas permiten realizar análisis más cuantitativos del comportamiento.

Programas de refuerzo
Control de estímulos
Control con Estímulos Aversivos
Resumen
Bibliografía

Programas de refuerzo

La respuesta instrumental designada es seguida en al menos algunas ocasiones por un reforzador, como una bolita de comida o un refresco líquido para la rata o el mono, grano para el pájaro, o dinero, fichas o «puntos» para un sujeto humano. Skinner diseñó programas de refuerzo que proporcionaban recompensa solo de forma intermitente, en contraste con el refuerzo continuo, donde se refuerza cada respuesta. El sujeto puede ser reforzado solo después de emitir un número de respuestas, en un programa de proporción, o para una respuesta después de un período de tiempo transcurrido, en un programa de intervalos. La proporción requerida puede ser constante en todas las ocasiones; este es un programa de proporción fija. O puede variar de un ensayo a otro; este es un programa de proporción variable.

Del mismo modo, en un programa de intervalos, el intervalo puede ser fijo o variable. Skinner descubrió que cada una de estas listas producía registros acumulativos distintivos. Por ejemplo, en los programas de proporción fija, los animales con frecuencia no responden inmediatamente después de un refuerzo; esto se denomina pausa posterior al refuerzo. Luego emiten respuestas en una «ráfaga» de alta velocidad para obtener el reforzador. En los programas de intervalo fijo, el sujeto generalmente no responde inmediatamente después del reforzador, y la tasa de respuesta se acelera constantemente a medida que se aproxima el final del intervalo. Los programas de intervalo variable y de relación variable generalmente generan tasas de respuesta constantes. Los programas de proporción generalmente producen altas tasas de respuesta porque la tasa de refuerzo depende completamente de la tasa de respuesta. Sin embargo, los esquemas de relación que requieren un gran número de respuestas para cada reforzador pueden inducir una tensión en forma de períodos prolongados de ausencia de respuesta.

Estos programas simples de refuerzo se pueden combinar en programas más complejos. Un horario puede producir otro horario antes de dar un reforzador, un horario en cadena, o dos horarios pueden alternarse regularmente en un operandum, un horario múltiple. En estos horarios, los estímulos distintivos indican qué horario particular está actualmente en vigor. En una programación mixta, las programaciones de componentes se alternan, pero no están señalizadas por una señal externa.

En horarios simultáneos, dos (o más) horarios están en vigor simultáneamente y el sujeto puede elegir entre ellos. Estos horarios se pueden organizar en operanda separada o en un operandum. En este último procedimiento, el sujeto puede elegir entre horarios realizando una respuesta de conmutación a un operandum diferente. Se ha encontrado que los animales distribuyen el tiempo dedicado a responder a cada programa en proporción a la tasa de refuerzo obtenida de cada uno. Esta relación se conoce como la ley de correspondencia. El tipo de programa, la magnitud de los reforzadores y el tipo de refuerzo también son determinantes importantes de elección. Por ejemplo, los estudios de autocontrol han demostrado que los animales son «impulsivos»; eligen reforzadores pequeños e inmediatos en lugar de reforzadores retrasados, pero mucho más grandes.

Control de estímulos

Los estímulos discriminativos pueden indicar el programa efectivo de refuerzo. Para las ratas, estos pueden ser diferentes tonos o la presencia o ausencia de una «luz de casa» en la cámara. Para las palomas, se pueden proyectar diferentes colores o patrones en la tecla de respuesta. Los monos a menudo se presentan con patrones visuales complejos. Los estímulos discriminativos llegan a controlar las tasas de respuesta. Por ejemplo, una paloma responderá a la misma velocidad a una tecla encendida roja o verde si ambos colores indican un horario de intervalo variable (VI). Sin embargo, si se elimina el programa VI durante el componente de luz verde, la tasa de respuesta a este estímulo negativo disminuye rápidamente. La tasa de respuesta a la luz roja, el estímulo positivo, en realidad aumentará sobre su nivel anterior, un fenómeno llamado contraste conductual. Se pueden presentar nuevos estímulos de la misma dimensión de estímulo en una prueba de generalización. Por ejemplo, si los estímulos discriminativos utilizados en el entrenamiento son dos tonos, entonces una rata puede ser probada con un rango de frecuencias tonales. Los gradientes de generalización (o discriminación) se obtienen fácilmente; es decir, la cantidad de respuesta a cada nuevo estímulo es una función ordenada de su similitud con el estímulo de entrenamiento positivo.

Si los estímulos son más complejos, como las imágenes, esto proporciona una oportunidad para el estudio del logro de conceptos cuando los estímulos pertenecen a diferentes clases. Las palomas, por ejemplo, aprenden fácilmente a discriminar entre imágenes que contienen imágenes de una o más personas y imágenes sin una persona.

El control de estímulos también se estudia mediante procedimientos de elección discretetrial. Un estímulo se presenta como una muestra, y luego el animal debe elegir cuál de las dos alternativas de respuesta es la correcta para ese estímulo en particular. Se refuerzan las elecciones correctas. Estos métodos son análogos a los experimentos de detección de señales con sujetos humanos y han proporcionado mediciones precisas de la percepción animal. Si se produce un retraso entre el estímulo de la muestra y la elección, se puede estudiar la memoria a corto plazo o la memoria de trabajo de los animales. En general, la precisión de elección disminuye notablemente con retrasos de incluso unos pocos segundos.

Control con Estímulos Aversivos

Los reforzadores positivos son normalmente estímulos apetitivos. Los estímulos aversivos, como descargas eléctricas o ruidos fuertes, también son eficaces para controlar el comportamiento. Si los estímulos aversivos son consecuencias para responder, son castigadores y reducen la tasa de respuesta, que de otro modo se mantiene mediante el refuerzo positivo. Los animales son muy sensibles tanto a la fuerza como a la frecuencia de los castigadores. Los estímulos aversivos también se utilizan en el estudio del escape y la evitación. Este último se estudia con mayor frecuencia en una situación de operación libre. El sujeto, la mayoría de las veces una rata, es sometido a choques breves e intermitentes. Al emitir una respuesta requerida, como presionar la barra o cruzar un obstáculo, el sujeto puede posponer o cancelar el choque. Este procedimiento genera tasas consistentes de comportamiento de evitación en ratas, monos y otros organismos, especialmente cuando cada respuesta garantiza un intervalo libre de golpes.

Resumen

La metodología operante ha demostrado que el comportamiento animal es una función ordenada de sus antecedentes (estímulos discriminativos) y sus consecuencias (refuerzo y castigo). También ha permitido a los experimentadores explorar varias áreas de la percepción, la cognición y la elección de los animales. Además, los principios del comportamiento operante se aplican a los seres humanos. Las técnicas operantes se han empleado en la instrucción personal y en el tratamiento del comportamiento humano disfuncional.

Véase también: CONDICIONAMIENTO, CLÁSICO E INSTRUMENTAL; DISCRIMINACIÓN Y GENERALIZACIÓN; REFUERZO