¿Adquisición o extinción? Un modelo bayesiano para analizar curvas de aprendizaje

Fernando Blanco
Dept. de Fundamentos y Métodos de la Psicología, Universidad de Deusto, España

(cc) Fernando Blanco.

(cc) Fernando Blanco.

Las teorías tradicionales del aprendizaje asociativo proponen que los animales codifican una representación única de la situación de aprendizaje, que se transforma gradualmente para adaptarse a los cambios ambientales. Por otro lado, otras teorías han propuesto que los animales pueden almacenar múltiples representaciones, manifestando conductualmente una u otra de ellas en función de las circunstancias. Esta segunda visión no se ha investigado en profundidad debido a las limitaciones de la estadística tradicional en psicología. Recientemente, un nuevo enfoque estadístico bayesiano permite poner a prueba estas predicciones, analizando tanto las curvas de aprendizaje grupales como las de cada individuo.

[Versión en pdf]

Con la reciente “crisis de credibilidad” de la psicología crece el interés por adoptar nuevas técnicas estadísticas que minimizan algunos peligros y permiten enfocar viejos problemas de forma novedosa. En esta línea, un reciente artículo (Blanco y Moris, 2018) propone una aproximación bayesiana al análisis de curvas de aprendizaje.

Pensemos en un experimento clásico, como los realizados por Pavlov, en el que los sucesivos emparejamientos de un estímulo condicionado o EC (un sonido) y un estímulo incondicionado o EI (comida) producen un incremento de la respuesta condicionada (salivación). Tradicionalmente, los modelos de aprendizaje asociativo proponen que el animal forma una representación interna de la asociación entre los dos elementos, la cual se fortalece gradualmente. Si, llegado un momento, comenzásemos a presentar el EC en solitario (extinción), la asociación iría debilitándose paulatinamente, lo mismo que la respuesta condicionada (Figura 1).

Figura 1.- Representación del proceso de aprendizaje por emparejamiento de un EC y un EI, junto con la clásica curva de adquisición y extinción de la respuesta condicionada.

Figura 1.- Representación del proceso de aprendizaje por emparejamiento de un EC y un EI, junto con la clásica curva de adquisición y extinción de la respuesta condicionada.

La clave de esta aproximación radica en dos ideas. La primera es que hay una sola representación para capturar toda la situación de aprendizaje. La segunda, que esta asociación cambia gradualmente. Sin embargo, hay indicios de que estas teorías “de estado único” no describen adecuadamente la realidad. Primero, hay evidencia de que el aprendizaje puede ocurrir de forma súbita en fenómenos como los de cambio contextual o renovación (Rosas y Callejas-Aguilera, 2006), ilustrado en la Figura 2.

Figura 2.- Ilustración del efecto de renovación. Un grupo de sujetos (ratas) muestra una curva de adquisición y de extinción. A continuación, el test se realiza en un contexto diferente (los animales son trasladados a una jaula distinta de donde tuvo lugar el experimento), lo que provoca una inmediata reaparición de la respuesta (renovación). Figura adaptada de Bouton y Peck (1989).

Figura 2.- Ilustración del efecto de renovación. Un grupo de sujetos (ratas) muestra una curva de adquisición y de extinción. A continuación, el test se realiza en un contexto diferente (los animales son trasladados a una jaula distinta de donde tuvo lugar el experimento), lo que provoca una inmediata reaparición de la respuesta (renovación). Figura adaptada de Bouton y Peck (1989).

Segundo, algunos autores observan que las curvas de aprendizaje individuales no se parecen a la curva gradual que predice la teoría: al contrario, muestran oscilaciones abruptas y aparentemente aleatorias (Figura 3), llegando a sugerir que la famosa “curva de aprendizaje” es un mero artefacto estadístico (Gallistel, Fairhurst y Balsam, 2004).

Figura 3.- Demostración del efecto de promediado de las curvas de aprendizaje. A la izquierda se muestran dos curvas de aprendizaje simuladas de dos participantes con cambios abruptos, que una vez promediadas darían como resultado la curva gradual representada a la derecha. Esta curva promediada no es representativa de la ejecución de los individuos.

Figura 3.- Demostración del efecto de promediado de las curvas de aprendizaje. A la izquierda se muestran dos curvas de aprendizaje simuladas de dos participantes con cambios abruptos, que una vez promediadas darían como resultado la curva gradual representada a la derecha. Esta curva promediada no es representativa de la ejecución de los individuos.

Ante este panorama, surge la propuesta teórica de los “estados múltiples”. Esta asume que (a) los animales son capaces de representar y actualizar varios estados del mundo simultáneamente, y (b) pueden expresar conductualmente un estado u otro de manera inmediata y flexible, en función de las demandas externas. Además, el nivel de análisis ideal para esta propuesta es el del individuo, ya que (como hemos comentado) los cambios bruscos en la conducta pueden quedar enmascarados en el nivel grupal (Figura 3).

Aquí surge la necesidad de adoptar nuevos métodos estadísticos por dos motivos. Primero, la estadística frecuentista tradicional se basa en la agregación de datos, por lo que está mejor dotada para caracterizar grupos que para estudiar individuos. Segundo, bajo la perspectiva de los estados múltiples, nuestro foco de interés es cuándo se pasa de expresar una representación a expresar otra diferente. Es decir, querríamos analizar series de respuestas para hacer una estimación del momento en que ha ocurrido un cambio brusco que indica la sustitución de una representación por otra. De nuevo, la estadística tradicional no ofrece herramientas apropiadas.

Por todo esto, proponemos un enfoque bayesiano diseñado específicamente para capturar el momento en el que se da esa transición. Los detalles matemáticos escapan a este resumen, pero se describen en el artículo original (datos y programas de análisis están disponibles en Open Science Framework: https://osf.io/zmcs4/).

Para probar el modelo realizamos un experimento con estudiantes de psicología. Consistía en un videojuego en el que un personaje pulsaba una palanca (equivalente al EC) y a continuación se encendía una bombilla (EI). En cada uno de estos ensayos, el participante predecía si se iba a encender la bombilla con un juicio del 0 al 100. Esta predicción es una medida de la fuerza de esa asociación EC-EI que el participante ha formado internamente.

El experimento manipulaba el porcentaje de ensayos reforzados (presión de palanca seguida de bombilla encendida), con tres niveles de reforzamiento: 100%, 75% y 50%. Tras la adquisición, todos los grupos pasaban a una fase de extinción en la que la bombilla no volvía a encenderse. El resultado habitual se llama “efecto del reforzamiento parcial en la extinción” (ERPE), y consiste en una extinción más lenta en los dos grupos con reforzamiento parcial (Jenkins y Rigby, 1950).

La Figura 4 muestra los datos que obtuvimos en nuestro experimento, promediando todos los participantes de cada grupo. El resultado es compatible con la predicción del ERPE: extinción rápida en el grupo 100% reforzado y más lenta en los otros dos.

Figura 4.- Curvas de aprendizaje obtenidas en el experimento, promediadas por grupo. El patrón es consistente con el ERPE: La extinción es más lenta cuando el reforzamiento no es continuo (grupos de Ref. 50% y 75% frente al grupo de ref. 100%). El eje vertical representa el nivel medio de respuesta del grupo en cada ensayo, y el horizontal los ensayos de ambas fases.

Figura 4.- Curvas de aprendizaje obtenidas en el experimento, promediadas por grupo. El patrón es consistente con el ERPE: La extinción es más lenta cuando el reforzamiento no es continuo (grupos de Ref. 50% y 75% frente al grupo de ref. 100%). El eje vertical representa el nivel medio de respuesta del grupo en cada ensayo, y el horizontal los ensayos de ambas fases.

Sin embargo, las teorías de estado único y de estados múltiples hacen predicciones diferentes en cuanto a qué ocurre a nivel individual. Mientras que las primeras predicen en todo caso cambios graduales, las teorías de estados múltiples proponen que cada individuo muestra cambios abruptos y variables entre individuos, como los que muestra la Figura 5 para algunos participantes.

Figura 5.- Curvas de aprendizaje de tres participantes obtenidas en el experimento (cada uno corresponde a un grupo). El eje vertical representa el nivel de respuesta individual en cada ensayo, y el horizontal los ensayos de ambas fases. Se observan cambios bruscos y patrones que ni son predecibles por las teorías tradicionales, ni tampoco aparecen en la curva agregada de la figura anterior.

Figura 5.- Curvas de aprendizaje de tres participantes obtenidas en el experimento (cada uno corresponde a un grupo). El eje vertical representa el nivel de respuesta individual en cada ensayo, y el horizontal los ensayos de ambas fases. Se observan cambios bruscos y patrones que ni son predecibles por las teorías tradicionales, ni tampoco aparecen en la curva agregada de la figura anterior.

Según las teorías de estados múltiples, lo que nos interesa es detectar el momento en que cada participante pasa de usar una representación a usar otra. El modelo bayesiano realiza esta estimación, ofreciéndonos además una distribución de credibilidad (para cada valor del parámetro de interés tendremos una función que representa cómo de creíble es ese valor, dados los datos). En este experimento comprobamos cómo los participantes de los grupos de reforzamiento parcial tendían a tener “momentos de cambio” más tardíos y variables que los del grupo de reforzamiento continuo, lo cual explicaría el ERPE (Figura 6).

Figura 6.- Distribuciones de credibilidad para el momento del cambio en la conducta, en cada grupo de nuestro experimento. Cuanto menor es el porcentaje de reforzamiento en la adquisición, más se retrasa el momento de cambio en la extinción. Esto invita a interpretar el ERPE en términos de cambios súbitos en la respuesta.

Figura 6.- Distribuciones de credibilidad para el momento del cambio en la conducta, en cada grupo de nuestro experimento. Cuanto menor es el porcentaje de reforzamiento en la adquisición, más se retrasa el momento de cambio en la extinción. Esto invita a interpretar el ERPE en términos de cambios súbitos en la respuesta.

En definitiva, este estudio presenta una técnica novedosa de análisis de datos que nos permite estudiar un fenómeno que habitualmente pasa desapercibido: los cambios bruscos en la conducta de cada individuo no son ruido, sino que siguen patrones predecibles. En el caso del ERPE, la tasa previa de reforzamiento predice en qué ensayo aproximado el participante cambiará su respuesta: cuanto menor es el porcentaje de reforzamiento en la adquisición, más tardía se vuelve la extinción.

Referencias

Blanco, F., y Moris, J. (2018). Bayesian methods for addressing long-standing problems in associative learning: The case of PREE. Quarterly Journal of Experimental Psychology. doi: 10.1080/17470218.2017.1358292

Bouton, M. E., y Peck, C. A. (1989). Context effects on conditioning, extinction, and reinstatement in an appetitive conditioning preparation. Animal Learning & Behavior, 17, 188–198.

Gallistel, C. R., Fairhurst, S., y Balsam, P. (2004). The learning curve: Implications of a quantitative analysis. Proceedings of the National Academy of Sciences of the United States of America, 101, 13124–31.

Jenkins, W. O., y Rigby, M. K. (1950). Partial (periodic) versus continuous reinforcement in resistance to extinction. Journal of Comparative and Physiological Psychology, 43, 30–40.

Rosas, J. M., y Callejas-Aguilera, J. E. (2006). Context switch effects on acquisition and extinction in human predictive learning. Journal of Experimental Psychology: Learning, Memory, and Cognition, 32, 461–74.

Manuscrito recibido el 11 de diciembre de 2017.
Aceptado el 9 de enero de 2018.

Los comentarios están cerrados.

Post Navigation