Descifran el mecanismo cerebral que vincula acciones repetidas y recompensa para formar hábitos estables

Un estudio publicado en la revista Nature y coordinado por el Sainsbury Wellcome Center de Londres, con la participación del Clínic-IDIBAPS, ha demostrado, mediante modelos computacionales y experimentos con animales, que la señal de dopamina relacionada con el movimiento ayuda a consolidar acciones independientemente de su recompensa. Este mecanismo juega un papel clave en la formación de hábitos.

Cuando animales y humanos repiten acciones, lo hacen siguiendo dos estrategias principales. Por un lado, repiten las acciones que les han llevado a obtener una recompensa, lo que correspondería al aprendizaje basado en el valor. Por otro lado, tienden a repetir acciones que han realizado anteriormente, aunque no estén asociadas a ninguna recompensa. En el primer caso, el aprendizaje se basa en el error de predicción de recompensa, que es la diferencia entre la recompensa esperada y la obtenida. En el segundo caso, se habla de error de predicción de la acción, que se genera cuando hay una discrepancia entre la acción realizada y la que se esperaba que se hiciera. Desde el punto de vista computacional, recordar acciones pasadas es una estrategia más sencilla y eficiente para generar comportamientos automatizados. Cada uno de estos mecanismos de aprendizaje está controlado por la dopamina, pero se asocia a un tipo de señal diferente.

El objetivo principal de este estudio fue determinar si la actividad dopaminérgica relacionada con el movimiento, y no con la recompensa, puede codificar ese error de predicción de la acción y actuar como una señal de aprendizaje. Esto reforzaría asociaciones repetidas entre un estímulo y una acción, dando lugar a la formación de un hábito. Para probarlo, se utilizó una tarea auditiva con ratones, en la que debían discriminar sonidos y responder con una acción concreta. El equipo midió y modificó la actividad dopaminérgica durante la tarea y generó modelos computacionales para comprender mejor los mecanismos subyacentes.

“En este trabajo demostramos que existen dos tipos de errores de predicción dopaminérgicos que funcionan de manera complementaria para favorecer el aprendizaje: el error de predicción de recompensa y el error de predicción de la acción”, explica Hernando Martínez Vergara, exinvestigador del Sainsbury Wellcome Center de Londres —donde inició este proyecto como uno de los primeros autores— y actual investigador Ramon y Cajal del IDIBAPS.

Los resultados muestran que la actividad dopaminérgica en la cola del estriado está relacionada con el movimiento y codifica el error de predicción de la acción. Este tipo de señal actúa como un mecanismo de aprendizaje sin necesidad de recompensa, reforzando asociaciones repetidas que acaban consolidándose como hábitos.

Image:Hernando Martínez Vergara, investigador del estudio.

Artículo de referencia: Action prediction error: a value-free dopaminergic teaching signal that drives stable learning. Francesca Greenstreet et al. Nature. 2025.