banner
Lar / Notícias / A dopamina mesolímbica adapta a taxa de aprendizado da ação
Notícias

A dopamina mesolímbica adapta a taxa de aprendizado da ação

May 27, 2023May 27, 2023

Nature volume 614, páginas 294–302 (2023) Citar este artigo

20k acessos

2 Citações

109 Altmétrica

Detalhes das métricas

O sucesso recente no treinamento de agentes artificiais e robôs deriva de uma combinação de aprendizado direto de políticas comportamentais e aprendizado indireto por meio de funções de valor1,2,3. O aprendizado de políticas e o aprendizado de valores usam algoritmos distintos que otimizam o desempenho comportamental e a predição de recompensas, respectivamente. Em animais, o aprendizado comportamental e o papel da sinalização de dopamina mesolímbica foram extensivamente avaliados com relação à predição de recompensa4; no entanto, até agora tem havido pouca consideração de como o aprendizado direto de políticas pode informar nosso entendimento5. Aqui, usamos um conjunto de dados abrangente de movimentos orofaciais e corporais para entender como as políticas comportamentais evoluíram à medida que camundongos ingênuos e com restrição de cabeça aprenderam um paradigma de condicionamento de traços. As diferenças individuais nas respostas de recompensa dopaminérgicas iniciais correlacionaram-se com o surgimento da política comportamental aprendida, mas não com o surgimento da codificação de valor putativo para uma sugestão preditiva. Da mesma forma, manipulações fisiologicamente calibradas de dopamina mesolímbica produziram vários efeitos inconsistentes com o aprendizado de valor, mas previstos por um modelo baseado em rede neural que usou sinais de dopamina para definir uma taxa adaptativa, não um sinal de erro, para aprendizado de política comportamental. Este trabalho fornece fortes evidências de que a atividade fásica da dopamina pode regular o aprendizado direto de políticas comportamentais, expandindo o poder explicativo de modelos de aprendizado por reforço para aprendizado animal6.

Agentes biológicos e artificiais aprendem como otimizar o comportamento por meio da experiência com um ambiente. A teoria do aprendizado por reforço descreve os algoritmos que permitem que um agente melhore iterativamente seu sucesso por meio do treinamento3. A experiência com o ambiente pode ser avaliada tanto pelo sucesso da 'política' comportamental de um agente que determina diretamente as ações executadas ('aprendizagem de política') quanto pelas expectativas subjetivas de recompensa de um agente que guiam indiretamente a ação ('aprendizagem de valor'). Nas últimas décadas, muito trabalho explorou como a atividade dos neurônios dopaminérgicos (mDA) do mesencéfalo corresponde aos sinais de atualização previstos (erros de previsão de recompensa (RPEs)7) para aprendizado de valor4. No entanto, a atividade do mDA também reflete uma mistura heterogênea de sinais e funções que podem não ser completamente abordadas pelas previsões dos modelos de aprendizado de valor8,9,10,11,12. A atividade fásica do mDA pode estar entrelaçada com a produção e monitoramento da ação10,13,14,15,16,17,18 e é determinada, pelo menos em parte, por insumos de áreas envolvidas na determinação da política comportamental19. Isso exige uma exploração de como a ampliação do escopo dos algoritmos de aprendizado por reforço considerados pode informar nossa compreensão dos sinais mDA fásicos em agentes biológicos.

A aprendizagem direta de políticas oferece especificamente um potencial inexplorado5,20 para fornecer 'primitivas computacionais e mecanicistas'6 que explicam as funções da dopamina, especialmente no contexto da aquisição de novas tarefas por animais. Em primeiro lugar, os métodos diretos de aprendizado de políticas alcançaram um sucesso substancial em problemas de aprendizado incorporado em robótica que se assemelham a problemas enfrentados por um comportamento animal1. Em segundo lugar, sob um amplo conjunto de condições, o aprendizado de políticas é o modelo de aprendizado por reforço mais parcimonioso que explica o comportamento aprendido5. Em terceiro lugar, o aprendizado de políticas pode ser conduzido diretamente por sinais de erro de desempenho comportamental (PE), em vez de, ou além de RPEs21,22, conectando-os a diversas observações de aprendizado em áreas cerebrais receptoras de dopamina23,24. Finalmente, os métodos de aprendizagem de políticas facilitam a modelagem explícita da variabilidade significativa25 em trajetórias individuais de aprendizagem comportamental como uma busca no espaço de parametrizações de políticas1.

Na verdade, pode ser uma crítica à busca de políticas que as trajetórias de aprendizagem possam ser muito variáveis; embora propício para modelar diferenças individuais, esse recurso pode produzir aprendizado abaixo do ideal26,27. Uma solução poderosa é definir um tamanho de atualização ideal para cada tentativa de acordo com alguma heurística de quão útil cada tentativa pode ser para o aprendizado2. Fazer isso independentemente do feedback de desempenho que direciona o aprendizado pode aumentar a variabilidade útil enquanto suprime o ruído1,26,28. Essas 'taxas de aprendizado adaptativo' levaram a avanços fundamentais no aprendizado de máquina28 e também podem tornar os modelos de aprendizado animal mais precisos29. Assim, as percepções do aprendizado de políticas levam a uma hipótese intrigante para a atividade fásica do mDA que, até agora, não foi explorada. A atividade fásica do mDA pode ser um sinal de taxa de aprendizado adaptativo útil, dadas suas correlações com estímulos novos e salientes12, ações futuras13 e erros de previsão7, todos os quais são heurísticas úteis para identificar momentos-chave durante os quais as taxas de aprendizado devem ser elevadas. Alternativamente, a atividade de mDA se correlaciona com PEs durante o aprendizado de canções de aves30, sugerindo que em mamíferos também pode ditar atualizações baseadas em erros para políticas comportamentais - um papel mais análogo ao transporte de RPEs para aprendizado de valor. O estabelecimento de modelos de aprendizado de políticas de tarefas canônicas de comportamento animal é necessário para distinguir entre essas possibilidades.

 0.99). Thus, within this context (although not necessarily others42), the magnitude of NAc–DA cue signals correlates only with learned changes in behavioural policy but does not seem to directly regulate preparatory behaviour in anticipation of reward delivery9,43./p>15 air changes hourly. Each ventilated cage (Allentown) was provided with corncob bedding (Shepard Specialty Papers), at least 8 g of nesting material (Bed-r’Nest, The Andersons) and a red mouse tunnel (Bio-Serv). Mice were maintained on a 12:12-h (8 am–8 pm) light/dark cycle and recordings were made between 9 am and 3 pm. The holding room temperature was maintained at 21 ± 1 °C with a relative humidity of 30% to 70%. Irradiated rodent laboratory chow (LabDiet 5053) was provided ad libitum. Following at least 4 days recovery from headcap implantation surgery, animals’ water consumption was restricted to 1.2 ml per day for at least 3 days before training. Mice underwent daily health checks, and water restriction was eased if mice fell below 75% of their original body weight./p>20 days post-injections using custom-built fibre photometry systems (Fig. 2a)56. Two parallel excitation–emission channels through a five-port filter cube (FMC5, Doric Lenses) allowed for simultaneous measurement of RCaMP1b and eYFP fluorescence, the latter channel having the purpose of controlling for the presence of movement artefacts. Fibre-coupled LEDs of 470 nm and 565 nm (M470F3, M565F3, Thorlabs) were connected to excitation ports with acceptance bandwidths of 465–490 nm and 555–570 nm, respectively, with 200-μm, 0.22-NA fibres (Doric Lenses). Light was conveyed between the sample port of the cube and the animal by a 200-μm-core, 0.39-NA fibre (Doric Lenses) terminating in a ceramic ferrule that was connected to the implanted fibre cannula by a ceramic mating sleeve (ADAL1, Thorlabs) using index matching gel to improve coupling efficiency (G608N3, Thorlabs). Light collected from the sample fibre was measured at separate output ports (emission bandwidths 500–540 nm and 600–680 nm) by 600-μm-core, 0.48-NA fibres (Doric Lenses) connected to silicon photoreceivers (2151, Newport)./p> treward/p>3%) and perfused with ice-cold phosphate-buffered saline, followed by paraformaldehyde (4% wt/vol in phosphate-buffered saline). Brains were post-fixed for 2 h at 4 °C and then rinsed in saline. Whole brains were then sectioned (100 μm thickness) using a vibrating microtome (VT-1200, Leica Microsystems). Fibre tip positions were estimated by referencing standard mouse brain coordinates70./p>