科學(xué)研究:學(xué)習(xí)時(shí),罕見獎(jiǎng)勵(lì)會(huì)提高學(xué)習(xí)效率
發(fā)布時(shí)間:2021-05-24
瀏覽次數(shù):1335
科學(xué)研究:學(xué)習(xí)時(shí),罕見獎(jiǎng)勵(lì)會(huì)提高學(xué)習(xí)效率

罕見激活多巴胺反應(yīng)。 A圖:均勻分布的獎(jiǎng)勵(lì)(左邊)與正態(tài)分布獎(jiǎng)勵(lì)(右邊)。 B圖:多巴胺神經(jīng)元對(duì)平均分布的獎(jiǎng)勵(lì)(綠色)和正態(tài)分布獎(jiǎng)勵(lì)(洋紅色)產(chǎn)生的反應(yīng)。圖片來源:Rothenhoefer等

以往的研究不斷強(qiáng)調(diào)多巴胺神經(jīng)元在獎(jiǎng)勵(lì)學(xué)習(xí)中的關(guān)鍵作用。獎(jiǎng)勵(lì)學(xué)習(xí)指的是,人類和其他動(dòng)物完成特定動(dòng)作或提供某個(gè)問題正確、預(yù)期的答案后得到獎(jiǎng)勵(lì),從而獲得不同信息、技能或習(xí)慣的過程。

如果個(gè)體獲得的獎(jiǎng)勵(lì)比預(yù)期更好,多巴胺神經(jīng)元就會(huì)被激活。與此相反,如果獲得的獎(jiǎng)勵(lì)比預(yù)期的差,多巴胺神經(jīng)元就會(huì)被抑制。這種特別的活動(dòng)模式類似于已知的“獎(jiǎng)勵(lì)預(yù)測(cè)誤差”,它本質(zhì)上是實(shí)際獲得的獎(jiǎng)勵(lì)與預(yù)測(cè)之間的差異。

匹茲堡大學(xué)(University of Pittsburgh)的研究人員最近完成了一項(xiàng)關(guān)于獎(jiǎng)勵(lì)頻率與獎(jiǎng)勵(lì)預(yù)測(cè)誤差如何影響多巴胺信號(hào)的研究。他們發(fā)表在《自然·神經(jīng)科學(xué)》(Nature Neuroscience)的論文為與多巴胺相關(guān)的獎(jiǎng)勵(lì)學(xué)習(xí)的神經(jīng)基礎(chǔ)提供了全新的、有價(jià)值的視角。

參與研究的研究人員之一William R. Stauffe博士說:“獎(jiǎng)勵(lì)預(yù)測(cè)誤差對(duì)動(dòng)物學(xué)習(xí)和機(jī)器學(xué)習(xí)來說很重要。然而,在經(jīng)典的動(dòng)物學(xué)習(xí)和機(jī)器學(xué)習(xí)理論中,方程式中‘預(yù)測(cè)獎(jiǎng)勵(lì)’部分僅僅就是以往結(jié)果的平均值。盡管這些預(yù)測(cè)都很有用,但預(yù)測(cè)平均值和可以反應(yīng)不確定性的更加復(fù)雜的統(tǒng)計(jì)值才更有用處?!?/p>

2005年劍橋大學(xué)神經(jīng)科學(xué)教授、Wellcome主要研究員、Stauffer的博士后導(dǎo)師Wolfram Schultz的研究啟發(fā)了該研究的研究人員。2005年的研究指出,基于Schultz和同事設(shè)定的最大與最小結(jié)果的標(biāo)準(zhǔn)差范圍,多巴胺反應(yīng)的獎(jiǎng)勵(lì)預(yù)測(cè)誤差能夠正態(tài)化。

Stauffer說:“研究是突破性的,因?yàn)樗砻魃窠?jīng)預(yù)測(cè)的過程實(shí)際上反映了不確定性。然而,有幾種不同的方式能夠調(diào)節(jié)不確定性,而我猜測(cè)它們?cè)谛睦韺W(xué)意義上不是等同的?!?/p>

Schultz與同事在研究中應(yīng)用的范圍調(diào)節(jié)(為了改變標(biāo)準(zhǔn)差)使得每個(gè)可能的獎(jiǎng)勵(lì)具有相同的預(yù)測(cè)可能。

Stauffer說:“我們好奇的是,如果設(shè)定固定的極值,但改變范圍內(nèi)的概率分布,那么多巴胺神經(jīng)元會(huì)怎么反應(yīng)。相應(yīng)的,我們研究的主題是,弄清楚多巴胺神經(jīng)元是否對(duì)概率分布的形狀具有敏感性。”

中腦冠狀面標(biāo)記染色的多巴胺神經(jīng)元。這是研究人員記錄信號(hào)的大腦區(qū)域。 (圖片來源:Rothenhoefer等)

實(shí)驗(yàn)中,Stauffer與同事使用了兩種不同的視覺提示,預(yù)測(cè)來自兩種不同“獎(jiǎng)勵(lì)概率分布”的獎(jiǎng)勵(lì)情況。兩種獎(jiǎng)勵(lì)的實(shí)際分布包含三種類型的獎(jiǎng)勵(lì),名為小滴、中滴、大滴的果汁。

其中一種獎(jiǎng)勵(lì)的概率分布類似正態(tài)分布,多數(shù)情況均出現(xiàn)中間值(比如,中滴果汁),而極少數(shù)情況下出現(xiàn)小滴和大滴的果汁。另一方面,第二種獎(jiǎng)勵(lì)的概率分布,遵循“均勻分布”,小滴、中滴和大滴的果汁出現(xiàn)概率相等(比如,出現(xiàn)次數(shù)相同)。

Stauffer和同事讓猴子觀察到不同概率分布相關(guān)的視覺提示,并使用電極記錄了猴子的多巴胺神經(jīng)元反應(yīng)。他們還記錄到猴子實(shí)際接受概率分布獎(jiǎng)勵(lì)時(shí)的多巴胺神經(jīng)元反應(yīng)。

值得注意的是,研究人員觀察到,給予低頻率獎(jiǎng)勵(lì)(即罕見獎(jiǎng)勵(lì))能增強(qiáng)猴子大腦的多巴胺反應(yīng)。相比之下,相同分量但出現(xiàn)頻率更高的獎(jiǎng)勵(lì)激起的多巴胺反應(yīng)更弱。

Stauffer說:“我們觀察到的現(xiàn)象提示,預(yù)測(cè)性的神經(jīng)元信號(hào)反應(yīng)了預(yù)測(cè)值附近的不確定性程度,而不僅限于預(yù)測(cè)值本身。這還意味著大腦主要獎(jiǎng)勵(lì)學(xué)習(xí)系統(tǒng)中的一種功能是預(yù)測(cè)不確定性,并且有可能教會(huì)大腦下部結(jié)構(gòu)預(yù)測(cè)不確定性。很少有其他的神經(jīng)系統(tǒng)擁有這樣直接的證據(jù)來證實(shí)天然的神經(jīng)元反應(yīng)算法的存在,這些迷人的結(jié)果提示一種新的神經(jīng)算法?!?/p>

研究團(tuán)隊(duì)做出的研究強(qiáng)調(diào)了獎(jiǎng)勵(lì)頻率對(duì)獎(jiǎng)勵(lì)學(xué)習(xí)時(shí)多巴胺神經(jīng)元反應(yīng)的影響。這些成果將會(huì)啟迪進(jìn)一步的研究,或許能顯著提升當(dāng)前對(duì)獎(jiǎng)勵(lì)學(xué)習(xí)的神經(jīng)機(jī)制的理解。

最終,研究人員想要探索對(duì)概率的看法如何幫助在模棱兩可(當(dāng)結(jié)果概率未知)的情況下做出選擇。在這些特定的抉擇情形下,人類總的來說是基于自身對(duì)獎(jiǎng)勵(lì)概率分布的認(rèn)識(shí),被迫做出決策。

Stauffer說:“這項(xiàng)研究只是理解大腦如何編碼來理解主觀概率分布,以及這些認(rèn)識(shí)以何種形式出現(xiàn)的第一步。通過手頭已有的結(jié)果,我們能回過頭去研究大腦的選擇。不過,我估計(jì),這些結(jié)果將會(huì)有更加廣泛的應(yīng)用,對(duì)生物學(xué)的和人工的智能學(xué)習(xí)系統(tǒng)具有重要意義?!?/p>

圖片來源:Pixabay

作者:Ingrid Fadelli

翻譯:陳振翀

審校:張哲

引進(jìn)來源:Medical Xpress


關(guān)注【深圳科普】微信公眾號(hào),在對(duì)話框:
回復(fù)【最新活動(dòng)】,了解近期科普活動(dòng)
回復(fù)【科普行】,了解最新深圳科普行活動(dòng)
回復(fù)【研學(xué)營(yíng)】,了解最新科普研學(xué)營(yíng)
回復(fù)【科普課堂】,了解最新科普課堂
回復(fù)【科普書籍】,了解最新科普書籍
回復(fù)【團(tuán)體定制】,了解最新團(tuán)體定制活動(dòng)
回復(fù)【科普基地】,了解深圳科普基地詳情
回復(fù)【觀鳥知識(shí)】,學(xué)習(xí)觀鳥相關(guān)科普知識(shí)
回復(fù)【博物學(xué)院】,了解更多博物學(xué)院活動(dòng)詳情
?

聽說,打賞我的人最后都找到了真愛。
做科普,我們是認(rèn)真的!
掃描關(guān)注深i科普公眾號(hào)
加入科普活動(dòng)群
  • 參加最新科普活動(dòng)
  • 認(rèn)識(shí)科普小朋友
  • 成為科學(xué)小記者