色综合天天综合网天天狠天天,中国少妇精品久久久久无码AV

微信咨詢

咨詢QQ

咨詢電話

公眾號(hào)

TOP

首頁 > 知識(shí) > 科技前沿

能提前“復(fù)制”人類微笑！AI融入人類社交世界成為可能？

來源：學(xué)術(shù)頭條

發(fā)布時(shí)間：2024-04-01

瀏覽次數(shù)：1236

版權(quán)歸原作者所有，如有侵權(quán)，請(qǐng)聯(lián)系我們

ChatGPT 等大型語言模型（LLM）的出現(xiàn)，讓機(jī)器人具備了如同人類一般的語言表達(dá)能力。然而，機(jī)器人在與人類交談時(shí)，其面部表情卻依然顯得很不自然，甚至充滿了恐懼感。

這無疑會(huì)阻礙人與機(jī)器溝通的意愿，讓兩者的溝通變得十分困難。

因此，在未來人機(jī)共存的時(shí)代，設(shè)計(jì)一個(gè)不僅能做出各種面部表情，而且知道何時(shí)使用這些表情的機(jī)器人，至關(guān)重要。

如今，來自哥倫比亞大學(xué)的研究團(tuán)隊(duì)及其合作者便邁出了重要一步——制造了一個(gè)披著硅片、能夠預(yù)測(cè)人類面部表情并同步執(zhí)行表情的機(jī)器人 Emo。它甚至可以在人類微笑前約 840 毫秒（約 0.9 秒）預(yù)測(cè)即將出現(xiàn)的微笑。

據(jù)介紹，它能與人進(jìn)行眼神交流，并利用兩個(gè)人工智能（AI）模型在人微笑之前預(yù)測(cè)并“復(fù)制”人的微笑。研究團(tuán)隊(duì)表示，這是機(jī)器人在準(zhǔn)確預(yù)測(cè)人類面部表情、改善互動(dòng)以及建立人類與機(jī)器人之間信任方面的一大進(jìn)步。

相關(guān)研究論文以“Human-robot facial coexpression”為題，已于今天發(fā)表在科學(xué)期刊 Science Robotics 上。哥倫比亞大學(xué)機(jī)械工程系博士?Yuhang Hu?為該論文的第一作者和共同通訊作者，他的導(dǎo)師、哥倫比亞大學(xué)教授?Hod Lipson?為該論文的共同通訊作者。

圖｜Yuhang Hu 與 Emo 面對(duì)面。（來源：Creative Machines Lab）

在一篇同期發(fā)表在 Science Robotics 的 FOCUS 文章中，格拉斯哥大學(xué)計(jì)算社會(huì)認(rèn)知教授 Rachael Jack 評(píng)價(jià)道：

“人類社交互動(dòng)本質(zhì)上是多模式的，涉及視覺和聽覺信號(hào)的復(fù)雜組合，雖然 Hu 及其同事的研究集中在單一模式——面部表情上，但他們的成果在為開發(fā)更復(fù)雜的多模態(tài)信號(hào)的社交同步技能方面做出了巨大的貢獻(xiàn)?！?/p>

在她看來，盡管這是一個(gè)復(fù)雜的跨學(xué)科工作，但“真正使社交機(jī)器人融入人類社交世界是可能的”。

Emo 微笑了，但也不僅僅是“微笑”

如果你走到一個(gè)長(zhǎng)著人類腦袋的機(jī)器人面前，它先對(duì)你微笑，你會(huì)怎么做？你很可能會(huì)回以微笑，也許會(huì)覺得你們兩個(gè)在真誠(chéng)地交流。

但是，機(jī)器人怎么知道如何做到這一點(diǎn)呢？或者更好的問題是，它怎么知道如何讓你回以微笑？

為此，Yuhang Hu 及其同事需要解決兩大難題：一是如何以機(jī)械方式設(shè)計(jì)一個(gè)表情豐富的機(jī)器人面部，這涉及復(fù)雜的硬件和執(zhí)行機(jī)制；二是知道該生成哪種表情，以使它們看起來自然、及時(shí)和真實(shí)。

據(jù)論文描述，Emo 配備了 26 個(gè)致動(dòng)器，頭部覆蓋有柔軟的硅膠皮膚，并配有磁性連接系統(tǒng)，從而便于定制和快速維護(hù)。為了實(shí)現(xiàn)更逼真的互動(dòng)，研究團(tuán)隊(duì)在 Emo 每只眼睛的瞳孔中都集成了高分辨率攝像頭，使其能夠進(jìn)行眼神交流，這對(duì)非語言交流至關(guān)重要。

圖｜Robot face 平臺(tái)

另外，他們還開發(fā)了兩個(gè)人工智能模型：其中一個(gè)通過分析目標(biāo)面部的細(xì)微變化預(yù)測(cè)人類面部表情，另一個(gè)則利用相應(yīng)的面部表情生成運(yùn)動(dòng)指令。第一個(gè)模型是通過觀看網(wǎng)絡(luò)視頻進(jìn)行訓(xùn)練的，而第二個(gè)模型則是通過讓機(jī)器人觀看自己在實(shí)時(shí)攝像機(jī)畫面上的表情來訓(xùn)練的。他們通過與其他基線進(jìn)行定量評(píng)估，證明了這兩個(gè)模型的有效性。

圖｜模型架構(gòu)。逆向模型（A）和預(yù)測(cè)模型（B）

為了訓(xùn)練 Emo 學(xué)會(huì)做出面部表情，研究團(tuán)隊(duì)把 Emo 放在攝像頭前，讓它做隨機(jī)動(dòng)作。幾個(gè)小時(shí)后，Emo 就學(xué)會(huì)了面部表情與運(yùn)動(dòng)指令之間的關(guān)系——就像人類通過照鏡子練習(xí)面部表情一樣。他們將其稱為“自我建模”——類似于人類想象自己做出特定表情時(shí)的樣子。

然后，研究團(tuán)隊(duì)播放人類面部表情的視頻，讓 Emo 逐幀觀察。經(jīng)過幾個(gè)小時(shí)的訓(xùn)練后，Emo 便可以通過觀察人們面部的微小變化來預(yù)測(cè)他們的面部表情。

在 Yuhang Hu 看來，準(zhǔn)確預(yù)測(cè)人類的面部表情是人機(jī)交互技術(shù)的重要突破，“當(dāng)機(jī)器人與人進(jìn)行實(shí)時(shí)表情交互時(shí)，不僅能提高交互質(zhì)量，還有助于建立人與機(jī)器人之間的信任。未來，在與機(jī)器人互動(dòng)時(shí)，機(jī)器人會(huì)像真人一樣觀察和解讀你的面部表情?！?/p>

值得一提的是，這項(xiàng)研究的潛在影響或許已經(jīng)超越機(jī)器人學(xué)，擴(kuò)展到神經(jīng)科學(xué)和實(shí)驗(yàn)心理學(xué)等領(lǐng)域。

例如，一個(gè)可以預(yù)測(cè)和同步面部表情的機(jī)器人系統(tǒng)可以作為研究鏡像神經(jīng)元系統(tǒng)的工具。通過在測(cè)量大腦活動(dòng)的同時(shí)與參與者互動(dòng)，研究人員可以深入了解社會(huì)互動(dòng)和交流的神經(jīng)相關(guān)性。

在心理學(xué)領(lǐng)域，具有預(yù)測(cè)和同步面部表情能力的機(jī)器人可用作教育工具，幫助自閉癥患者發(fā)展更好的社交溝通技能。已有研究表明，機(jī)器人可以有效地吸引患有自閉癥譜系障礙（ASD）的兒童，促進(jìn)他們的社交互動(dòng)。

不足與展望

盡管 Emo 已經(jīng)可以預(yù)測(cè)人類面部表情并同步快速回應(yīng)，但遠(yuǎn)不具備完全捕捉到人類的面部交流能力，甚至在由成人模樣的機(jī)器人進(jìn)行模仿時(shí)，可能會(huì)讓人感覺厭惡。

然而，研究團(tuán)隊(duì)認(rèn)為，就像嬰兒在學(xué)會(huì)模仿父母之后才能獨(dú)立做出面部表情一樣，機(jī)器人必須先學(xué)會(huì)預(yù)測(cè)和模仿人類的表情，然后才能成熟地進(jìn)行更加自發(fā)和自我驅(qū)動(dòng)的表情交流。

在未來的工作中，他們希望擴(kuò)大 Emo 的表情范圍，并希望訓(xùn)練 Emo 根據(jù)人類所說的話做出表情。他們正在努力將語言交流整合到 Emo 中，并接入類似 ChatGPT 的大型語言模型。

然而，他們也表示，必須謹(jǐn)慎選擇機(jī)器人模仿的面部表情。例如，某些面部姿態(tài)，如微笑、點(diǎn)頭和保持眼神接觸，通常會(huì)自然地得到回應(yīng)，并且在人類交流中會(huì)被積極地看待。相反，對(duì)于噘嘴或皺眉等表情的模仿則應(yīng)謹(jǐn)慎，因?yàn)檫@些表情有可能被誤解為嘲諷或傳達(dá)非預(yù)期的情緒。

另外，人類用戶如何感知這些表情才是衡量成功與否的最終標(biāo)準(zhǔn)。未來的一個(gè)重要步驟是驗(yàn)證這些表情在現(xiàn)實(shí)世界中人與機(jī)器人在各種情境下互動(dòng)時(shí)的情感效果，以確定其心理有效性。

此外，該研究也存在一定的局限性，其中之一為“模型的預(yù)測(cè)和表情模仿可能缺乏文化敏感性”。

眾所周知，不同的文化可能會(huì)對(duì)某些面部表情有不同的規(guī)范和含義。例如，雖然在許多文化中，微笑通常被認(rèn)為是快樂或友好的標(biāo)志，但它也可能是尷尬或不確定的標(biāo)志。同樣，直接的目光接觸在某些文化中可能被視為自信和誠(chéng)實(shí)的表現(xiàn)，但在其他文化中卻可能被視為粗魯或?qū)埂?/p>

未來的工作可以探索將文化背景融入到模型中，一個(gè)可能的方法是納入來自不同文化背景的數(shù)據(jù)集，并在算法中融入對(duì)文化規(guī)范的理解。