AI 讀心術(shù)來(lái)了,準(zhǔn)確率高達(dá) 82%?論文已刊登在 Nature?。╝i讀心術(shù)網(wǎng)站)
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
AI 的潛力有多大?現(xiàn)如今,讀心術(shù)就要來(lái)了:人類(lèi)無(wú)須張口,你的所想,AI 都知道。更為重要的是,這是 AI 首次通過(guò)非侵入式的方法學(xué)會(huì)了“讀心術(shù)”。
這項(xiàng)研究成果來(lái)自于美國(guó)得克薩斯州奧斯汀分校的團(tuán)隊(duì),目前已經(jīng)刊登在《Nature Neuroscience》雜志上。他們基于 GPT-1 人工智能技術(shù)開(kāi)發(fā)出一種解碼器,可將大腦活動(dòng)轉(zhuǎn)化為連續(xù)的文本流,它有可能為無(wú)法說(shuō)話的患者提供另一種與外界溝通的新型方式。
根據(jù)實(shí)驗(yàn)結(jié)果顯示,GPT 人工智能大模型感知語(yǔ)音的準(zhǔn)確率可高達(dá) 82%,令人驚嘆。
“讀心術(shù)”的探索
事實(shí)上,科技圈對(duì)“讀心術(shù)”的探索并非近日才展開(kāi)。
過(guò)去,馬斯克建立的神經(jīng)科技公司 Neuralink 也一直在尋找高效實(shí)現(xiàn)腦機(jī)接口的方法,其還與加州大學(xué)戴維斯分校合作,實(shí)現(xiàn)用猴子大腦控制電腦的實(shí)驗(yàn),旨在最終想要將芯片植入大腦,用“細(xì)絲”探測(cè)神經(jīng)元活動(dòng)。
不過(guò),值得注意的是,Neuralink 的這種方案屬于侵入式的。所謂侵入式,是指將腦機(jī)接口直接植入到大腦的灰質(zhì),因而所獲取的神經(jīng)信號(hào)的質(zhì)量比較高。這種方式的缺點(diǎn)是容易引發(fā)免疫反應(yīng)和愈傷組織(疤),進(jìn)而導(dǎo)致信號(hào)質(zhì)量的衰退甚至消失。
與之相對(duì)應(yīng)的是非侵入式腦機(jī)接口,它是一種能夠在人腦與外部設(shè)備之間直接建立通訊的人機(jī)交互技術(shù),具有操作便捷、風(fēng)險(xiǎn)性小等優(yōu)點(diǎn)。
以往,行業(yè)內(nèi)可以通過(guò)功能性磁共振成像(FMRI)捕捉人類(lèi)大腦活動(dòng)的粗糙、彩色快照。雖然這種特殊類(lèi)型的磁共振成像已經(jīng)改變了認(rèn)知神經(jīng)科學(xué),但是它始終不是一臺(tái)讀心機(jī):神經(jīng)科學(xué)家無(wú)法通過(guò)大腦掃描來(lái)判斷某人在掃描儀中看到、聽(tīng)到或思考的內(nèi)容。
此后,神經(jīng)科學(xué)家一直希望可以使用 fMRI 等非侵入性技術(shù)來(lái)破譯人類(lèi)大腦內(nèi)部的聲音,而無(wú)需手術(shù)。
如今,隨著《Semantic reconstruction of continuous language from non-invasive brain recordings》(https://www.nature.com/articles/s41593-023-01304-9.epdf)論文的發(fā)布,該論文的主要作者 Jerry Tang 通過(guò)將 fMRI 檢測(cè)神經(jīng)活動(dòng)的能力與人工智能語(yǔ)言模型的預(yù)測(cè)能力相結(jié)合,可以以驚人的準(zhǔn)確度重現(xiàn)人們?cè)?span id="gkep7e9w" class="candidate-entity-word" data-gid="820447">掃描儀中聽(tīng)到或想象的故事。解碼器甚至可以猜出某人在掃描儀中觀看短片背后的故事,盡管準(zhǔn)確性較低,但也實(shí)現(xiàn)了一大進(jìn)步。這也意味著,參與者不需要植入任何外界設(shè)備,AI 系統(tǒng)就能解碼大腦中的想法。
沒(méi)說(shuō)過(guò)的話,AI 是怎么知道的?
自 ChatGPT、GPT-4 發(fā)布的幾個(gè)月間,我們見(jiàn)證了大模型根據(jù)提示詞不斷輸出內(nèi)容的過(guò)程。
要問(wèn) AI 系統(tǒng)如何了解人類(lèi)大腦中的想法,在論文中,研究人員透露,首先讓參與者聽(tīng)新故事,然后功能性磁共振成像(FMRI)可以呈現(xiàn)出參與者大腦的活動(dòng)狀態(tài)。進(jìn)而,基于最新開(kāi)發(fā)的語(yǔ)義解碼器將這些狀態(tài),生成相應(yīng)的單詞序列,并通過(guò)將用戶(hù)大腦反應(yīng)的預(yù)測(cè)與實(shí)際記錄的大腦反應(yīng)進(jìn)行比較,最終預(yù)測(cè)每個(gè)候選單詞序列與實(shí)際單詞序列的相似程度,看看準(zhǔn)確率如何,是否能“讀心”。
具體來(lái)看,為了收集大腦活動(dòng)數(shù)據(jù),研究人員讓研究對(duì)象在 fMRI 掃描儀內(nèi)聽(tīng)一些音頻故事。與此同時(shí),通過(guò) fMRI 掃描儀觀察他們的大腦在聽(tīng)這些話時(shí)反應(yīng)情況。如圖 a 所示,3 名受試者在聽(tīng) 16 小時(shí)的敘述性的故事時(shí),AI 系統(tǒng)記錄了 MRI(磁共振成像)的反應(yīng)。
然后,MRI 數(shù)據(jù)被發(fā)送到計(jì)算機(jī)系統(tǒng)中。在這個(gè)過(guò)程中,研究人員使用了基于貝葉斯統(tǒng)計(jì)的解碼框架。大型語(yǔ)言模型 GPT-1 在系統(tǒng)的自然語(yǔ)言處理部分提供了幫助。由于這個(gè)神經(jīng)語(yǔ)言模型是在大量的自然英語(yǔ)單詞序列數(shù)據(jù)集上進(jìn)行訓(xùn)練的,它擅長(zhǎng)預(yù)測(cè)最可能的單詞。
接下來(lái),研究人員在這個(gè)數(shù)據(jù)集上訓(xùn)練編碼模型。在初始訓(xùn)練時(shí),如 b 圖所示,當(dāng)受試者在試聽(tīng)此前沒(méi)有用于模型訓(xùn)練的測(cè)試故事時(shí),大腦會(huì)做出不同的反應(yīng)。
進(jìn)而,語(yǔ)義解碼器可以根據(jù)參與者的大腦活動(dòng)生成詞匯序列,語(yǔ)言模型(LM)為每個(gè)序列提出連續(xù)性,而編碼模型對(duì)每個(gè)連續(xù)性下記錄的大腦反應(yīng)的可能性進(jìn)行評(píng)分。
簡(jiǎn)單來(lái)看,語(yǔ)義解碼器學(xué)會(huì)了將特定的大腦活動(dòng)與特定的單詞流相匹配。然后根據(jù)匹配出來(lái)的單詞流,試圖重新輸出這些故事。
不過(guò),語(yǔ)義解碼器主要捕捉了參與者想法中的要點(diǎn),并不是一字一句的完整思想內(nèi)容。如參與者聽(tīng)到的是,“我從氣墊上站起來(lái),把臉貼在臥室窗戶(hù)的玻璃上,希望看到有一雙眼睛盯著我,但卻發(fā)現(xiàn)只有一片黑暗。”
但是想法卻是,“我繼續(xù)走到窗前,打開(kāi)窗戶(hù),我什么也沒(méi)看見(jiàn),再抬頭看,什么也沒(méi)看見(jiàn)?!?/p>
又比如說(shuō)參與者聽(tīng)到的是,“我還沒(méi)有駕照”,語(yǔ)義解碼器解碼之后的版本可能是,“她還沒(méi)有學(xué)會(huì)開(kāi)車(chē)”。
語(yǔ)義解碼器捕捉參與者的想法
通過(guò)這種方法,在一系列語(yǔ)言相似性指標(biāo)下,語(yǔ)義解碼器對(duì)測(cè)試故事的預(yù)測(cè)與實(shí)際刺激詞的相似度明顯高于預(yù)期。準(zhǔn)確率也高達(dá) 82%。
該論文的另一位作者 Alexander Huth 表示,他們對(duì)系統(tǒng)出色的表現(xiàn)感到驚訝。他們發(fā)現(xiàn)解碼后的單詞序列通常能夠準(zhǔn)確地捕捉到單詞和短語(yǔ)。他們還發(fā)現(xiàn)他們可以從大腦的不同區(qū)域分別提取連續(xù)的語(yǔ)言信息。
除此之外,為了測(cè)試解碼的文本是否準(zhǔn)確捕捉到故事的含義,研究人員還進(jìn)行了一項(xiàng)行為實(shí)驗(yàn),通過(guò)向只閱讀解碼后單詞的受試者提問(wèn)一系列問(wèn)題。受試者在沒(méi)有看過(guò)視頻的情況下,能夠正確回答超過(guò)一半的問(wèn)題。
語(yǔ)義解碼器剛起步,道阻且長(zhǎng)
不過(guò),當(dāng)前,該語(yǔ)義解碼器還無(wú)法在實(shí)驗(yàn)室以外的地方使用,因?yàn)樗蕾?lài)于 fMRI設(shè)備。
對(duì)于未來(lái)的工作, 研究人員希望自然語(yǔ)言神經(jīng)網(wǎng)絡(luò)的快速進(jìn)展能夠帶來(lái)更好的準(zhǔn)確性。到目前為止,他們發(fā)現(xiàn)較大、現(xiàn)代的語(yǔ)言模型至少在編碼部分工作得更好。他們還希望能夠使用更大的數(shù)據(jù)集,比如每個(gè)受試者 100 或 200 小時(shí)的數(shù)據(jù)。
雖然這種非侵入性的方式,可能會(huì)對(duì)醫(yī)學(xué)維度的研究以及患者有極大的好處,使其可以與他人進(jìn)行可理解的交流,但是也存在隱私、倫理審查、不平等和歧視、濫用和侵犯人權(quán)等諸多問(wèn)題,所以想要現(xiàn)實(shí)中應(yīng)用也大有難度。
與此同時(shí),研究人員表明,語(yǔ)義解碼器僅在接受過(guò)訓(xùn)練的人身上以及與其合作下才能正常工作,因?yàn)獒槍?duì)一個(gè)人訓(xùn)練的模型不適用于另一個(gè)人,當(dāng)前還無(wú)法做到通用。
“雖然這項(xiàng)技術(shù)還處于起步階段,但重要的是要規(guī)范它能做什么,不能做什么,”該論文的主要作者 Jerry Tang 警告說(shuō)。“如果它最終可以在未經(jīng)個(gè)人許可的情況下使用,就必須有(嚴(yán)格的)監(jiān)管程序,因?yàn)槿绻麨E用預(yù)測(cè)框架可能會(huì)產(chǎn)生負(fù)面后果。”
該小組已在 GitHub 上提供了其自定義解碼代碼: github.com/HuthLab/semantic-decoding。據(jù)悉該團(tuán)隊(duì)也在得克薩斯大學(xué)系統(tǒng)的支持下提交了與這項(xiàng)研究直接相關(guān)的專(zhuān)利申請(qǐng)。
https://www.nature.com/articles/s41593-023-01304-9
參考:
https://spectrum.ieee.org/mind-reading-ai
https://www.auntminnie.com/index.aspx?sec=ser&sub=def&pag=dis&ItemID=140000