天橋腦科學(xué)研究院資助的首個(gè)中文腦電圖數(shù)據(jù)集研究項(xiàng)目登上《自然》子刊|鈦快訊
(圖片來(lái)源:unsplash)
鈦媒體App 6月7日消息,南方科技大學(xué)劉泉影教授、澳門(mén)大學(xué)伍海燕教授聯(lián)合課題組日前在英國(guó)自然子刊《Scientific Data》上發(fā)表了一項(xiàng)突破性研究成果——首個(gè)專(zhuān)門(mén)針對(duì)中文語(yǔ)言的腦電圖數(shù)據(jù)集“ChineseEEG”。
研究團(tuán)隊(duì)表示,ChineseEEG數(shù)據(jù)集不僅對(duì)神經(jīng)科學(xué)、語(yǔ)言學(xué)及相關(guān)領(lǐng)域有著深遠(yuǎn)的意義,還將在腦機(jī)接口、語(yǔ)義解碼等領(lǐng)域帶來(lái)廣泛的應(yīng)用前景。例如,可以利用基于腦信號(hào)的文字轉(zhuǎn)換技術(shù),幫助殘障人士通過(guò)大腦活動(dòng)直接控制計(jì)算機(jī)或其他設(shè)備,為他們提供更便捷的交流和生活方式。
這項(xiàng)研究是天橋腦科學(xué)研究院(TianQiao & Chrissy Chen Institute, TCCI)資助的首個(gè)中文腦電圖數(shù)據(jù)集研究項(xiàng)目,同時(shí)也是TCCI發(fā)起的MindD數(shù)據(jù)支持計(jì)劃的第一個(gè)資助項(xiàng)目,并且還是《Nature》子刊上首個(gè)用于語(yǔ)義對(duì)齊和神經(jīng)解碼的中文語(yǔ)言的腦電圖數(shù)據(jù)集。
實(shí)際上,語(yǔ)言是人類(lèi)交流的核心,無(wú)論是使用母語(yǔ)還是學(xué)習(xí)新語(yǔ)言,大腦都能迅速理解和表達(dá)。這種能力源于大腦對(duì)語(yǔ)言的復(fù)雜處理機(jī)制。當(dāng)接收語(yǔ)言信息時(shí),大腦會(huì)啟動(dòng)一系列神經(jīng)活動(dòng)來(lái)解析這些數(shù)據(jù)。通過(guò)研究這些神經(jīng)活動(dòng),科學(xué)家們可以揭示大腦如何處理和理解語(yǔ)言。
近年來(lái),腦電圖(EEG)、功能磁共振成像(fMRI)和皮層腦電圖(ECoG)等技術(shù)在研究大腦語(yǔ)言處理機(jī)制方面發(fā)揮了關(guān)鍵作用。然而,大量神經(jīng)信號(hào)數(shù)據(jù)的獲取依然困難,尤其是針對(duì)中文的腦電圖數(shù)據(jù)集相對(duì)稀缺。不同語(yǔ)言的結(jié)構(gòu)差異意味著大腦處理這些語(yǔ)言的方式也不盡相同,因此創(chuàng)建基于非英語(yǔ)刺激的腦電圖數(shù)據(jù)集顯得尤為重要。
為了填補(bǔ)這一空白,劉泉影教授和伍海燕教授的研究團(tuán)隊(duì)通過(guò)使用兩部經(jīng)典中文小說(shuō)《小王子》和《狼王夢(mèng)》作為實(shí)驗(yàn)材料。這些文本不僅包含了豐富的常用漢字和表達(dá)方式,而且為實(shí)驗(yàn)提供了多樣化的語(yǔ)言刺激。每位參與者默讀了長(zhǎng)達(dá)12小時(shí)的中文文本。期間,研究團(tuán)隊(duì)記錄了他們的腦電圖等數(shù)據(jù)。實(shí)驗(yàn)包括了一個(gè)練習(xí)閱讀階段和兩個(gè)正式的閱讀階段,每個(gè)階段均由數(shù)個(gè)實(shí)驗(yàn)運(yùn)行組成。
實(shí)驗(yàn)設(shè)備和相關(guān)數(shù)據(jù)模態(tài)
ChineseEEG數(shù)據(jù)集的優(yōu)勢(shì)在于,除了提供多種預(yù)處理后的腦電圖傳感器級(jí)數(shù)據(jù)外,還提供了由BERT-base-chinese模型生成的中文文本嵌入,為研究自然語(yǔ)言處理模型中的文本表示與大腦神經(jīng)活動(dòng)之間的關(guān)系提供了新的視角。研究人員可以利用這些數(shù)據(jù)集深入分析大腦如何處理中文,推動(dòng)跨語(yǔ)言神經(jīng)科學(xué)研究的發(fā)展。
那么,ChineseEEG可以具體用來(lái)做什么呢?
- 首先,由于參與者接受了長(zhǎng)達(dá)12小時(shí)的中文語(yǔ)言刺激,涵蓋了豐富的詞匯和語(yǔ)義,這對(duì)于研究大腦長(zhǎng)期處理語(yǔ)言的變化十分有益;
- 其次,利用128個(gè)通道的高密度腦電圖數(shù)據(jù)和每秒1000次的采樣率,研究人員能夠精確追蹤大腦在閱讀中文時(shí)的微妙變化;
- 最后,更為重要的是,研究者提供了經(jīng)過(guò)處理的腦電圖數(shù)據(jù)和文本嵌入,使得不具備神經(jīng)科學(xué)或計(jì)算機(jī)科學(xué)背景的人也能夠直接使用這些數(shù)據(jù)進(jìn)行研究。
舉例來(lái)說(shuō),這些數(shù)據(jù)可用于:1、腦電圖的時(shí)頻分析,幫助提取神經(jīng)振蕩的不同頻段;2、腦電圖源重建,揭示大腦活動(dòng)的源頭;3、文本嵌入,利用預(yù)先訓(xùn)練好的技術(shù)計(jì)算小說(shuō)的嵌入,探索腦電圖與文本之間的關(guān)系;4、數(shù)據(jù)對(duì)齊,幫助研究者更好地理解他們收集到的數(shù)據(jù),將腦電圖數(shù)據(jù)與文本內(nèi)容和眼動(dòng)追蹤數(shù)據(jù)對(duì)齊。
伍海燕教授表示:“海量腦科學(xué)數(shù)據(jù)的采集、管理和分析是公認(rèn)的難題,這也極大地制約了以大模型為代表的新一代AI在相關(guān)領(lǐng)域的應(yīng)用。天橋腦科學(xué)研究院推出的MindD數(shù)據(jù)支持計(jì)劃及時(shí)滿足了科學(xué)家和臨床醫(yī)生群體的需求?!?/p>
MindD數(shù)據(jù)支持計(jì)劃面向中國(guó)神經(jīng)科學(xué)家、認(rèn)知科學(xué)家、心理學(xué)家,以及神經(jīng)和精神疾病醫(yī)生開(kāi)放,在安全合規(guī)的前提下,資助人類(lèi)大腦及相關(guān)全身和行為數(shù)據(jù)的采集、分析和訓(xùn)練。該計(jì)劃首期計(jì)劃提供1億元經(jīng)費(fèi)資助,同時(shí)免費(fèi)提供存儲(chǔ)服務(wù)器、算力等基礎(chǔ)設(shè)施,創(chuàng)新數(shù)據(jù)采集技術(shù),以及AI和數(shù)據(jù)專(zhuān)業(yè)人才資源。天橋腦科學(xué)研究院與澳門(mén)大學(xué)伍海燕、南方科技大學(xué)劉泉影聯(lián)合課題組達(dá)成的資助正是該計(jì)劃的首批項(xiàng)目之一。
天橋腦科學(xué)研究院(TCCI)是由陳天橋、雒芊芊夫婦出資10億美元?jiǎng)?chuàng)建的全球最大私人腦科學(xué)研究機(jī)構(gòu)之一,主要推動(dòng)三大領(lǐng)域的關(guān)鍵性大腦研究:大腦的探知,大腦相關(guān)疾病治療以及大腦功能的開(kāi)發(fā)。TCCI與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室;與加州理工學(xué)院合作成立了TCCI加州理工神經(jīng)科學(xué)研究院。TCCI建成了支持腦科學(xué)研究的生態(tài)系統(tǒng),項(xiàng)目遍布?xì)W美、亞洲和大洋洲,包括學(xué)術(shù)會(huì)議和交流、夏校培訓(xùn)、AI加速科學(xué)大獎(jiǎng)、科研型臨床醫(yī)生獎(jiǎng)勵(lì)計(jì)劃、特殊病例社區(qū)、中文媒體追問(wèn)等。
展望未來(lái),團(tuán)隊(duì)表示,隨著技術(shù)的進(jìn)一步成熟和數(shù)據(jù)集的不斷豐富,預(yù)計(jì)將有更多創(chuàng)新研究成果涌現(xiàn),深化人類(lèi)對(duì)大腦如何處理語(yǔ)言和其他復(fù)雜任務(wù)的理解。MindD計(jì)劃也將繼續(xù)幫助相關(guān)研究領(lǐng)域突破數(shù)據(jù)瓶頸,為“AI 腦科學(xué)”的發(fā)展奠定良好基礎(chǔ),同時(shí)吸引更多國(guó)際合作和跨學(xué)科研究,加速AI技術(shù)在醫(yī)療和健康領(lǐng)域的實(shí)際應(yīng)用。
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤(rùn)峰)