ChatGPT和ChatGPT們,你都了解了嗎?(chat和chatting的區(qū)別)
北京日?qǐng)?bào)客戶端 | 記者 汪丹
說到最近網(wǎng)上最火的科技名詞,非“ChatGPT”莫屬。ChatGPT(Chat Generative Pre-trained Transformer)是美國(guó)一家人工智能研究公司研發(fā)的聊天機(jī)器人程序,不僅能與人有問有答,文章也寫得有模有樣,因此有些人稱之為史上最強(qiáng)AI(人工智能),甚至還有人聯(lián)想到科幻片中人工智能最終取代人類的情節(jié)。記得上一輪掀起輿論熱潮的人工智能事件,還是2016年AlphaGo以4∶1戰(zhàn)勝世界頂級(jí)圍棋棋手李世石。今天我們請(qǐng)知名科普作者張?zhí)锟?/span>來說說以ChatGPT為代表的人工智能對(duì)當(dāng)前社會(huì)發(fā)展的影響,以及其現(xiàn)有成果在生物科學(xué)領(lǐng)域的作用。
接受強(qiáng)化訓(xùn)練的生成式AI:
對(duì)接用戶需求創(chuàng)造新內(nèi)容
現(xiàn)在全世界都在談?wù)摰腃hatGPT是一個(gè)人工智能撰稿和聊天工具,去年11月一經(jīng)推出,便在社交媒體上迅速走紅,至今月活躍用戶已過億。ChatGPT能夠通過學(xué)習(xí)和理解人類的語言來進(jìn)行對(duì)話、回答各種問題,還能根據(jù)要求完成視頻腳本、文案、論文、代碼等寫作任務(wù)。它的成功,源于以深度學(xué)習(xí)為代表的人工智能技術(shù)的長(zhǎng)期積累。從屬性上看,ChatGPT其實(shí)是一個(gè)大型語言模型(LLM),接受過大量文本數(shù)據(jù)的訓(xùn)練,能夠?qū)Ω鞣N各樣的問題輸入生成類似人類的應(yīng)答結(jié)果和反應(yīng),因此,也可以稱它為容生成器。
AI需要具備3個(gè)要素:數(shù)據(jù)、算力及算法。數(shù)據(jù)是知識(shí)原料,算力及算法則提供“計(jì)算智能”以學(xué)習(xí)知識(shí)并實(shí)現(xiàn)特定目標(biāo)。人們對(duì)AI有多種分類,以AI“能做什么工作”和“完成什么任務(wù)”作為標(biāo)準(zhǔn),可以簡(jiǎn)單將其分為反應(yīng)式AI(分析型AI)和生成式AI。
反應(yīng)式AI根據(jù)預(yù)編程規(guī)則對(duì)不同類型的刺激做出反應(yīng),由于不使用內(nèi)存,所以無法通過新數(shù)據(jù)進(jìn)行學(xué)習(xí)。1997年擊敗國(guó)際象棋冠軍加里·卡斯帕羅夫的 IBM深藍(lán)超級(jí)計(jì)算機(jī)就是反應(yīng)式AI。
而生成式AI獲得了大量數(shù)據(jù)、信息,并且經(jīng)過了強(qiáng)化訓(xùn)練和深度學(xué)習(xí),以及類似于神經(jīng)網(wǎng)絡(luò)的反饋糾錯(cuò)機(jī)制,所以能完成很多工作,產(chǎn)生很多產(chǎn)品。用一句話概括其本質(zhì):根據(jù)用戶的具體需求創(chuàng)造新內(nèi)容。
從ChatGPT的全稱“Chat Generative Pre-trained Transformer(生成式預(yù)訓(xùn)練轉(zhuǎn)換器)”就能看出,它是一款可以自行生成許多內(nèi)容的AI,包括各類文本、文章、與人對(duì)話、翻譯、編寫代碼、繪畫、制作視頻等。
由于受各種因素的制約,ChatGPT生成的內(nèi)容也有不少錯(cuò)誤,尤其是關(guān)于社會(huì)、文化、人文、哲學(xué)、政治、經(jīng)濟(jì)和歷史方面的內(nèi)容。但是在自然科學(xué)領(lǐng)域,由于有公認(rèn)的定律和共同的認(rèn)知,如“原子是由帶正電的原子核和核外帶負(fù)電的電子構(gòu)成的”,ChatGPT生成的內(nèi)容出錯(cuò)率相對(duì)較少。
正因如此,雖然生成式AI在所有領(lǐng)域都有用武之地,但類似ChatGPT的生成式AI在自然科學(xué)領(lǐng)域的應(yīng)用更受青睞。生物醫(yī)學(xué)研究、醫(yī)療和生命科學(xué)都需要生成式AI,ChatGPT只是其中一種。
準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu):
可加快新藥和疫苗研發(fā)
目前,生成式AI在生物醫(yī)學(xué)領(lǐng)域的用途方興未艾。生成式AI不僅能分析成千上萬種蛋白質(zhì),還可以生成新的蛋白質(zhì),甚至是自然界從未出現(xiàn)過的蛋白質(zhì)。
過去,認(rèn)識(shí)和精確測(cè)定蛋白質(zhì)的構(gòu)型需要耗費(fèi)大量的時(shí)間和精力,還未必能測(cè)得準(zhǔn),給藥物、疫苗研發(fā)和疾病治療造成了阻礙。如果生成式AI的結(jié)果既準(zhǔn)確又快速,就可以知道一些病毒變異后的蛋白質(zhì)結(jié)構(gòu),如新冠病毒的S蛋白變異,從而加快研發(fā)新藥和疫苗的速度。
2020年,英國(guó)深度思考公司研發(fā)的阿爾法折疊2(Alpha Fold-2)有了驚人成就。這款生成式AI在2020年舉行的第14屆“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估”大賽中大放異彩。它測(cè)定的大部分蛋白質(zhì)結(jié)構(gòu)非常準(zhǔn)確,不僅與實(shí)驗(yàn)方法測(cè)得的蛋白質(zhì)結(jié)構(gòu)的精確度相同,還遠(yuǎn)超解析新蛋白質(zhì)結(jié)構(gòu)的其他方法。具體來說,阿爾法折疊2能在幾分鐘內(nèi)預(yù)測(cè)出一個(gè)典型蛋白質(zhì)的結(jié)構(gòu),并能夠在幾天內(nèi)生成高精度的結(jié)構(gòu)。2022年初,阿爾法折疊2又測(cè)出了2.2億個(gè)蛋白質(zhì)的結(jié)構(gòu),幾乎涵蓋了DNA數(shù)據(jù)庫中已知生物的所有蛋白質(zhì)。
2022年11月,Meta公司(前身為Facebook)奮起直追,其名為ESMFold的生成式AI軟件預(yù)測(cè)了約6億個(gè)蛋白質(zhì)的結(jié)構(gòu),這些蛋白質(zhì)來自細(xì)菌、病毒和其他尚未命名的微生物。雖然該軟件的準(zhǔn)確性不如阿爾法折疊2,但在預(yù)測(cè)結(jié)構(gòu)方面速度要快約60倍。
ESMFold的原理與ChatGPT基本相似,也是一種大型語言模型,只不過,訓(xùn)練它的內(nèi)容不是自然語言,而是生物基因語言,也就是通過堿基排列的順序和規(guī)律來檢測(cè)蛋白質(zhì)。
舉例來說,對(duì)于ESMFold的訓(xùn)練,是把已知蛋白質(zhì)的氨基酸序列“投喂”給它們,正如訓(xùn)練ChatGPT要把自然語言的詞語根據(jù)語法進(jìn)行“投喂”一樣。自然界的蛋白質(zhì)可以用20個(gè)不同的氨基酸鏈表示,每個(gè)氨基酸鏈由一個(gè)字母表示,這種訓(xùn)練使ESMFold對(duì)蛋白質(zhì)序列有直觀理解,并能理解蛋白質(zhì)序列包含的蛋白質(zhì)形狀信息。在這樣的深度學(xué)習(xí)之后,ESMFold學(xué)會(huì)了在氨基酸比例模糊的情況下“自動(dòng)補(bǔ)全”信息。
研究團(tuán)隊(duì)把ESMFold應(yīng)用于大規(guī)模測(cè)序的“宏基因組”DNA數(shù)據(jù)庫,這些DNA來自于環(huán)境,包括土壤、海水、人類腸道、皮膚和其他微生物棲息地。ESMFold通過算法,能結(jié)合蛋白質(zhì)結(jié)構(gòu)和序列之間關(guān)系的信息生成預(yù)測(cè)結(jié)構(gòu)。它總共預(yù)測(cè)了超過6.17億個(gè)蛋白質(zhì)的結(jié)構(gòu),只花了兩周時(shí)間。而且,在6.17億個(gè)蛋白質(zhì)測(cè)試中,超過1/3的預(yù)測(cè)是高質(zhì)量的,有數(shù)以百萬計(jì)的蛋白質(zhì)結(jié)構(gòu)是全新的。
自然界酶類從無到有:
人工酶氨基酸序列變化也無損活性
生成式AI的強(qiáng)大還體現(xiàn)在可以生成自然界中沒有的蛋白質(zhì)和物質(zhì),為人類的衣食住行生產(chǎn)、提供新原料和產(chǎn)品。
美國(guó)一家人工智能研究企業(yè)研發(fā)了另一種生成式AI,稱為人工酶人工智能系統(tǒng)ProGen。這是一種專門檢測(cè)酶(由活體細(xì)胞產(chǎn)生的一種特殊蛋白質(zhì),人體內(nèi)幾乎所有生化反應(yīng)都必須有酶參與才能完成)和生成酶的AI軟件。在實(shí)驗(yàn)室測(cè)試中,ProGen設(shè)計(jì)的一些人工酶與自然界中發(fā)現(xiàn)的酶一樣有效,即使其氨基酸序列與任何已知的天然蛋白質(zhì)存在顯著差異,也仍然有生物活性。
特定的蛋白質(zhì)各有其單獨(dú)的氨基酸排列順序。研究人員把1.9萬個(gè)酶家族的2.8億種不同蛋白質(zhì)的氨基酸序列輸入ProGen機(jī)器學(xué)習(xí)模型中,同時(shí)提供相關(guān)蛋白質(zhì)特性作為控制標(biāo)簽,然后讓系統(tǒng)花費(fèi)數(shù)周時(shí)間來“消化”這些信息。此后,研究人員再把信息收窄,使用來自5個(gè)溶菌酶家族的5.6萬種蛋白質(zhì)氨基酸序列,以及有關(guān)這些蛋白質(zhì)的一些信息來對(duì)模型進(jìn)行微調(diào)。
根據(jù)學(xué)習(xí)的內(nèi)容,ProGen迅速生成了100萬個(gè)蛋白質(zhì)序列,研究團(tuán)隊(duì)在其中選擇了100個(gè)進(jìn)行測(cè)試后發(fā)現(xiàn):來自5個(gè)溶菌酶家族的所有人工蛋白質(zhì)均顯示出活性,且73%具有抗菌功能,而在天然蛋白質(zhì)中僅59%具有抗菌功能。
更令人驚訝的是,在另一輪篩選中研究團(tuán)隊(duì)發(fā)現(xiàn),即使只有31.4%的序列與目前已知的天然蛋白質(zhì)相似,生成式AI設(shè)計(jì)的酶類依然顯示出了生物活性。與之相反的是,天然蛋白質(zhì)如果發(fā)生任何一個(gè)突變,都有可能失去生物活性。
這些研究結(jié)果總結(jié)起來,彰顯了三方面的意義:一是ProGen生成的人工蛋白質(zhì)不僅可以正確表達(dá),還展示出與蛋白質(zhì)天然折疊相類似的結(jié)構(gòu);二是AI生成的蛋白質(zhì)即便只有部分氨基酸序列與天然蛋白質(zhì)的序列相似,也具有生物活性,但天然蛋白沒有這個(gè)優(yōu)勢(shì);三是人工智能可以設(shè)計(jì)出在自然界從未有過的新物質(zhì)和新產(chǎn)品。
這意味著,如果采用生成式AI設(shè)計(jì)和生產(chǎn)蛋白藥物、食品及生物產(chǎn)品(如降解塑料的產(chǎn)品),會(huì)更快更有效,當(dāng)然其安全性還需通過進(jìn)一步的研究來檢驗(yàn)。換句話說,如果人工智能生成的蛋白質(zhì)能夠像自然生成的蛋白質(zhì)一樣,也意味著未來人工智能可以設(shè)計(jì)人類所需要的各類產(chǎn)品,首要的就是滿足人類生存的食物和藥品。
幫助診斷疾病和優(yōu)生:
最終結(jié)果仍需人類審核決定
現(xiàn)在,生成式AI已經(jīng)發(fā)展到通過圖像、血液、組織掃描結(jié)果,來檢測(cè)、診斷和預(yù)測(cè)心血管病、眼部疾病、糖尿病,以及結(jié)直腸癌、肺癌、乳腺癌、前列腺癌等多種癌癥。
心臟病是一類嚴(yán)重的心血管疾病。心電圖信號(hào)最常被用作篩查心臟病的工具。新加坡南洋理工大學(xué)等機(jī)構(gòu)的研究人員利用一種名為Gabor-CNN的人工智能機(jī)器學(xué)習(xí)算法設(shè)計(jì)出了一種生成式AI診斷工具,能模仿人類大腦的結(jié)構(gòu)和功能,使用心電圖診斷冠狀動(dòng)脈疾病、心肌梗死和充血性心力衰竭。試驗(yàn)結(jié)果顯示,這種人工智能有助于自動(dòng)識(shí)別健康人群和不同心血管疾病患者相關(guān)的心電圖信號(hào),其準(zhǔn)確率能超過98.5%。
癌癥同樣可以利用AI來診斷和治療。對(duì)于結(jié)直腸癌和乳腺癌,現(xiàn)在一般是通過觀察CT照片和組織切片來進(jìn)行診斷。中國(guó)中南大學(xué)等機(jī)構(gòu)的研究人員從中國(guó)、德國(guó)和美國(guó)的8803名受試者和13個(gè)獨(dú)立的癌癥研究中心收集了超過1.3萬張結(jié)直腸癌圖像,利用這些隨機(jī)選擇的圖像,研究人員構(gòu)建了一種AI軟件來識(shí)別結(jié)直腸癌的圖像。初步測(cè)試結(jié)果顯示,AI軟件能檢測(cè)出大部分結(jié)直腸癌圖片,堪比真正的病理學(xué)家,甚至在很多情況下表現(xiàn)得更好。當(dāng)然,最后的診斷還需經(jīng)過病理學(xué)家的把關(guān)和審查。
還有一個(gè)受到醫(yī)學(xué)關(guān)注的領(lǐng)域是不孕不育?,F(xiàn)代生活方式和環(huán)境變化造成約有15%的夫婦不育,其中精子質(zhì)量差是重要的原因之一。傳統(tǒng)的做法是對(duì)精子活檢來檢測(cè)質(zhì)量,但這個(gè)任務(wù)如果由AI來完成會(huì)更出色。
最近上海市第一婦嬰保健院研發(fā)了一種AI軟件,通過深度學(xué)習(xí)和算法,可以識(shí)別精子的“面部”和不同運(yùn)動(dòng)形態(tài)(類似于人臉識(shí)別),操作者只需通過電腦屏幕觀察即可。這套AI系統(tǒng)對(duì)3家醫(yī)院共1000份樣本進(jìn)行檢測(cè)的結(jié)果顯示,其準(zhǔn)確性與傳統(tǒng)方法相同。AI軟件大大縮短了整個(gè)檢查過程,僅需一個(gè)半小時(shí),而使用傳統(tǒng)方法需要大約一周時(shí)間才能拿到報(bào)告。
這樣的“智能”例子舉不勝舉。可以預(yù)想,人工智能的快速發(fā)展將會(huì)對(duì)許多領(lǐng)域造成沖擊,尤其是那些創(chuàng)造性較低且基于行業(yè)知識(shí)或訓(xùn)練就可以完成的工作,如客服、動(dòng)畫建模、美工、翻譯、低級(jí)代碼開發(fā)人員等。此次風(fēng)靡全球的ChatGPT讓我們看到,人工智能的發(fā)展有了質(zhì)的飛躍,預(yù)示了更多可能,但這種技術(shù)革新目前還只限于語言維度,并非主動(dòng)意識(shí),也不具備真正的創(chuàng)新能力,與科幻片中“人工智能取代人”的幻想相去甚遠(yuǎn)。
總之,無論AI應(yīng)用到了什么領(lǐng)域,最終所獲得的成果或生成的產(chǎn)品仍需由人來審核和決定,這才是對(duì)待AI的科學(xué)態(tài)度。
供圖:視覺中國(guó)