免费99精品国产自在现线观看_人妻少妇精品视频区性色_丝袜 屁股 在线 国产_无码视频在线免费观看

實(shí)現(xiàn)快速無(wú)監(jiān)督解析冷凍電鏡三維結(jié)構(gòu)的軟件—cryoSPARC(冷凍電鏡獲得三維結(jié)構(gòu)的原理)

撰文:王有望 李承珉

作者為中科院生物物理所朱平組在讀研究生。

一門偉大的科學(xué)技術(shù)想要造福全人類,需要通過(guò)很多科學(xué)家的努力來(lái)提升性能,減少成本,同時(shí)降低門檻,最終能讓一個(gè)非專業(yè)訓(xùn)練的人能用較少的資源獲得高性價(jià)比的成果。作為《自然·方法》(Nature Methods)盤點(diǎn)的2015年最受關(guān)注的技術(shù),冷凍電鏡(cryo-EM)三維重構(gòu)技術(shù)也不例外。冷凍電鏡方法早在1968年就開始發(fā)展,但是由于技術(shù)方法的瓶頸,一直只能做一些較低分辨率的結(jié)構(gòu)解析工作。近年來(lái),冷凍電鏡技術(shù)飛速發(fā)展,不斷突破,在分辨率上已經(jīng)開始可以和晶體學(xué)相媲美。而且,由于其不需要結(jié)晶,對(duì)樣品的均一性要求也相對(duì)較低,樣品用量少,可重復(fù)性較高,加上快速冷凍能使生物分子盡量保持其天然結(jié)構(gòu)狀態(tài),冷凍電鏡三維重構(gòu)技術(shù)已經(jīng)成為結(jié)構(gòu)生物學(xué)領(lǐng)域一顆亮眼的明星。

冷凍電鏡三維重構(gòu)技術(shù)革命性的突破主要來(lái)自兩個(gè)方面:一是直接電子探測(cè)器的發(fā)明,二是高分辨圖像處理算法的改進(jìn)。前者從硬件上讓電鏡的圖片質(zhì)量和信噪比有了質(zhì)的提升,將冷凍電鏡帶入了一個(gè)以電影的形式快速記錄電鏡圖像的新時(shí)代,后者則從軟件上將冷凍電鏡分辨率推入到了一個(gè)全新的高度,甚至讓高度柔性動(dòng)態(tài)的樣品的高分辨解析變得可能。

在直接電子探測(cè)器的幫助下,對(duì)于比較好的樣品,一般自動(dòng)收集1到2天的照片,就有可能獲得足夠解析到原子分辨率的優(yōu)質(zhì)數(shù)據(jù)。然而接下來(lái),對(duì)數(shù)據(jù)的分析與處理,可能要花費(fèi)一個(gè)專業(yè)人員數(shù)周以上的時(shí)間。對(duì)于一個(gè)包含數(shù)百萬(wàn)個(gè)顆粒,擁有多個(gè)構(gòu)像分子量較大的數(shù)據(jù),即使在高性能計(jì)算集群上,也可能要花費(fèi)超過(guò)50萬(wàn) CPU小時(shí)的時(shí)間。引入 GPU 加速技術(shù)是目前很多主流軟件的選擇,譬如Relion GPU版,在GPU的加速幫助下,已經(jīng)大大縮短了分析計(jì)算的時(shí)間與成本。相對(duì)以前的軟件需要的較多的人工干預(yù),Relion非常簡(jiǎn)潔,對(duì)電鏡新人非常的友好。事實(shí)上,相對(duì)簡(jiǎn)潔易用的Relion軟件及其采用的基于最大似然概率方法的三維分類技術(shù)正是冷凍電鏡革命性突破的重要推手之一。然而,即使是Relion的GPU版本,投入在分析計(jì)算的時(shí)間與資源,需要人工輸入以及調(diào)整的參數(shù)數(shù)量,以及對(duì)一個(gè)比較正確的初始模型的依賴,依然還有提升空間(圖1)。

實(shí)現(xiàn)快速無(wú)監(jiān)督解析冷凍電鏡三維結(jié)構(gòu)的軟件—cryoSPARC(冷凍電鏡獲得三維結(jié)構(gòu)的原理)
圖 1:RELION-2.0的計(jì)算流程。對(duì)顆粒進(jìn)行快速傅里葉變換,與模型的傅里葉變換的每個(gè)取向(包括三維空間的3個(gè)旋轉(zhuǎn)參數(shù)和平面內(nèi)的2個(gè)平移參數(shù))的切片進(jìn)行比對(duì),得出取向分布函數(shù),根據(jù)分布函數(shù)加權(quán)重構(gòu)出新的模型。

在2月6號(hào)在線發(fā)表的《自然·方法》上,來(lái)自多倫多大學(xué)約克大學(xué)的研究小組介紹了他們新開發(fā)的一款名叫cryoSPARC的軟件,用于快速無(wú)監(jiān)督的冷凍電鏡結(jié)構(gòu)解析(rapid unsupervised cryo-EM structure determination)。與Relion等目前主流電鏡軟件相比,cryoSPARC引入了兩個(gè)新的算法進(jìn)行改良。第一個(gè)是隨機(jī)梯度下降法(stochastic gradientdescent,簡(jiǎn)稱SGD),用于快速尋找低分辨率的三維模型,可以從電鏡數(shù)據(jù)上直接搭建初始模型。在冷凍電鏡三維重構(gòu)中,利用不同方法獲得一個(gè)相對(duì)比較正確的初始模型并輸入到Relion等軟件來(lái)進(jìn)行進(jìn)一步三維分類和重構(gòu)是一個(gè)較為常規(guī)的手段。而cryoSPARC則很好地集成了這個(gè)問題,不再需要人為去“告訴”以及干預(yù)它使用什么樣的初始模型。這樣也能比較好地避免人為給予的模型帶來(lái)的模型偏向(model bias)。事實(shí)上,開發(fā)者們對(duì)于這個(gè)算法帶來(lái)的優(yōu)化非常自信,以至于他們將這套軟件命名為cryoSPARC ,即“cryo-EM single-particle ab initio reconstruction and classification”的縮寫,翻譯成中文就是冷凍電鏡單顆粒從頭重構(gòu)和分類技術(shù)。第二個(gè)算法則是分支界限最大似然優(yōu)化法(branch-and-bound maximum likelihood optimization),用于改進(jìn)顆粒對(duì)齊方式,減少冗余計(jì)算,從而節(jié)約大量計(jì)算資源以及加速高分辨率的重構(gòu)步驟。Relion在這一步使用的是傅里葉空間的全局搜索和局域搜索結(jié)合的方式,先進(jìn)行全局的暴力搜索,找到顆粒的比較正確的空間參數(shù)后再進(jìn)行局域搜索,直到收斂。這種方法比較耗費(fèi)時(shí)間,一直是Relion的限速步驟之一。分支界限法的引入和加速,使得原本復(fù)雜費(fèi)時(shí)的冷凍電鏡三維重構(gòu)工作,現(xiàn)在有可能在相對(duì)簡(jiǎn)單配置的臺(tái)式工作電腦上很快地完成。

這兩大算法,并非研究者們?cè)瓌?chuàng)。SGD算法在深度學(xué)習(xí)領(lǐng)域,尤其是圖像識(shí)別與語(yǔ)音識(shí)別領(lǐng)域,應(yīng)用十分廣泛。SGD是針對(duì)非凸優(yōu)化問題比較常用的算法。冷凍電鏡單顆粒重構(gòu)正是一個(gè)典型的非凸優(yōu)化問題。它存在很多局域最優(yōu)解,如果初始條件給的不好或者稍微出現(xiàn)偏差,便很容易陷入局域最優(yōu)的狀態(tài)。這給高分辨結(jié)構(gòu)解析帶來(lái)了很大挑戰(zhàn)。SGD算法或許能帶來(lái)一個(gè)新的思路。就如同一個(gè)登山的游客想從山頂快速到達(dá)山腳,比較有效的一種方法就是他每到一個(gè)點(diǎn)都環(huán)顧四周,總可以找到某個(gè)方向是梯度最大的,也就是坡度最陡。就這樣,他總能找到一條路可以最快到達(dá)山腳。這便是經(jīng)典的梯度下降法。然而如果這個(gè)山山谷比較多(即非凸問題),他也很可能會(huì)因?yàn)檫@個(gè)方法陷入到某個(gè)山谷,而無(wú)法到達(dá)地面。隨機(jī)梯度下降則有可能會(huì)避免這個(gè)問題,他不會(huì)去測(cè)所有方向的梯度,而是每次隨機(jī)選擇某些方向,尋找梯度最小,到達(dá)新的位置后再隨機(jī)尋找新的方向,直至最后收斂。雖然迭代到最終收斂需要的次數(shù)會(huì)比傳統(tǒng)梯度下降法多,但是由于需要訓(xùn)練的數(shù)據(jù)少,可以大幅下降計(jì)算耗時(shí),而且多次重復(fù)隨機(jī),可以有效避免局域最優(yōu)問題。事實(shí)上對(duì)于非凸問題SGD算法也只能保證局域收斂,然而有意思的是,研究者們發(fā)現(xiàn)對(duì)于電鏡數(shù)據(jù),這種算法會(huì)有非常好的表現(xiàn)。

分支界限算法算法是一種在解空間樹上搜索問題解的方法,使用廣度優(yōu)先或最小耗費(fèi)優(yōu)先的方法搜索空間樹。假如你現(xiàn)在需要從一堆數(shù)中挑選最小的那一個(gè)。你可以對(duì)數(shù)據(jù)進(jìn)行分組,例如A和B。如果你能夠統(tǒng)計(jì)出A組的下界大于B組的某個(gè)值,那么你就可以放心大膽的將A組數(shù)據(jù)全部丟棄,然后對(duì)B組數(shù)據(jù)采用同樣的方法。和二分法有些相似。冷凍電鏡三維重構(gòu)中的三維精修過(guò)程中最消耗資源的步驟就是統(tǒng)計(jì)每個(gè)顆粒與三維模型的每個(gè)取向上的似然度,然后做出取向分布函數(shù)(也就是Expectation步驟)。顯然,如果對(duì)所有空間取向和所有傅里葉空間頻率進(jìn)行搜索是一個(gè)很巨量的計(jì)算任務(wù),而且有可能會(huì)因?yàn)轭w粒信噪比較低的原因,顆粒信息量的分配會(huì)出現(xiàn)錯(cuò)誤。分支界限法的關(guān)鍵是如何分組并得到一個(gè)下界,這個(gè)下界要易于計(jì)算并且能夠保證排除掉的一定不會(huì)存在最優(yōu)解。研究人員給出的方法的假設(shè)是:如果一個(gè)顆粒在低分辨時(shí)就無(wú)法與低分辨模型很好的匹配,那么這個(gè)顆粒在高分辨時(shí)也是無(wú)法對(duì)齊的。所以第一輪全局搜索只統(tǒng)計(jì)低分辨信息,隨后的搜索都是在局域完成的。這樣,整個(gè)Expectation的步驟就可以很快完成,三維分類和三維精修就得到了加速。

為了測(cè)試這兩大算法能否真正有效,研究者們對(duì)已發(fā)表的數(shù)套數(shù)據(jù)進(jìn)行了測(cè)試,包括嗜酸熱原體(Thermoplasmaacidophilum)的20S蛋白酶體,瘧原蟲(Plasmodium falciparum)的80S核糖體,以及amphipol-solubilized rat的TRPV1通道蛋白,以及嗜熱菌(T. thermophilus)的V/A-ATPase酶。測(cè)試工具僅僅是一臺(tái)配置了i7-5820K CPU處理器和一塊單獨(dú)英偉達(dá)特斯拉系列K40GPU顯卡的工作站。對(duì)于電鏡計(jì)算來(lái)說(shuō),這已經(jīng)是非常簡(jiǎn)陋的配置了。然而就是在這樣的配置下,研究者們花費(fèi)幾十分鐘或數(shù)個(gè)小時(shí),就可以完成整個(gè)重構(gòu)過(guò)程。而即使是Relion GPU版,完成相同任務(wù)也可能需要數(shù)倍甚至十倍的時(shí)間。圖二展示了他們測(cè)試使用的數(shù)據(jù),每一步驟的時(shí)間以及最終到達(dá)的分辨率。雖然他們很好的節(jié)約了計(jì)算時(shí)間與資源,但是在計(jì)算的準(zhǔn)確性上,絲毫沒有降低,反而還能得到一些更好的結(jié)果。譬如對(duì)35645個(gè)TRPV1的顆粒數(shù)據(jù)耗時(shí)66分鐘最終重構(gòu)結(jié)果為3.3埃,略高于已發(fā)表的3.4埃結(jié)果。有意思的是,對(duì)于嗜熱菌的V/A-ATPase的數(shù)據(jù),使用cryoSPARC分類重構(gòu),最終得到三類狀態(tài),分別為6.4埃,7.6埃以及7.9埃。而已發(fā)表的結(jié)果里,只得到了兩種狀態(tài),分辨率分別6.4埃和9.5埃。看來(lái)這種自主建初始模型的行為,可能對(duì)于分類會(huì)有不錯(cuò)的幫助(圖2)。

實(shí)現(xiàn)快速無(wú)監(jiān)督解析冷凍電鏡三維結(jié)構(gòu)的軟件—cryoSPARC(冷凍電鏡獲得三維結(jié)構(gòu)的原理)圖2:使用SGD算法和分支界限法的計(jì)算流程與耗時(shí)(ref.1)

雖然從研究者們測(cè)試的數(shù)據(jù)來(lái)看,集合了隨機(jī)梯度下降法和分支界限法的cryoSPARC軟件有著性價(jià)比極高的處理能力,然而在制約冷凍電鏡三維重構(gòu)的一些關(guān)鍵性問題上,譬如顆粒的取向優(yōu)勢(shì)和低信噪比等問題,并沒有表現(xiàn)的比Relion更加優(yōu)異。不過(guò)這掩蓋不了它的強(qiáng)大,特別是如果該軟件以后能在使用者自己的數(shù)據(jù)上有如同測(cè)試數(shù)據(jù)一樣優(yōu)秀的表現(xiàn)的話。借鑒使用別的領(lǐng)域成熟而且優(yōu)秀的算法是大勢(shì)所趨,尤其在人工智能深度學(xué)習(xí)快速發(fā)展的今天。相信在不遠(yuǎn)的未來(lái),隨著各領(lǐng)域的交叉融合,越來(lái)越多的不同領(lǐng)域的優(yōu)秀人員加入到電鏡技術(shù)的開發(fā)與研究,電鏡這門偉大的科學(xué)技術(shù)將為人類帶來(lái)更大的福利。

參考文獻(xiàn):

  1. Punjani A, Rubinstein JL, Fleet DJ & Brubaker MA. cryoSPARC: algorithms for rapid unsupervised cryo-EM structure determination.Nat Methods, 2017, doi:10.1038/nmeth.4169

  2. Nogales E &Scheres SH. Cryo-EM: A unique tool for the visualization of macromolecular complexity.Mol Cell, 2015. 58(4):677-89

  3. Kimanius D, Forsberg BO, Scheres SH,& Lindahl E. Accelerated cryo-EM structure determination with parallelisation using GPUs in RELION-2.Elife. 5: e18722. doi:10.7554/eLife.18722

  4. EDITORIAL, Method of the Year 2015,Nat Methods, 2016, 13(1). doi:10.1038/nmeth.3730

  5. Bottou L. Large-scale machine learning with stochastic gradient descent. InProc. COMPSTAT’2010 (eds. Lechevallier, Y. & Saporta, G.).177–186 (2010).

注:中國(guó)生物物理學(xué)會(huì)設(shè)有冷凍電鏡分會(huì)(全稱為“冷凍電子顯微學(xué)分會(huì)”, 原名為“生物超微結(jié)構(gòu)顯微成像專業(yè)委員會(huì)”),主辦過(guò)多場(chǎng)冷凍電鏡方面的高端學(xué)術(shù)研討會(huì),并打造了冷凍電鏡技術(shù)培訓(xùn)的系列精品課程。

2017年生物物理學(xué)會(huì)將繼續(xù)舉辦冷凍電鏡研討會(huì)及技術(shù)培訓(xùn)課程。有興趣者請(qǐng)關(guān)注生物物理學(xué)會(huì)官網(wǎng)或微信公號(hào) (ID: BPSC1979)。

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
在線咨詢
分享本頁(yè)
返回頂部