克萊姆森大學(xué):高效運用海量計算資源
時間:2022-04-04 13:48:01 | 來源:行業(yè)動態(tài)
時間:2022-04-04 13:48:01 來源:行業(yè)動態(tài)
克萊姆森大學(xué)遺傳與生物化學(xué)系的Feltus實驗室,是一支由遺傳學(xué)家、計算機科學(xué)家、計算機工程師以及生物工程師組成的跨學(xué)科團隊。通過將軟件工程與計算生物學(xué)技術(shù)相融合,他們努力在人與植物生物系統(tǒng)內(nèi)做出更多重要的分子級科研成果。
Alex Feltus教授表示,該實驗室使用生物信息學(xué)、統(tǒng)計與數(shù)據(jù)科學(xué)方法發(fā)現(xiàn)各種模式。我們分析的生物學(xué)數(shù)據(jù)集一般在TB甚至PB級別,我們設(shè)計出經(jīng)過優(yōu)化的數(shù)據(jù)密集型計算工作流,確保數(shù)據(jù)能夠在各類計算平臺、包括多家商業(yè)云服務(wù)商提供的平臺上得到高效處理。
近年來,F(xiàn)eltus實驗室將工作重點放在了Kubernetes系統(tǒng)上的工作流當(dāng)中。Feltus表示,我們堅信,Kubernetes必將成為數(shù)據(jù)密集型計算的通用標(biāo)準(zhǔn)平臺,幫助我們將軟件工程工作集中在統(tǒng)一的架構(gòu)當(dāng)中。
如今,生物數(shù)據(jù)庫的體量正以幾何級數(shù)增長,而對數(shù)據(jù)集的深入挖掘有助于解決醫(yī)療及食品安全等重大挑戰(zhàn)。他提到,即使是小型生物學(xué)實驗室,也長期需要大量計算資源。研究人員很快就需要依賴千萬億次算力來解決各類生物學(xué)問題。好消息是,如今的商業(yè)云已經(jīng)能夠通過大型計算機等設(shè)備提供這種強大的算力,而Kubernetes集群已經(jīng)成為執(zhí)行大規(guī)模計算的絕佳平臺。
Feltus強調(diào),在遷移至云端之前,生物學(xué)研究人員需要注意使用更大眾化的、資源控制能力更強的云沙箱環(huán)境,確保只在這類環(huán)境下運行大規(guī)模設(shè)計與測試工作流。這是因為90%的科學(xué)實驗都不可能成功,如果不加控制,研究人員很可能在發(fā)現(xiàn)方向有誤之前就耗盡自己的資源預(yù)算。
Feltus實驗室還與其他多支研究小組開展合作,嘗試將內(nèi)部部署與云服務(wù)整合為統(tǒng)一的可擴展資源。在這方面,Kubernetes與容器技術(shù)同樣發(fā)揮著巨大的作用。Kubernetes與容器已經(jīng)成為計算生物學(xué)工作流的首選工程平臺,這些系統(tǒng)能夠幫助回避高性能計算環(huán)境中所固有的大量配置任務(wù)。
該實驗室還部署了思科容器平臺,用以幫助團隊在單一平臺上管理來自多家云服務(wù)商提供的多套集群。實驗室方面在Kubernetes集群上完成工作流測試之后,即可在多種商業(yè)云環(huán)境上運行容器化工作流。Feltus總結(jié)道,這極大簡化了最終用戶的培訓(xùn)需求,確保研究人員能夠?qū)W⒂诳茖W(xué)本身。