讓效能翻倍 超高密度服務(wù)器應(yīng)用解析
發(fā)布日期:2016-06-29 15:41瀏覽次數(shù):
今天,無論是政府和科研機(jī)構(gòu)里的超級計(jì)算機(jī),還是大型互聯(lián)網(wǎng)公司的分布式服務(wù)器集群,抑或是服務(wù)億萬公眾的云計(jì)算數(shù)據(jù)中心,對計(jì)算資源的需求越來越高,用到的服務(wù)器數(shù)量越來越多。然而,大規(guī)模計(jì)算系統(tǒng)的應(yīng)用,卻面臨有限的機(jī)房空間、緊張的電力供應(yīng)、嚴(yán)格的散熱與節(jié)能環(huán)保要求、繁雜的管理維護(hù)工作以及有限的資金預(yù)算等多方面的限制。為此,從政府到工業(yè)界,從IT廠商到用戶機(jī)構(gòu),大家都在尋找行之有效的解決辦法。
在全球高性能計(jì)算領(lǐng)域,日本東京工業(yè)大學(xué)算是一位“老兵”了。早在2006年,該校就構(gòu)建了名為“TSUBAME Grid Cluster”的高性能計(jì)算系統(tǒng),在當(dāng)年全球高性能計(jì)算TOP500排行榜中名列第7位,也是當(dāng)年亞洲最快的超級計(jì)算機(jī)。過去四年來,TSUBAME承擔(dān)了日本工業(yè)界和學(xué)術(shù)界的許多科研項(xiàng)目,而且有一部分計(jì)算資源還開放給師生使用,因此也被譽(yù)為“大家的超級計(jì)算機(jī)”。
進(jìn)入2010年,TSUBAME面臨升級。而且,此番東京工業(yè)大學(xué)的目標(biāo)是構(gòu)建日本第一套世界頂級的超級計(jì)算系統(tǒng):2.4千萬億次(PFlops)的TSUBAME 2.0!根據(jù)2010年6月公布的TOP500排行榜,排名第一的是安裝在美國橡樹嶺國家實(shí)驗(yàn)室的CRAY Jaguar系統(tǒng),Linpack測試能是每秒1.75千萬億次。
不過,要構(gòu)建這樣一套超大規(guī)模的計(jì)算系統(tǒng),東京工業(yè)大學(xué)至少要克服三大挑戰(zhàn):
首先是空間有限。安裝TSUBAME 2.0的機(jī)房面積只有200平方米,要知道2009年中國最快超級計(jì)算機(jī)“天河一號”由103個機(jī)柜組成,性能1.206PFlops,占地面積達(dá)到近千平方米!可見TSUBAME 2.0對單位機(jī)器的計(jì)算密度要求相當(dāng)之高。
其次是電力有限。數(shù)據(jù)中心供電功率為1.8MW(1兆瓦=1000000W),比較而言,當(dāng)前全球最快的超級計(jì)算機(jī)CRAY Jaguar功耗大約是7MW,今年中國最快的超級計(jì)算機(jī)曙光“星云”也要2.55MW。因此,對TSUBAME 2.0來說,必須盡可能地提高每瓦特電能所產(chǎn)生的計(jì)算性能,即能效比。
第三是資金有限。預(yù)計(jì)搭建TSUBAME 2.0和未來四年運(yùn)行費(fèi)用合計(jì)在32億日元以下(按1日元 = 0.0814元人民幣折算,即2.6億元人民幣)。試想一下,如果使用普通的x86服務(wù)器作集群計(jì)算節(jié)點(diǎn),僅搭建成本就可能超過這一預(yù)算,而且如此大規(guī)模系統(tǒng)的運(yùn)行電費(fèi)和管理費(fèi)用也都是一筆不小的開支。
顯然,要構(gòu)建上述系統(tǒng),依靠傳統(tǒng)的技術(shù)方法是行不通的,必須采用新技術(shù)。實(shí)際上,東京工業(yè)大學(xué)在TSUBAME 2.0中采用了許多最先進(jìn)的技術(shù),包括最新的英特爾處理器技術(shù),SSD固態(tài)存儲技術(shù),GPGPU異構(gòu)并行協(xié)處理技術(shù)、最新的Infiniband和萬兆以太網(wǎng)連接技術(shù)、超可擴(kuò)展模塊化服務(wù)器節(jié)點(diǎn)技術(shù)等,以盡可能地提高系統(tǒng)的計(jì)算性能、計(jì)算密度和能源效率。作為TSUBAME 2.0系統(tǒng)的主體,1400多臺計(jì)算節(jié)點(diǎn)采用的是HP ProLiant SL390s G7超可擴(kuò)展系統(tǒng)。
HP ProLiant SL390s G7有兩種機(jī)型,雖然寬度都只有標(biāo)準(zhǔn)19英寸機(jī)架服務(wù)器的一半,但在高度上有1U和2U之分。其中,1U半寬的版本主要針對通用高密度計(jì)算,在相配套的4U高HP ProLiant s6500機(jī)箱里可以裝入8個這樣的雙路服務(wù)器節(jié)點(diǎn),即每U空間的計(jì)算密度增加一倍,甚至比當(dāng)前主流的10U16刀片服務(wù)器系統(tǒng)的密度還要高。而2U半寬的版本則專門針對需要GPU進(jìn)行協(xié)處理的用戶,如科學(xué)計(jì)算模擬,不僅支持兩顆CPU,還支持3塊最新的NVIDIA Fermi GPU處理器,從而實(shí)現(xiàn)CPU+GPU的異構(gòu)并行協(xié)同計(jì)算。
作為當(dāng)前最主流的高性能計(jì)算加速技術(shù),GPU的使用能數(shù)十倍、數(shù)百倍地提升系統(tǒng)計(jì)算效率,而且,在相同計(jì)算規(guī)模下,其硬件成本只是傳統(tǒng)CPU服務(wù)器機(jī)群的十分之一左右,同時能耗和占地空間可以節(jié)省90%以上。因此,對于希望在有限空間和電力條件下構(gòu)建超千萬億次計(jì)算系統(tǒng)的東京工業(yè)大學(xué)來說,GPU計(jì)算無疑是一條最有效的途徑。
TSUBAME 2.0使用了1400多臺HP SL390s G7作為計(jì)算節(jié)點(diǎn),每個節(jié)點(diǎn)可搭載兩顆英特爾六核至強(qiáng)5600 2.93GHz處理器(通過英特爾TurboBoost技術(shù)可將頻率進(jìn)一步提高至3.196GHz)以及3塊NVIDIA Tesla M2050 GPU(基于Fermi架構(gòu)),合計(jì)包含12個CPU核心以及1344個GPU核心(通用計(jì)算單元)??傮w計(jì)算下來,TSUBAME 2.0總共擁有17664個CPU內(nèi)核和189萬個GPU內(nèi)核,總運(yùn)算能力達(dá)到2391.35TFLOPS,其中超過90%的計(jì)算能力來自GPU,使其成為全球首臺以GPU為主要運(yùn)算能力來源的頂級超級計(jì)算機(jī)。