向云過渡前,數據中心用戶真正應該關心的問題是什么?面對不同的服務需求,數據中心應該尋找什么樣的云技術. . .
向云過渡前,數據中心用戶真正應該關心的問題是什么?面對不同的服務需求,數據中心應該尋找什么樣的云技術進行改造?決定云計算數據中心效率、能耗、管理等問題的關鍵技術又有哪些?透過中國本土數據中心的云實踐,我們一起來尋找這些問題的答案。
“過去一年是激動人心的一年,云計算的發展和價值就像當年電冰箱、電視機面市后,電能所發揮的作用一樣。”在今年召開的中國云計算大會上,面對中國云服務的快速變化,阿里巴巴集團首席技術官王堅曾發出這樣的感慨。
2013年,中國云計算產業已進入成長期,基于云計算的由點到面的創新應用滲透到各個領域,金融、交通、電力、制造等產業紛紛觸“云”尋求突破,為物聯網與智慧城市應用展開的云計算數據中心建設如火如荼。從向亞馬遜看齊的阿里云、騰訊云的成熟,到云存儲、云制造、云管理服務的興起,再到政務云、教育云、金融云、城市管理云、醫療衛生云、位置服務云等一系列云應用的豐富,都顯現出中國云服務市場的巨大潛力和廣闊前景。據市場研究公司IDC的預測,2014年中國云服務市場規模將達到11億美元,未來4年還將以接近45%的復合增長率增長。
當下,越來越多的企業看到了云服務帶來的機遇與變革,但對于如何著手改造云服務的載體——數據中心,卻依舊有大量企業感到迷惑。不少CIO表示,他們對于數據中心的服務能力有明確的期望,但他們卻并不清楚如何確保云化后的數據中心能具備這樣的能力,為其所要承載的應用提供服務,并真正發揮云的作用。
向云過渡前,數據中心用戶真正應該關心的問題是什么?面對不同的服務需求,數據中心應該尋找什么樣的云技術進行改造?決定云計算數據中心效率、能耗、管理等問題的關鍵技術又有哪些?我們不妨一起從中國數據中心云實踐先行者們的經驗中,尋找這些問題的答案。
忽略這些,云計算將是一紙空談
2009年,為了“提升員工工作效率、幫助業務部門發展、提供靈活交付模式和支持新業務”,英特爾的IT部門開始在公司內部嘗試將其全球的數據中心逐步向私有云架構轉化。通過部署私有云,英特爾在這5年中節省了900萬美元的開支;將申請基礎設施服務所需的時間從14天縮短至45分鐘;在減少了40%設計用服務器的同時性能卻提高了5倍;讓80%的新服務都部署在了云中,并提供自助式服務。到目前為止,英特爾位于上海的紫竹數據中心的虛擬化程度已經接近75%,用于EDA設計的刀片服務器的使用率可達80%以上。
在短短幾年內,就能把支撐全球近2萬員工使用的復雜IT系統,在不影響業務的前提下轉化為高效的私有云,并將云的價值成功轉化為成本大幅降低、效率大幅提升的價值,英特爾在構建云的過程中,到底有什么訣竅呢?
“云計算的目的是要實現業務效率和用戶體驗的雙重提升,忽略了這兩點,云計算將是一紙空談。與此同時,有效實施對云的管理并根據行業性質的不同建立擁有不同安全等級的計算環境,是云計算部署的重要環節。”在談及英特爾建設私有云的經驗的時候,英特爾公司IT部門的介紹人曾經道出了這些基本原則。
基于其在數據中心建設和計算負載領域長期積累的經驗,英特爾IT部門制定了一個“平衡法則”——在改進計算負荷與減少資源消耗、實現管理需求與減少資本投資、穩妥發展與積極創新以提升競爭力之間盡量做到平衡。英特爾IT部門為此還制定了三大策略:一是持續優化數據中心,涵蓋了服務器、存儲、網絡、基礎設施等各個層面,讓其與業務發展相匹配;二是提高數據中心使用率,即通過業務優化和技術手段,盡量利用已有的基礎設施,減少資源投入;三是在兼顧本地需求的基礎上實施數據中心垂直整合的區域規劃策略。
在規劃數據中心時,企業常常習慣于先把主要精力放在研究云的技術架構上,例如如何實現虛擬化等,其實這是個誤區。企業數據中心向云轉化的過程,并不僅是IT基礎架構的變化,企業應該將其看做是IT服務方式的一種徹底改變。
傳統的數據中心更多是為了支撐企業業務,而云的核心價值卻遠不止于此,企業使用云的驅動力是提升業務效率和用戶體驗,支撐全球化、移動化的變革。所以,在規劃數據中心之前,恰恰是英特爾IT部門所考慮的基本原則、實施法則和策略等問題,從這樣的角度出發去思考數據中心的架構的改造,才可能做到在投資建設和技術選擇的方向上“不迷惑”、“不跑偏”。依據英特爾的經驗凝聚而成的“平衡法則”和三大實施策略,目前對所有正在計劃或構建私有云數據中心的企業而言,都是極具參考價值的。
過渡的關鍵:統一網絡架構
實現數據中心向云的過渡,不能只關心如何讓計算或存儲資源實現池化這樣的問題。因為虛擬化讓計算、存儲資源池化后,分配與交付這些資源,都要通過網絡實現。在這樣的數據中心里,網絡的功能已經發生了巨大的變化,它必須具備總線般的效率,才能順利交付云服務。所以,傳統數據中心向云轉化的過程中,網絡功能的轉化才是數據中心轉化的關鍵。
三年前,數據與存儲網絡融合的大趨勢開始改變數據中心。FCoE作為實現這種融合的關鍵技術被IT廠商大力推崇,英特爾還在Linuxs內核上實現了開源的FCoE,又進一步推進了這一技術在數據中心的廣泛應用。隨著萬兆以太網端口價格的下降,在國內不少用戶的云實踐中,一體化的網絡已經開始為云數據中心效力。
上海交通大學的數據中心在向云轉化的過程中,就啟用了數據與存儲網絡融合的方案,他們主要借助新興的FCoE技術實現了傳統FC存儲網絡向FCoE存儲網絡的平穩過渡。其經驗是:讓數據服務器區的Cisco Nexus 5500啟用FCoE功能,部分接口配置8G FC SFP模塊,SAN存儲系統選擇支持FCoE的NetApp FAS系列存儲系統。NetApp FAS和服務器的萬兆網卡接入Nexus交換機的萬兆接口,這樣在同一萬兆端口上,就可以同時支持FCoE、iSCSI和NAS協議,原有配置FC網卡的存儲設備和服務器接入到Cisco Nexus 5500的FC接口上,與FCoE網絡融合。NetApp FAS的FC接口接入現有的FC交換機,為原有的FC SAN提供存儲空間。考慮到各廠商的FC交換機有極強的排他性,上海交通大學沒有將原有的FC 交換機與Nexus 5500互連。在他們看來,隨著時間的推移,FC SAN 設備將自然被淘汰,數據中心將過渡到純FCoE存儲。預計未來兩年內,其數據中心將有一半以上的服務器會配置萬兆融合端口。
云化的數據中心之所以比以往更需要一個統一的網絡架構,主要是因為當虛擬化將數據中心變為云環境后,傳輸網絡和存儲網絡的異構會制造更復雜的流量。越來越多復雜的流量需要被管理,勢必會讓云變成一個低效系統。特別是隨著流量規模的增長,數據中心很難在不降低性能的前提下保證可用性。同時,異構的網絡在需要擴展的時候,也會帶來更高昂的成本。只有采用統一的架構,才可能實現通過簡化網絡架構、簡化運維提升效率的目標。
“軟件定義數據中心”的轉變
數據中心的云化為數據中心架構的設計帶來了一些新的問題:如果未來將這樣的數據中心推倒重來的可能性幾乎為零,那采用何種架構、何種技術才能讓其可持續發展?隨著數據中心傳輸、收集、匯總和分析的數據量不斷增長,網絡、計算和存儲面臨的新挑戰應該如何應對?
服務器虛擬化、存儲虛擬化和網絡虛擬化的技術演變,并不是偶然發生的。虛擬化讓IT基礎設施變為可彈性、靈活擴展的資源,它逐漸向人們證明:面對復雜多變的商業環境,以及互聯網的發展,企業業務的靈活應變能力只能基于可以靈活應變的IT基礎設施。數據中心的發展將以服務為導向,同時必須更易于管理和運營。
所以,云數據中心的發展目標是變成這樣的數據中心——軟件定義的數據中心,一個更靈活、更智能、效能不再被物理硬件所束縛的數據中心。數據中心的改造,必然是圍繞網絡、服務器和存儲的自動化流程的改造:網絡將向基于SDN的服務感知網絡演進,存儲將從存儲區域網絡共享向實現“存儲即服務”的云存儲演進,計算將演進為能根據負載需求獲得彈性的計算能力且必須保證安全、可信。
當然,這種改造方向也引發了一種新的設想,那就是未來數據中心會不會演變成計算、存儲、網絡資源的無縫整合?目前,英特爾正在進行這方面的探索。面向軟件定義數據中心,英特爾已經提出了一種新的架構——SDI(軟件定義的基礎設施),SDI的目標是讓未來的開放架構數據中心的IT資源從靜態走向動態,讓其管理從手動走向自動化。它的核心想法是讓計算、存儲、網路通過統一的計算架構實現效能釋放,不必再用各種優化技術去彌補不同架構造成的內耗。基于這種統一架構,云數據中心能更快、更高效地實現資源自動化配給能力和管理能力。
在大型云計算數據中心,對計算、存儲、網絡物理融合的改造已經開始了。最佳例證是英特爾的新一代機柜式架構(RSA),受到了百度、阿里巴巴、騰訊、中國電信等國內大型云計算數據中心建設者的重視。這種全新的機架結構,不再使用光纖通道、PCI-E端口或者iSCSI接口來連接每個機架內的存儲單元,而是通過使用英特爾高速硅光子技術連接每個機架內的存儲單元,動輒10萬以上服務器量的數據中心,可以大幅減少線纜的使用,降低成本。更關鍵的是,相對于傳統服務器架構,它能讓部署密度大幅提升,化解大型云計算數據中心遭遇的高密度部署難題。
該如何看待SDN
根據IDC的預測,在未來5年內,將有超過25億用戶連接到互聯網,使用的設備數量將超過100億。同當前的情況相比,預計到2015年,這一發展將需要8倍的存儲容量、16倍的網絡容量以及20多倍的計算容量。今天的數據中心建設者是否已經考慮到,這樣的壓力會給數據中心帶來怎樣的災難?在實現網絡一體化之后,網絡應該如何演進才能應對這樣的流量、數據的爆炸式增長?
阿里集團網絡數據中心資深專家龐俊英認為,云數據中心的網絡至少應該具有以下幾個特質:簡化的運營、快速部署的效率、標準化和綠色。為此,阿里云已經構建起了基于標準化的、模塊化的云數據中心網絡架構。
值得關注的是,今天阿里云已經把網絡看作是阿里奔向小康的“路”。為何阿里云對網絡有了這樣的認識?因為阿里云已經看到了SDN。在網絡融合之后,依靠SDN,阿里云將可以按照業務的需要自由定義網絡的能力,讓網絡效率完全釋放,為其業務提供高效的支撐。龐俊英明確表示,阿里云的數據中心正在嘗試借助SDN實現對業務的靈活支撐。SDN的價值已被眾多云數據中心的運營者所看好,例如世紀互聯就在構建基于SDN的運營模式。
在構建SDN網絡之前,目前也有很多數據中心用戶需要關注的技術和平臺。事實上,SDN將不再是網絡通信領域的問題。從技術本質看,SDN帶來的最大改變是將網絡控制功能從轉發數據包的網絡設備中分離出來,將控制功能植入在標準計算平臺運行的軟件中,所以計算平臺便成了決定SDN發展的一個關鍵點。
可以看到,目前網絡廠商主要在基于私有計算架構推廣SDN,用戶自主開發的難度比較大。為了支持SDN的發展,英特爾也推出了開放網絡平臺交換器設計架構、開放網絡平臺服務器設計架構,還推出了數據層開發套件(Intel Data Plane Development Kit,Intel DPDK),以驅動整個生態圈加速對SDN軟硬件產品的開發。據介紹,僅借助DPDK軟件庫,就可以將數據包處理性能最多提高10倍,讓服務器在處理數據包的同時還能通過英特爾處理器執行其他工作負載,最終降低硬件成本、簡化應用程序開發環境。在DPDK這類開發套件的幫助下,數據中心用戶開發基于SDN的新業務的時間可以大幅縮短。所以,目前DPDK也受到了不少SDN開發者的熱捧。
云需要的存儲
在云計算和大數據的需求下,如何對海量數據進行存儲、處理、利用,已成當今各行業共同探討的熱點問題。在高度虛擬化的環境中,計算的效率可以得到提升,但依舊用傳統、僵化的存儲架構處理數據,很難避免成本和時間雙失的局面。
業界大談的軟件定義的存儲的三個新特征——自動化分層、自動化數據管理和大規模可擴展能力,無非是為了讓數據存儲更適應云存儲和大數據的需求。
值得關注的是,傳統存儲系統面臨的很多問題,都可以在計算平臺的改進中得到解決。伴隨英特爾至強平臺為下一代存儲解決方案優化技術的出現,可橫向擴展的智能存儲方案已經對癥化解了不少面向大數據應用的存儲難題。例如通過自動精簡配置、重復數據刪除等方法,實現在數據寫入磁盤的時候分配空間,通過為冗余、重復數據建立索引等方式,解決磁盤空間的浪費問題,以適應業務對云不斷變化的需求。
面向大數據應用,英特爾還推出了很多智能存儲技術和工具,幫助企業減少需要存儲的數據量,改進使用數據的方式。例如對冷、熱數據的分流可以改善數據存儲的成本,針對Hadoop的優化大幅提升數據分析能力等。
此外,針對傳統硬盤高時延、高錯誤率等問題,英特爾正在推動固態硬盤技術的創新,以及這類存儲設備在云化數據中心領域的應用。隨著SSD設備價格的下降,一系列具備高帶寬、低時延、高IOPS的固態硬盤,將讓云的存儲問題得到徹底改善。
虛擬化與安全問題
在不少云數據中心的實踐中,高水平的服務器虛擬化并不多見。其實,除了虛擬化軟件提供的功能外,如果善于利用硬件平臺的虛擬化優化能力,虛擬化的效果可能會遠超你的預期。目前,基于多核英特爾至強處理器的服務器,英特爾提供了VT-x技術,可對32位、64位虛擬化環境提供支持。通過擴展核心平臺架構,英特爾虛擬化技術能幫助用戶填平當前虛擬化解決方案中鴻溝并消除障礙。這一架構擴展能實現的改進之一是:面向虛擬化軟件的全新更高特權 Ring (CPU 訪問特權等級),如果擁有更高的特權 Ring,就可以支持客戶操作系統和應用在適用的 Ring 中運行,同時確保虛擬化軟件對平臺資源具有特權控制。它能消除不少潛在的系統沖突,簡化軟件要求。
安全問題是懸在云服務頭上的一把利劍,因為云把企業的管理邊界擴展到了數據中心之外,讓傳統的保護數據中心數據、平臺的安全防護模式失去了作用。如何使云成為可信的系統呢?答案是構建可信的服務器資源池。
其實,企業可以使用虛擬化服務器的可信計算池在動態環境中建立信任,虛擬化服務器可由外部實體根據已知的可信簽名來建立信任。可信計算池可以在虛擬機轉移到平臺前為其提供一定程度的安全性,并支持可信計算池之間的虛擬機遷移。將那些敏感的工作負載放入可信計算池,就可以加強對這類工作負載的保護。
構建可信計算池是私有云實踐中實現安全性的重要部分,也是進行數據中心運營時保證安全性的必備措施。
“理論”造就的能耗管理誤區
數據中心的云化發展最不能忽視的問題就是——能耗管理對運營成本的影響。或許有人會問,高水平的虛擬化不就是解決能效問題的法寶嗎?理論上講,高水平的虛擬化確實可以幫助數據中心減少物理設備,從而減少能耗。但在數據中心里,這個理論卻很難實現。因為只是簡單地用更少的物理硬件設備封裝虛擬機,并不足以實現降低電費的目標。如果整合措施實施不當,數據中心的能耗甚至還會增加。
在云計算數據中心,減少能源使用和能源成本,并不與減少整體能源負載成正比。其原因在于:將物理服務器整合到一個虛擬平臺上后,轉移工作負載的過程會導致I/O能力的下降,從而引發性能的下降。當性能下降時,系統成功完成任務所需要的時長增加,能耗就會隨之增加。在國內,華勝天成等公司的云計算實踐都遇到過類似的問題。只有在計算性能提升,且I/O吞吐率也大幅提升的前提下,這樣的問題才能得到緩解。
英特爾上海紫竹數據中心在340平方米的空間內容納了330多臺服務器,但數據中心的PUE值卻可以降低到1.3。
英特爾成功提升能效的原因有二:一、新一代至強處理器本身在I/O和能耗方面的大幅改進,可以讓數據中心在提高虛擬化整合比例的基礎上,獲得能耗上的改進。華勝天成目前也在通過這一途徑解決其云計算數據中心的能效問題。二,英特爾對數據中心的散熱節能技術、手段進行了很多嘗試:他們將熱風道與冷風道隔離,對數據中心內的線纜布局進行了調整;在保證數據中心正常工作的前提下,將整體溫度從攝氏18度提升到了22度;大膽啟用自然風冷卻——在室外溫度低于18度時,就利用自然風來冷卻。
雖然隨著計算平臺的演進,在保持高性能的前提下,獲得能效收益并非不現實,但是大型數據中心卻不能僅依靠這種思路控制能效,英特爾認為只有基于策略的能耗管理方案才能為這種規模的數據中心快速帶來回報。據介紹,英特爾IT就在通過使用英特爾的智能功耗節點管理器和數據中心管理器,實現對單個服務器和服務器節點功耗的實時監視、控制。在運行I/O密集型工作負載的情況下,服務器能耗依舊可以降低20%。
在數據中心云化的過程中,企業會逐漸感受到計算、網絡、存儲技術的技術變革將為云帶來怎樣的效能。在可預見的未來,企業更早看清數據中心演進過程中必然會發生的變化,就更容易掌控數據中心的云能量。