超大型儲存應用異軍突起!Ceph有機會翻轉雲服務與企業儲存架構
企業需要儲存的資料量日益增加,若全靠傳統的儲存設備來支撐,恐怕要花上不少錢,因此軟體定義儲存方案方興未艾,其中又以開放原始碼的Ceph最受矚目,許多雲端服務業者與企業都在採用
數位化浪潮席捲全球,全世界所需要處理的資料量自然跟著水漲船高,但目前已經發展到多驚人的地步呢?
根據儲存大廠EMC與市場調查機構IDC在2014年發布的數位世界調查統計報告,截至2013年為止,因為各種用途所產生的資料,已高達4.4ZB(相當於4兆4千億GB),到了2020年,他們預測資料量將成長到44 ZB(44兆GB)。而在4.4 ZB的資料當中,有三分之二的比例,約2.9 ZB是由個人產生,其他則為企業產生的資料量,也高達1.5 ZB,而在個人產生的資料量裡面,又有高達85%的比例、2.3 ZB,是企業同時會接觸到的。
因此,就算只看當前,企業各自所要處理的總體資料量相當驚人,就現有的IT基礎架構而言,能否支撐這樣的使用規模?而且,這些資料若要儲存下來,有辦法嗎?很多人第一個會想到的解法,是購置更多儲存硬體設備,例如,磁碟陣列、NAS,但如此龐大的成本,就算傾一國之力,也負荷不了。
因此,儲存系統的發展走向不同的路線,希望找出更多方法,以便提供兼具低成本、更容易管理、高可靠度等特性的儲存環境。
根據市場研究機構IDC的調查,2013年總體資料量為4.4 ZB,裡面有1.5ZB是企業所產生的,而其他2.9 ZB當中,又有2.3 ZB是企業能夠接觸到的資料量,因此與企業相關的資料,比例相當龐大,但接下來企業還要面對物聯網應用的爆發潮,未來的資料量成長將更為驚人。(圖片來源/EMC)
儲存系統過去以硬體設備為主,之後延伸出各種軟體化產品
以規模擴展的方式來說,就有了很大的變化。從過去注重集中於單一儲存設備的縱向擴展(Scale up),開始延伸出分散為多臺儲存設備的橫向擴展(Scale out)路線,因此出現了強調具有這類特性的儲存陣列與NAS。
此外,原本儲存系統的產品形式是以整合軟硬體的設備為主,後來也開始出現以軟體為主的解決方案。
以企業端環境來說,軟體化的儲存系統,先從儲存虛擬化(Storage Virtualization)的應用走紅──這類產品執行在x86伺服器之上,強調能將多種異質儲存系統虛擬化,把分散在多臺設備的儲存容量整合為單一儲存資源池。
之後,市面上又陸續出現了儲存虛擬層(Storage Hypervisor)的應用,跟儲存虛擬化的方式類似,但可從虛擬機器、Hypervisor層或儲存設備端,來集中管理分散的儲存資源。
到了最近幾年,隨著許多IT廠商提倡軟體定義式的資料中心、IT環境或基礎架構,軟體定義儲存(Software Defined Storage)正式浮上檯面,這次的重點不只是將儲存空間集中起來,同時,一些原本仰賴硬體儲存設備提供的存取功能,以及資料服務,也都改由軟體來全權提供與掌控。
目前的市面上,已經有出現不少企業級的軟體定義儲存產品。例如VMware去年推出的Virtual SAN,以及今年剛上市的Virtual Volumes,現有的儲存廠商當中,像是EMC的ViPR、ScaleIO,以及DataCore的SANsymphony-V、Nexenta的NexentaStor、HP StoreVirtual VSA等等,它們所提供的儲存環境,大多基於檔案系統或區塊式儲存(Block Storage)。
為什麼這些商用的軟體化產品會受到企業很大的歡迎?因為企業若要擴充儲存應用,除了繼續購買硬體儲存設備,還可以有更多的選擇,尤其是有了軟體化的儲存系統之後,企業就可以用一般通用的x86伺服器,即可建置所要的儲存環境,而不再像過去一樣,只能透過買一臺臺搭配專用硬體的儲存設備來擴充,所以能降低資料儲存成本。
企業除了需因應既有IT系統不斷成長的儲存空間需求,對於儲存非結構化資料的需求也日益增加,因此,物件式儲存(Object Storage)隨之受到重視,通常應用在各種監管資料的歸檔,像是金融財務、醫療照護與法律相關文件保存,也可以用在資料庫儲存、電子郵件歸檔、大型網站存放的各種數位內容、大量檔案儲存、視訊影音檔案儲存,或是資料備份,用途非常廣泛。
而關於物件式儲存環境的建置,也有不少廠商提供企業級產品,例如EMC有Isilon、Centera、Atmos、ViPR、ECS等儲存設備、軟體控制器,NetApp則有StorageGRID軟體,而HDS的HCP系列設備也能支援相關應用。
另一個熱中提供物件式儲存的領域,則是雲端服務業者的應用,像是AWS S3、微軟Azure Storage、Google Cloud Storage。此外,在開放原始碼軟體界也發展出不少選擇,像是OpenStack雲基礎架構套件當中的Swift、以及先後被Red Hat併購的GlusterFS和Ceph。
而在這些提供物件式儲存的雲服務和軟體當中,後勢最被看好的是Ceph,因為它不只是支援橫向擴展,本身可提供的儲存方式最為多元,可以同時支援區塊式儲存(Block Storage),以及檔案式儲存(File Storage),如此一來,Ceph的用途就很廣泛,不只針對雲端服務與應用程式搭配的物件式儲存,也可以因應一般伺服器主機、虛擬機器所要運用的區塊式儲存需求,若需要提供網路共用檔案和資料夾的存取能力,它也能支援NFS、CIFS網路儲存環境的使用。
2013年開始,Server SAN市場區分為兩大部分:企業級Server SAN和超大型(Hyper scale)Server SAN。前者代表企業需要支援多種混合式工作負載、文件管理、安全性和法規遵循;後者是由大型服務供應商所發展出來的市場,為的是滿足自身應用程式部署與執行需求。
資料來源:Wikibon Server SAN Research Project 2014,2015年7月 |
挾OpenStack建置比例持續成長之勢,Ceph聲勢水漲船高
由於能同時滿足多種儲存環境的需求,採用Ceph的用戶日益增加,尤其是想要運用OpenStack來建構雲環境的服務業者和企業。
因為在OpenStack的系統架構下,為了充分支援各式各樣的資料儲存應用,而發展了Cinder和Swift套件,分別對應區塊式儲存與物件式儲存,此外,提供運算服務的Nova套件與映像服務的Glance套件,也都需要儲存資料。
雖然這些儲存環境都可以搭配其他儲存系統或伺服器來提供,但基本上,大部分僅能支援區塊式儲存或物件式儲存,單靠一套系統架構能全部涵蓋到上述儲存需求的平臺,寥寥無幾,但Ceph正是其中之一,而且歷經十年的發展,成熟度足夠,所以特別受到OpenStack用戶的青睞。
因為,一旦搭配Ceph,用戶在整個OpenStack環境下,只需要面對單一儲存系統,而不是需同時處理多種。
而目前有哪些組織單位正在用Ceph?當中了包含大型網站、雲服務業者、企業。像是美國財經媒體彭博社,他們以OpenStack建構私有雲IaaS環境:Bloomberg Clustered Private Cloud時,當中搭配了Ceph儲存系統,由250臺以上的運算節點所組成,提供的容量高達PB。
另一個例子是時代華納有線電視公司(Time Warner Cable),他們也是在2014年建置OpenStack的初期,就開始採用Ceph作為區塊式儲存環境,以便搭配OpenStack的Cinder套件來使用,支援虛擬機器的不停機遷移應用,至今他們已經歷4次儲存容量擴展的作業。
阿拉巴馬大學伯明罕分校(UAB)對於Ceph的採用,則是較偏向學術研究應用需求的例子。他們有900多位研究員專攻癌症與基因體學領域,資料分散在筆電、USB硬碟、伺服器與高效能運算(HPC)的叢集內,想把資料集中到叢集內,會花太多時間,流量也會大到堵塞共用的網路,於是他們與Dell、Ceph先前的母公司Inktank合作,在2013年建置出一套基於OpenStack和Ceph的集中儲存環境,提供400 TB以上的儲存空間,每GB儲存成本只需0.4美元,日後容量可擴展到5PB。
UAB將資料遷移上去,並為HPC叢集建置了一個專用的10Gb的乙太交織網路(Ethernet Fabric),配置了12臺坐擁16核心的運算節點,每臺節點本身掛載了36TB的儲存空間。如此一來,他們可以運用虛擬化的伺服器和儲存系統,可因應HPC運算的需求,像是使用者能直接控制應用程式環境,想要動態地設立個別的測試、開發、上線環境,都較以往來得方便;若要存放研究用的資料,也有充裕的空間;而在這樣的架構下,能同時整合開放原始碼軟體、商用軟體,應用快速發展的雲端軟體工具和服務。
在電信業當中,也有採用OpenStack和Ceph的建置實例。像是歐洲最大的德國電信(Deutsche Telekom AG),採用OpenStack來建置內部的IaaS雲環境Wolke-7,初期用Ubuntu Cloud Archive的OpenStack版本,並以Inktank的Ceph版本設立了3臺儲存節點,共提供60TB容量,幾個月之後,又建立了新的OpenStack環境,當中有8臺Ceph節點,共提供312TB容量。
OpenStack與Ceph交互運作的架構
Ceph為OpenStack一個可統整多種儲存應用的基礎架構,透過單一系統架構,即可同時提供區塊式儲存、物件式儲存與檔案服務,又能兼具充分的橫向擴充規模特性。
資料來源:Red Hat,2015年9月 |
單純為了能儲存更多資料而採用Ceph的企業,也越來越多
Ceph多才多藝,能同時滿足多種大資料儲存的需求,然而,基於建置OpenStack的儲存環境,只是企業決定採用的原因之一,有不少公司是期望以成本較低、更有彈性的作法,來取得橫向擴充儲存容量能力,而導入Ceph。
就以Yahoo來說,今年4月,他們宣布在Flickr相簿服務當中,採用了名為Cloud Object Store(COS)的軟體定義儲存方案,當中用的技術就是Ceph。
這麼做,是因為Yahoo本身需要長期儲存的物件數量,超過2千5百億個,所占用的空間有0.5EB,然而,由於行動化應用的普及,導致他們所要儲存的圖片、視訊,以及負荷的使用者數量大幅激增,以目前而言,Yahoo對於物件儲存容量需求,每年的成長率高達20%到25%,整體而言,他們需要的儲存容量不僅相當驚人,而且還要設法持續擴充,才能支撐網站服務規模繼續發展。
初期,Yahoo將以此架構為基礎,將可提供資料儲存的容量提升到PB等級,今年,他們也計畫將COS的數量擴充到10倍之多,以擴大支援Flickr、Yahoo Mail電子郵件信箱,以及Tumblr網誌,屆時可提供儲存的空間,將上看數百PB。
另一個經典的例子,則是網站主機與雲端服務代管商Dreamhost,他們運用Ceph技術,在2012年推出一套名為DreamObjects的物件式儲存服務,當然這也跟Dreamhost創辦人Sage Weil有關,因為他同時是把Ceph開發出來的人。
早期Dreamhost也曾採用NetApp、Coraid SAN、昇陽Sunfire X4500、BlueArc等廠牌的儲存設備,後來則改用Ceph。
以DreamHost而言,目前上線提供的儲存容量已超過2PB,但還能夠再擴充上去。而就這套服務所提供的儲存容量租用費率來說,每月每GB可達到0.07美元的程度,價格相當具有競爭力,而這仰賴的是Ceph提供的橫向擴展儲存架構,以及大規模採用通用伺服器、大容量SATA介面硬碟的關係,而能夠進一步降低整體持有成本。
Ceph是OpenStack用戶最常搭配的區塊式儲存
近幾年來,OpenStack基金會在2月到10月之間舉行使用者大調查,而根據2014年的統計結果,在區塊式儲存的驅動程式這一項上,採用Ceph RBD(RADOS Block Devices)的比例居冠──37%用戶在上線環境採用,而有47%是在開發、品質測試環境搭配Ceph,在概念驗證階段建置Ceph的人,也有31%。而在2015年5月的使用者調查,在上線環境採用Ceph的比例,已經提升到44%,成長速度很快。
資料來源:OpenStack User Survey Insights: November 2014,2014年11月
OpenStack搭配的儲存系統比較表
資料來源:OpenStack Operations Guide,2015年9月
文章來源:http://www.ithome.com.tw/tech/98858
圖片來源: