1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

從數(shù)據(jù)到洞察,看杉巖對(duì)象存儲(chǔ)如何支撐新型數(shù)據(jù)湖

 2020-09-08 17:43  來(lái)源:互聯(lián)網(wǎng)  我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

傳統(tǒng)數(shù)據(jù)湖面臨性能挑戰(zhàn)

隨著數(shù)據(jù)分析和人工智能應(yīng)用的普及,企業(yè)數(shù)據(jù)量大增,創(chuàng)新業(yè)務(wù)層出不窮,企業(yè)對(duì)數(shù)據(jù)分析靈活性、性能和成本的要求越來(lái)越高,傳統(tǒng)大數(shù)據(jù)Hadoop系統(tǒng)搭建的數(shù)據(jù)分析平臺(tái)已無(wú)法滿足企業(yè)的要求。越來(lái)越多的企業(yè)以數(shù)據(jù)湖為基礎(chǔ)構(gòu)建大數(shù)據(jù)處理平臺(tái),數(shù)據(jù)湖的典型特征是存儲(chǔ)和計(jì)算分離,能夠降低系統(tǒng)成本同時(shí)獲得更好的系統(tǒng)擴(kuò)展性。

數(shù)據(jù)湖架構(gòu)使得企業(yè)可以在一份數(shù)據(jù)上拓展創(chuàng)新業(yè)務(wù),而不必每發(fā)展一個(gè)新業(yè)務(wù)就做一次數(shù)據(jù)拷貝,但傳統(tǒng)數(shù)據(jù)湖方案在性能上仍然存在明顯的缺點(diǎn),傳統(tǒng)數(shù)據(jù)湖依賴云存儲(chǔ),雖然降低了存儲(chǔ)成本,但在數(shù)據(jù)分析的過(guò)程中完全依靠云存儲(chǔ)自身的吞吐能力進(jìn)行數(shù)據(jù)掃描,這種方式只適用于ETL、批量計(jì)算等時(shí)延不敏感的應(yīng)用,卻無(wú)法支撐秒級(jí)數(shù)據(jù)檢索、時(shí)序數(shù)據(jù)分析等低時(shí)延的分析場(chǎng)景。

數(shù)據(jù)湖支撐大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)平臺(tái)

除了服務(wù)傳統(tǒng)的Hadoop/Spark大數(shù)據(jù)分析平臺(tái),數(shù)據(jù)湖還需要滿足AI算法的模型訓(xùn)練和推理、數(shù)據(jù)歸檔的需求,這要求存儲(chǔ)系統(tǒng)支持多種協(xié)議以提升處理效率。比如在自動(dòng)駕駛模型訓(xùn)練及分析場(chǎng)景中,車輛采集的視頻、雷達(dá)數(shù)據(jù)需要通過(guò)文件或?qū)ο蠼涌趯?dǎo)入存儲(chǔ),然后通過(guò)HDFS接口對(duì)數(shù)據(jù)預(yù)處理,預(yù)處理結(jié)果再通過(guò)文件接口由計(jì)算服務(wù)器進(jìn)行AI訓(xùn)練和高性能仿真,從而得到新的算法和模型進(jìn)行下一輪測(cè)試。這些需求不是單一的對(duì)象存儲(chǔ)或HDFS存儲(chǔ)能夠支撐的,需要更專業(yè)的存儲(chǔ)平臺(tái)提供服務(wù)。

杉巖數(shù)據(jù)的MOS海量對(duì)象存儲(chǔ)通過(guò)異構(gòu)納管的方式,可以整合管理已有的HDFS數(shù)據(jù)源和NAS數(shù)據(jù)源,通過(guò)混合云存儲(chǔ)方案,可以將存儲(chǔ)在公有云的數(shù)據(jù)也納入到MOS對(duì)象存儲(chǔ)池統(tǒng)一管理。杉巖數(shù)據(jù)近期發(fā)布的MosFS高性能數(shù)據(jù)湖文件網(wǎng)關(guān)在系統(tǒng)架構(gòu)中位于MOS對(duì)象存儲(chǔ)池之上,為Hadoop/Spark大數(shù)據(jù)分析平臺(tái)和TensorFlow/PyTorch/Caffe等機(jī)器學(xué)習(xí)平臺(tái)提供原生的HDFS接口、S3/OSS對(duì)象接口、POSIX文件接口。

圖1:數(shù)據(jù)湖文件網(wǎng)關(guān)架構(gòu)

MOS對(duì)象存儲(chǔ)和MosFS文件網(wǎng)關(guān)組合構(gòu)建的數(shù)據(jù)湖架構(gòu)為企業(yè)統(tǒng)一管理眾多的數(shù)據(jù)源,實(shí)現(xiàn)高性能存儲(chǔ)和數(shù)據(jù)治理提供了堅(jiān)實(shí)的基礎(chǔ)。

· 高效率的多數(shù)據(jù)源管理

MOS可以納管第三方的NAS存儲(chǔ)、對(duì)象存儲(chǔ)和HDFS數(shù)據(jù)源,并通過(guò)映射的方式對(duì)上層提供數(shù)據(jù)服務(wù),可以在現(xiàn)有的IT架構(gòu)中實(shí)現(xiàn)存儲(chǔ)系統(tǒng)的快速割接,漫長(zhǎng)的數(shù)據(jù)遷移可以在后臺(tái)異步執(zhí)行。統(tǒng)一管理的數(shù)據(jù)可以為多套平臺(tái)和應(yīng)用服務(wù),不需要多重復(fù)制,減少對(duì)存儲(chǔ)空間的需求。

· 內(nèi)容感知的多級(jí)緩存加速

機(jī)器學(xué)習(xí)平臺(tái)在模型訓(xùn)練中要求數(shù)據(jù)的超高吞吐量和超低延遲,MosFS可以和上層應(yīng)用聯(lián)動(dòng),通過(guò)標(biāo)簽感知與應(yīng)用關(guān)聯(lián)度高的數(shù)據(jù),機(jī)器學(xué)習(xí)平臺(tái)可以通過(guò)路徑、數(shù)據(jù)標(biāo)簽、多策略組合等方式得到相關(guān)性高的數(shù)據(jù)集。在實(shí)際運(yùn)行中,MosFS把上述數(shù)據(jù)映射成目錄,并通過(guò)內(nèi)存和SSD多級(jí)緩存來(lái)加速數(shù)據(jù)訪問(wèn)。比如在自動(dòng)駕駛的訓(xùn)練中,算法需要所有車輛在白天的四車道上捕獲的視頻和圖片,MosFS就可以通過(guò)這些數(shù)據(jù)特征對(duì)應(yīng)的標(biāo)簽,將MOS存儲(chǔ)資源池中的相關(guān)數(shù)據(jù)映射為一個(gè)目錄,并通過(guò)多級(jí)緩存提供給訓(xùn)練算法。

· 多策略數(shù)據(jù)映射簡(jiǎn)化管理

MosFS的數(shù)據(jù)映射能力實(shí)現(xiàn)了數(shù)據(jù)訪問(wèn)的虛擬化,并通過(guò)全局命名空間將數(shù)據(jù)呈現(xiàn)給上層應(yīng)用,基于時(shí)間、標(biāo)簽、文件名前綴等多粒度策略可以簡(jiǎn)化對(duì)數(shù)據(jù)的管理。

性能逼近本地全閃存的分布式數(shù)據(jù)湖文件網(wǎng)關(guān)

MosFS文件網(wǎng)關(guān)與MOS對(duì)象存儲(chǔ)可以合設(shè)也可以分離部署,為了滿足機(jī)器學(xué)習(xí)平臺(tái)超高吞吐量和超低延遲的性能要求,通常將MosFS分布式部署于計(jì)算服務(wù)器,在這種情況下,MosFS將計(jì)算服務(wù)器的本地預(yù)留內(nèi)存和SSD組成一個(gè)分布式的緩存層以加速訓(xùn)練。傳統(tǒng)分布式NAS作為機(jī)器學(xué)習(xí)后端存儲(chǔ)的方案具有成本高昂、數(shù)據(jù)與其它類型存儲(chǔ)不能互通等缺點(diǎn),數(shù)據(jù)管理復(fù)雜造成訓(xùn)練效率低下,相比而言MosFS的方案可以管理MOS、原有NAS和HDFS存儲(chǔ),統(tǒng)一所有數(shù)據(jù)視圖,且分布式數(shù)據(jù)緩存可以將訓(xùn)練效率提升多倍,性能接近于使用計(jì)算服務(wù)器的本地SSD。

圖2:數(shù)據(jù)湖文件網(wǎng)關(guān)分布式部署于計(jì)算服務(wù)器

HDFS協(xié)議增強(qiáng)實(shí)現(xiàn)大數(shù)據(jù)存算分離

HDFS作為傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)平臺(tái)在數(shù)據(jù)湖場(chǎng)景下面臨性能和成本的問(wèn)題。在實(shí)際應(yīng)用中,在10~20PB以上的數(shù)據(jù)規(guī)模下,HDFS的性能下降嚴(yán)重,另外HDFS基本只支持多副本的存儲(chǔ)模式,對(duì)糾刪碼的支持效果不佳。MosFS和MOS組合構(gòu)建的數(shù)據(jù)湖存儲(chǔ)兼容HDFS接口和S3協(xié)議,可以實(shí)現(xiàn)存儲(chǔ)和Hadoop計(jì)算平臺(tái)的分離,幫助客戶把HDFS的數(shù)據(jù)統(tǒng)一歸集到MOS存儲(chǔ)中,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理。MosFS提供的原生HDFS接口100%兼容主流平臺(tái),并在內(nèi)部實(shí)現(xiàn)了S3/OSS與HDFS接口協(xié)議的互通轉(zhuǎn)換,避免數(shù)據(jù)多次拷貝。

圖3:數(shù)據(jù)湖架構(gòu)實(shí)現(xiàn)存算分離

大數(shù)據(jù)分析和AI訓(xùn)練推理融合的需求越來(lái)越多,傳統(tǒng)的大數(shù)據(jù)存儲(chǔ)僅提供HDFS接口,大數(shù)據(jù)分析的結(jié)果如果用于AI訓(xùn)練,需要把數(shù)據(jù)拷貝到其它存儲(chǔ)中處理,導(dǎo)致數(shù)據(jù)分析整體效率的低下,也浪費(fèi)了存儲(chǔ)空間。杉巖新型數(shù)據(jù)湖架構(gòu)既能提供HDFS接口用于大數(shù)據(jù)分析,又能提供文件和對(duì)象接口用于AI訓(xùn)練推理,大數(shù)據(jù)分析結(jié)果可直接通過(guò)文件接口訪問(wèn),無(wú)需拷貝和等待,很大程度上提升了融合場(chǎng)景的大數(shù)據(jù)分析效率。

AI訓(xùn)練實(shí)踐案例

類腦智能技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室是由中國(guó)科技大學(xué)組建,由中科院、復(fù)旦大學(xué)、微軟、百度等機(jī)構(gòu)共同承建的國(guó)家工程實(shí)驗(yàn)室,中科類腦成立于2017年,是該實(shí)驗(yàn)室的產(chǎn)業(yè)化平臺(tái),通過(guò)搭建“先進(jìn)人工智能算法+公有計(jì)算云+私有部署云”的智能混合云平臺(tái),對(duì)外提供計(jì)算資源、人工智能技術(shù)、智能化解決方案等服務(wù)。

中科類腦開發(fā)的類腦云OS提供了大規(guī)模算力、數(shù)據(jù)和智能技術(shù),有效降低人工智能創(chuàng)業(yè)門檻,能夠促進(jìn)人工智能應(yīng)用生態(tài)的發(fā)展,賦能各行業(yè)完成智能升級(jí)轉(zhuǎn)型。目前該平臺(tái)已經(jīng)匯聚了180項(xiàng)AI前沿算法、100類通用數(shù)據(jù)集,具備豐富的平臺(tái)建設(shè)和行業(yè)落地經(jīng)驗(yàn)。

杉巖新型數(shù)據(jù)湖架構(gòu)已經(jīng)在類腦云OS得到應(yīng)用,根據(jù)中科類腦的訓(xùn)練方案,數(shù)據(jù)集分別放在本地SSD、分布式NAS存儲(chǔ)和杉巖MosFS+MOS上,性能對(duì)比測(cè)試結(jié)果表明,MosFS訓(xùn)練耗時(shí)與本地SSD接近,對(duì)比分布式NAS,MosFS在單GPU節(jié)點(diǎn)下讀取性能提升62.5%,雙GPU節(jié)點(diǎn)分布式訓(xùn)練的性能提升75.8%。集群規(guī)模越大,杉巖數(shù)據(jù)湖方案的性能越能得到體現(xiàn),表現(xiàn)出了優(yōu)秀的擴(kuò)展性。

圖4:本地SSD、MosFS、NAS的模型訓(xùn)練性能對(duì)比

小結(jié):智能應(yīng)用和大數(shù)據(jù)分析需要智能的新型數(shù)據(jù)湖

數(shù)據(jù)基礎(chǔ)設(shè)施正在走向智能和融合。數(shù)據(jù)湖如果不能實(shí)現(xiàn)有效的數(shù)據(jù)管理,就會(huì)變成“數(shù)據(jù)沼澤”,智能管理要求存儲(chǔ)提供多維度的檢索能力、生命周期管理能力以及數(shù)據(jù)可視化能力,實(shí)現(xiàn)數(shù)據(jù)的合理分類與管理,加速數(shù)據(jù)清洗、轉(zhuǎn)換、流動(dòng)的過(guò)程。存儲(chǔ)與計(jì)算架構(gòu)實(shí)現(xiàn)分離,結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存放在數(shù)據(jù)湖中,海量的數(shù)據(jù)得以在數(shù)據(jù)湖中實(shí)現(xiàn)融合,不同類型數(shù)據(jù)存儲(chǔ)的界限逐漸模糊。

人工智能和大數(shù)據(jù)分析應(yīng)用的融合使得一份數(shù)據(jù)能夠同時(shí)提供給多個(gè)計(jì)算及分析流程使用,新一代數(shù)據(jù)湖存儲(chǔ)平臺(tái)必須具備多源數(shù)據(jù)管理能力,包括混合云能力與異構(gòu)納管其它存儲(chǔ)的能力,以及可智能感知內(nèi)容的高性能多協(xié)議數(shù)據(jù)服務(wù)能力。新型數(shù)據(jù)湖架構(gòu)必將為數(shù)據(jù)分析和智能應(yīng)用的開發(fā)和運(yùn)行帶來(lái)巨大的便利,加快迭代分析過(guò)程,簡(jiǎn)化基礎(chǔ)設(shè)施需求,提供綜合的數(shù)據(jù)服務(wù)能力,方便人們高效率地提取數(shù)據(jù)價(jià)值。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
大數(shù)據(jù)

相關(guān)文章

  • 百望云獲評(píng)“中國(guó)大數(shù)據(jù)獨(dú)角獸” 數(shù)實(shí)相融 算啟未來(lái)

    隨著數(shù)字中國(guó)戰(zhàn)略的步步落實(shí),大數(shù)據(jù)已經(jīng)成為錨定戰(zhàn)略定位、搶得市場(chǎng)先機(jī)的重要基礎(chǔ)元素。為彰顯行業(yè)發(fā)展現(xiàn)狀,遴選、推薦優(yōu)秀企業(yè),長(zhǎng)城戰(zhàn)略咨詢近日在2023中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)期間,重磅發(fā)布《中國(guó)大數(shù)據(jù)獨(dú)角獸企業(yè)榜單》,根據(jù)獨(dú)角獸企業(yè)國(guó)家推薦性標(biāo)準(zhǔn),篩選出259家2022年中國(guó)大數(shù)據(jù)(潛在)獨(dú)角獸企業(yè)

    標(biāo)簽:
    大數(shù)據(jù)
  • 學(xué)術(shù)引領(lǐng) 數(shù)智健康:2023北京健康醫(yī)療大數(shù)據(jù)論壇六月北京盛大開啟

    2023年6月15日至18日,2023北京健康醫(yī)療大數(shù)據(jù)論壇、醫(yī)促會(huì)華夏健康數(shù)據(jù)與數(shù)字醫(yī)學(xué)高峰論壇、第三屆中華預(yù)防醫(yī)學(xué)會(huì)腎臟病預(yù)防與控制專業(yè)委員會(huì)學(xué)術(shù)會(huì)議將同期于北京舉行。論壇以“學(xué)術(shù)引領(lǐng)數(shù)智健康”為主題,著眼國(guó)家戰(zhàn)略需求,聚焦前沿科技在健康醫(yī)療領(lǐng)域的發(fā)展與實(shí)踐,薈萃全球頂尖學(xué)術(shù)觀點(diǎn),促進(jìn)多方跨界融

    標(biāo)簽:
    大數(shù)據(jù)
  • 擎起科技自強(qiáng)旗幟,引領(lǐng)產(chǎn)業(yè)智造未來(lái)——谷器數(shù)據(jù)入庫(kù)北京市科技型中小企業(yè)

    近日,北京市科學(xué)技術(shù)委員會(huì)、中關(guān)村科技園區(qū)管理委員會(huì)公示了北京市2023年第2批科技型中小企業(yè)名單,谷器數(shù)據(jù)借助優(yōu)秀的科技自主創(chuàng)新能力成功入選。此次評(píng)價(jià)指標(biāo)圍繞科研人員、研發(fā)投入、科技成果等三個(gè)維度,成功入選科技型中小企業(yè)是對(duì)谷器數(shù)據(jù)專業(yè)化發(fā)展、自主創(chuàng)新能力、產(chǎn)品技術(shù)實(shí)力的激勵(lì)與肯定??萍夹椭行∑髽I(yè)

    標(biāo)簽:
    大數(shù)據(jù)
  • 獲中國(guó)科學(xué)院褒獎(jiǎng) | 谷器數(shù)據(jù)產(chǎn)品榮膺2022年度最佳!

    評(píng)審寄語(yǔ)面向車間現(xiàn)場(chǎng)生產(chǎn)制造過(guò)程的數(shù)字化管理,谷器數(shù)據(jù)SupplyX·MES通過(guò)推動(dòng)更有效的工廠運(yùn)行和現(xiàn)場(chǎng)效率,提供從接收生產(chǎn)計(jì)劃到制成最終產(chǎn)品全過(guò)程的生產(chǎn)活動(dòng)實(shí)現(xiàn)優(yōu)化的信息,成為新型工業(yè)化的標(biāo)桿力量!近日,由中國(guó)科學(xué)院《互聯(lián)網(wǎng)周刊》、中國(guó)社會(huì)科學(xué)院信息化研究中心等機(jī)構(gòu)聯(lián)合主辦的“2023(第八屆)

    標(biāo)簽:
    大數(shù)據(jù)
  • 四方偉業(yè)優(yōu)秀的大數(shù)據(jù)產(chǎn)品和服務(wù)獲得了行業(yè)榮譽(yù)

    在如今這個(gè)數(shù)字化轉(zhuǎn)型時(shí)代,大數(shù)據(jù)在企業(yè)發(fā)展的過(guò)程中發(fā)揮了至關(guān)重要的作用,大數(shù)據(jù)技術(shù)以更高效和有效的方式提供最好的服務(wù),同時(shí)還可以提高生產(chǎn)力、提高客戶滿意度和更高效的智慧化運(yùn)營(yíng)。其中,成都四方偉業(yè)軟件股份有限公司(以下簡(jiǎn)稱“四方偉業(yè)”)以優(yōu)秀的大數(shù)據(jù)產(chǎn)品和服務(wù)獲得了多項(xiàng)行業(yè)榮譽(yù)。去年,2022數(shù)博會(huì)數(shù)