1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

國產(chǎn)數(shù)據(jù)庫硬核技術(shù)又破紀(jì)錄?

 2020-08-19 14:55  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

國產(chǎn)數(shù)據(jù)庫領(lǐng)域有人“破世界紀(jì)錄”了 ,創(chuàng)紀(jì)錄達(dá)7.6倍!

最近中國軟件網(wǎng)注意到一份數(shù)據(jù)庫前沿技術(shù)領(lǐng)域的測(cè)試報(bào)告——《TuGrpah基于LDBC-SNB的測(cè)試報(bào)告》。http://ldbcouncil.org/sites/default/files/LDBC_SNB_I_20200726_SF30-100-300_tugraph.pdf

這是國際圖數(shù)據(jù)非盈利組織針對(duì)國內(nèi)的一款圖數(shù)據(jù)庫產(chǎn)品發(fā)布的一份專業(yè)報(bào)告,是備受關(guān)注的圖數(shù)據(jù)庫領(lǐng)域的權(quán)威基準(zhǔn)測(cè)試報(bào)告。

就是在這份報(bào)告,費(fèi)馬科技用數(shù)據(jù)證明:他們公司推出的圖數(shù)據(jù)庫產(chǎn)品——TuGraph,在嚴(yán)格準(zhǔn)守LDBC-SNB規(guī)范中的測(cè)試中,比LDBC官網(wǎng)目前排名第一的圖數(shù)據(jù)庫產(chǎn)品要好得多。

報(bào)告結(jié)果顯示,TuGraph的得分接近或超過5000。這一結(jié)果遠(yuǎn)高于目前LDBC-SNB已經(jīng)公布的最高紀(jì)錄(由Virtuoso保持),約為當(dāng)前紀(jì)錄的7.6倍。

圖1. 審計(jì)測(cè)試成功的聲明頁截圖(含認(rèn)證審計(jì)員,LDBC SNB任務(wù)組主任和費(fèi)馬科技CTO的簽名)

數(shù)據(jù)庫一直是我國IT核心技術(shù)中內(nèi)心深處的痛。圖數(shù)據(jù)庫是數(shù)據(jù)庫領(lǐng)域非常重要的一個(gè)發(fā)展方向,也是很多新興數(shù)據(jù)庫廠商希望能成為獨(dú)角獸的土壤。正是圖數(shù)據(jù)庫、正是這個(gè)結(jié)果,引起了中國軟件網(wǎng)的關(guān)注。

關(guān)于LDBC與SNB測(cè)試

關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(huì)(LDBC,Linked Data Benchmark Council)是由廠商成員、非盈利組織成員、個(gè)人成員共同組成的,匯聚了各界圖數(shù)據(jù)領(lǐng)域的學(xué)者,共同推進(jìn)圖數(shù)據(jù)發(fā)展。就像TPC(Transaction Processing Performance Council,事務(wù)處理性能委員會(huì))是制定商務(wù)應(yīng)用基準(zhǔn)程序的標(biāo)準(zhǔn)規(guī)范、性能和價(jià)格度量,并管理測(cè)試結(jié)果發(fā)布的機(jī)構(gòu)。LDBC是圖(Graph)和RDF數(shù)據(jù)管理的基準(zhǔn)指南制定者與測(cè)試結(jié)果發(fā)布機(jī)構(gòu)。

社交網(wǎng)路基準(zhǔn)(SNB,Social Network Benchmark)是關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(huì)(LDBC)發(fā)布的基準(zhǔn)測(cè)試程序之一。它通過兩個(gè)典型場(chǎng)景來評(píng)價(jià)圖數(shù)據(jù)庫。這兩個(gè)場(chǎng)景分別是:

•交互場(chǎng)景(interactive), 事務(wù)查詢?nèi)蝿?wù)(transaction query workload),類似OLTP。

•商務(wù)智能場(chǎng)景(business intelligence),統(tǒng)計(jì)查詢?nèi)蝿?wù)(analytical query workload) ,類似OLAP。

目前,LDBC-SNB Benchmark(http://ldbcouncil.org/benchmarks/snb)是數(shù)據(jù)庫業(yè)界權(quán)威的衡量圖數(shù)據(jù)庫和圖數(shù)據(jù)管理系統(tǒng)的重要參照標(biāo)準(zhǔn)。LDBC采用開源的做法,遵循GPLv3。它的基準(zhǔn)(Benchmark)標(biāo)準(zhǔn)文檔,評(píng)估基準(zhǔn)要用到軟件和工具的源碼,以及問題跟蹤、技術(shù)文檔都發(fā)布在開源網(wǎng)站上。

關(guān)于測(cè)試過程

費(fèi)馬科技從測(cè)試環(huán)境準(zhǔn)備,測(cè)試數(shù)據(jù)生成和導(dǎo)入,測(cè)試?yán)绦颍≒lugins)的安裝和執(zhí)行,以及結(jié)果正確性的驗(yàn)證,整個(gè)過程由LDBC指定的第三方在亞馬遜公有云上進(jìn)行,過程中所使用的所有程序和腳本都是公開的,并且整個(gè)測(cè)試流程由第三方人員完成,保證測(cè)試過程的公正、公平、公開。測(cè)試結(jié)果和測(cè)試代碼需交由LDBC執(zhí)行委員會(huì)審核通過。

測(cè)試的目標(biāo)包括圖數(shù)據(jù)的數(shù)據(jù)加載速度,數(shù)據(jù)存儲(chǔ)規(guī)模,功能正確性和性能指標(biāo)。本次測(cè)試,費(fèi)馬科技用LDBC的數(shù)據(jù)生成工具(datagen)生成了SF30,SF100,SF300三個(gè)大小不同的數(shù)據(jù)集,分別代表大小為30G,100G和300G的社交網(wǎng)絡(luò)數(shù)據(jù),充分反映數(shù)據(jù)庫在不同數(shù)據(jù)規(guī)模下的表現(xiàn)的穩(wěn)定性。

下表列出了交互場(chǎng)景的測(cè)試結(jié)果,其中的吞吐率(OPS)的意思是每秒完成的操作次數(shù)。

表1. 不同數(shù)據(jù)規(guī)模SF30(30GB),SF100(100GB)和SF300(300GB)的測(cè)試結(jié)果

上表是交互場(chǎng)景(interactive)的測(cè)試結(jié)果,每項(xiàng)持續(xù)時(shí)間超過兩個(gè)小時(shí),操作數(shù)達(dá)到數(shù)千萬,而TuGraph在保證100%的查詢及時(shí)率的前提下,吞吐率達(dá)到5000上下,實(shí)屬不易。這里的查詢及時(shí)率指的是每一個(gè)查詢結(jié)果均能在給定的延遲要求里返回,院高于標(biāo)準(zhǔn)要求的95%,展現(xiàn)了TuGraph穩(wěn)定的運(yùn)行效率。就吞吐率而言,TuGraph為當(dāng)前紀(jì)錄的7.6倍,這在商業(yè)數(shù)據(jù)庫中非常難能可貴。

幫助銀行識(shí)別個(gè)人信貸詐騙團(tuán)伙

TuGraph的主要貢獻(xiàn)者之一,費(fèi)馬科技CTO朱曉偉是清華大學(xué)圖數(shù)據(jù)庫研究方向的博士。在朱曉偉看來,這是值得驕傲的成績。這表明費(fèi)馬科技在數(shù)據(jù)庫發(fā)展的最新前沿——圖數(shù)據(jù)庫方面走在了世界前列,將國內(nèi)自主研發(fā)的技術(shù),推向了世界。

更重要的是,正是有這樣突出的性能表現(xiàn),費(fèi)馬圖數(shù)據(jù)庫產(chǎn)品和技術(shù)為客戶創(chuàng)造了真正的價(jià)值,幫助客戶解決了一些長期以來難以著手的問題。

陳亮是沅啟融安的CTO。沅啟融安是一家專注于從事風(fēng)險(xiǎn)控制領(lǐng)域的專業(yè)咨詢與技術(shù)服務(wù)公司,他們的主營業(yè)務(wù)是為大型銀行風(fēng)險(xiǎn)管理部提供深度服務(wù)。

他向中國軟件網(wǎng)介紹了一個(gè)用圖數(shù)據(jù)解決的金融風(fēng)控場(chǎng)景——信用卡等銀行個(gè)人信貸團(tuán)伙詐騙。

詐騙團(tuán)伙會(huì)用非法渠道獲取的大量身份證向銀行提出信用卡申請(qǐng)。這些身份證所代表的人員信息銀行系統(tǒng)并不全部掌握,以致部分有潛在風(fēng)險(xiǎn)的申請(qǐng)會(huì)被銀行通過。詐騙者將通過的部分進(jìn)行提現(xiàn)或消費(fèi),但不還款。一旦出現(xiàn)這種情況,該項(xiàng)消費(fèi)大概率會(huì)成為銀行的壞賬。

為此,銀行的風(fēng)險(xiǎn)管理部門一直希望能有一項(xiàng)技術(shù),在信用卡申請(qǐng)時(shí),就能從申請(qǐng)時(shí)提交的相關(guān)信息中發(fā)現(xiàn)蛛絲馬跡,將這些具有詐騙意圖的人識(shí)別出來。

傳統(tǒng)基于關(guān)系型數(shù)據(jù)庫的分析方法一直沒有很好地解決這個(gè)問題。因?yàn)閭鹘y(tǒng)數(shù)據(jù)分析方法涉及的數(shù)量太大,算法也比較復(fù)雜,因此分析所需要的時(shí)間太長,無法在信用卡申請(qǐng)的時(shí)限內(nèi)完成分析。

為此,陳亮他們和費(fèi)馬科技一起,為銀行提供了一種特別有效的解決方案——基于圖數(shù)據(jù)庫和圖計(jì)算平臺(tái)進(jìn)行分析。

通過建立圖數(shù)據(jù)庫,并對(duì)圖數(shù)據(jù)庫進(jìn)行相應(yīng)的計(jì)算分析,可以對(duì)信用卡申請(qǐng)人的電話號(hào)碼、地址等信息進(jìn)行關(guān)聯(lián)和聚類分析。根據(jù)這些相關(guān)性,銀行可以從中會(huì)發(fā)現(xiàn)一些具有團(tuán)伙性質(zhì)的蛛絲馬跡。

相比傳統(tǒng)的數(shù)據(jù)分析方法,他們的系統(tǒng)效率提升了60倍,從原來的需要10個(gè)時(shí)到現(xiàn)在只用10分鐘解決,可用性大大增強(qiáng)。

一個(gè)空間巨大的市場(chǎng)

業(yè)界普遍認(rèn)為,對(duì)于圖數(shù)據(jù)庫和計(jì)算技術(shù)的研究,最早可追溯至20世紀(jì)四五十年代。但圖數(shù)據(jù)庫、圖計(jì)算逐漸進(jìn)入人們視野,則是因2010年谷歌發(fā)布的一篇圖計(jì)算論文引起。隨著數(shù)字經(jīng)濟(jì)的迅速發(fā)展,目前圖數(shù)據(jù)庫已進(jìn)入臨近爆發(fā)的前夜。

在這個(gè)全媒體社交、萬物互聯(lián)的時(shí)代,具有很多的應(yīng)用場(chǎng)景。例如,在金融領(lǐng)域,可用圖數(shù)據(jù)庫通過建立賬戶(客戶)的關(guān)系圖,根據(jù)其社會(huì)關(guān)系、交易情況,分析客戶的還款能力、還款意愿、抗風(fēng)險(xiǎn)能力等,提升金融行業(yè)小貸授信、信貸審核、貸后追蹤等風(fēng)控能力,并根據(jù)資金交易圖譜實(shí)現(xiàn)反洗錢、反欺詐等系統(tǒng)。在社交領(lǐng)域,人與人在線上和線下的聯(lián)系天然形成了一張圖,匯集海量的關(guān)系數(shù)據(jù)后,能夠做社區(qū)發(fā)現(xiàn)、輿論追蹤、用戶推薦等應(yīng)用;在電信領(lǐng)域,人與人的通信是一個(gè)非常強(qiáng)的聯(lián)系,通信的時(shí)間和頻率則代表了這種聯(lián)系的強(qiáng)弱。電信運(yùn)營商在通信圖上進(jìn)行拓展騷擾電話阻斷、經(jīng)營分析等業(yè)務(wù)……

根據(jù)Gartner研究報(bào)告,2019~2022年,圖數(shù)據(jù)庫市場(chǎng)將會(huì)以每年100%的增長率增長;而在過去的2018年,圖數(shù)據(jù)庫市場(chǎng)大概是5億美元,到2022年保守估計(jì)至少80億美元。

圖中可知,從2013年1月起至2020年8月,圖數(shù)據(jù)庫的發(fā)展一直屬于急速上升的模式??傻?,越來越多的人開始關(guān)注圖數(shù)據(jù)庫。數(shù)據(jù)來源:https://db-engines.com/en/ranking_categories

當(dāng)前,越來越多的應(yīng)用場(chǎng)景需要在海量異構(gòu)數(shù)據(jù)中提出復(fù)雜問題,使用現(xiàn)有的數(shù)據(jù)庫(比如關(guān)系型數(shù)據(jù)庫)實(shí)現(xiàn)相關(guān)分析是不切實(shí)際、甚至完全不可能的。而圖數(shù)據(jù)存儲(chǔ)可以跨越數(shù)據(jù)孤島、并有效地建模、探索和查詢數(shù)據(jù),能非常方便地解決這類問題。因此,圖數(shù)據(jù)庫的需求將會(huì)越來越多,但是目前擁有相關(guān)專業(yè)技能人才缺乏的限制了其采用。

巨頭還未全心入局,一場(chǎng)還未真正打響的戰(zhàn)爭

看上去的誘人前景,吸引了很多廠商殺入到圖數(shù)據(jù)庫市場(chǎng)。尤其是近幾年,新興廠商開始增多。

中國軟件網(wǎng)調(diào)查發(fā)現(xiàn),當(dāng)前圖數(shù)據(jù)庫領(lǐng)域主要有兩類提供商:一類是開源軟件,一類是新興公司,還有一些巨頭推出的產(chǎn)品。

從當(dāng)前的競爭態(tài)勢(shì)來看,目前處于剛起步的階段,還沒有形成穩(wěn)定的競爭格局。

但從業(yè)界口碑來看,已初步顯露出三大梯隊(duì)的態(tài)勢(shì)。

處在第一梯隊(duì)的是Neo4j和費(fèi)馬科技等新興公司。其中Neo4j是開源軟件,它當(dāng)前應(yīng)用最廣泛。費(fèi)馬科技成立時(shí)間相對(duì)較晚,但技術(shù)上更先進(jìn)。

第二梯隊(duì)的主要由JanusGraph等開源項(xiàng)目,以及Virtuoso等公司。這些公司往往都和圖數(shù)據(jù)庫領(lǐng)域知名的開源項(xiàng)目Titan相關(guān)。好多國內(nèi)外有圖數(shù)據(jù)庫產(chǎn)品的公司,最早的代碼都是源自于Titan。

第三梯隊(duì)的主要是一些巨頭推出的產(chǎn)品,以及一些初創(chuàng)公司。例如,百度、騰訊云、阿里云、華為、AWS等都有相關(guān)產(chǎn)品。這些巨頭或基于開源、或收購,或自己研發(fā)推出了一些產(chǎn)品,但基本上都屬于探索期,現(xiàn)在還沒有真正大規(guī)模投入。

國內(nèi)知名的數(shù)據(jù)庫廠商南大通用副總裁杜國旺在授受中國軟件網(wǎng)采訪時(shí)說,他非??春脠D數(shù)據(jù)庫市場(chǎng)的前景。他認(rèn)為,無論是圖數(shù)據(jù)庫廠商,還是依托圖數(shù)據(jù)庫提供知識(shí)圖譜等增值服務(wù)的廠商,都大有發(fā)展前途,完全有可能產(chǎn)生獨(dú)角獸。

不過,也有業(yè)內(nèi)人士對(duì)圖數(shù)據(jù)庫的前景不那么看好。例如,國內(nèi)大數(shù)據(jù)領(lǐng)域的知名專家、柏睿數(shù)據(jù)創(chuàng)始人劉睿民就告訴中國軟件網(wǎng),他不那么看好圖數(shù)據(jù)庫的市場(chǎng)潛力。他認(rèn)為,圖數(shù)據(jù)庫的應(yīng)用場(chǎng)景目前比較窄,有一定的市場(chǎng)空間,關(guān)系型數(shù)據(jù)庫仍然會(huì)占主導(dǎo)地位。

不過,記者發(fā)現(xiàn),不管未來市場(chǎng)容量有多大,圖數(shù)據(jù)庫都引起了國產(chǎn)數(shù)據(jù)庫廠商的深厚興趣,并開始了大量的探索與實(shí)踐。

費(fèi)馬科技在產(chǎn)品技術(shù)上的突破,讓我們看到了國產(chǎn)品牌在數(shù)據(jù)庫領(lǐng)域核心技術(shù)的希望。

費(fèi)馬科技官網(wǎng):https://fma-ai.cn/

作者:中國軟件網(wǎng) 曹開彬

編輯:費(fèi)馬科技

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
數(shù)據(jù)庫

相關(guān)文章