當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

FACEBOOK/谷歌/微美全息等AI深度學習+AR技術(shù)助力交互顯示擴展應用場景

 2020-07-30 11:54  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

通過 AR 的方式,人們可以更好的理解數(shù)物互聯(lián)帶來的價值,這種價值有很多可以想象的空間,比如說預測性的維護,遠程服務、遠程診斷,包括基于云的眾包產(chǎn)品研發(fā)體系等等。一旦把數(shù)字和物理世界打通,就會產(chǎn)生越來越新的應用場景。

盡管AR技術(shù)剛剛起步,但已有跡象表明其將成為主流,AR將深刻影響每個行業(yè)的企業(yè),在未來幾年,AR將改變我們學習、決策和與物理世界進行互動的方式。那么AR到底有什么用呢?說到這里就不得不提到,與AR一起近年來一起大火的人工智能。

所謂VR(虛擬現(xiàn)實),簡單來講就是身臨其境,把自己置身到另外一個虛擬的三維空間內(nèi),看到的場景雖然可能真實存在于另外一個空間,但眼前所見的都是假的。而AR(增強現(xiàn)實)則是真真假假,將真實的環(huán)境和虛擬的物體實時地疊加到同一個畫面或空間同時存在。

有數(shù)據(jù)顯示,到2020年的時候整個AR和VR的整個市場將會達到1500億,但是在整個市場里面AR,增強現(xiàn)實的市場是有1200億,VR的市場是300億,AR市場將是VR市場的4倍。

AR因其更強的實用性和廣泛的應用性得到各領(lǐng)域用戶的關(guān)注。事實上,AR技術(shù)正在逐漸滲入到智慧城市建設中的方方面面,在智慧城市的智能交通、智能教育、智能醫(yī)療、智能家居、智能旅游等諸多領(lǐng)域都實現(xiàn)著廣泛的應用,對推動以人為本、智慧參與的智慧城市建設起著重要的作用??碅R技術(shù)如何助力智慧城市的發(fā)展。

深度學習是機器學習的一個子類,即軟件試圖模仿大腦中用于模式識別的部分,它已經(jīng)對整個技術(shù)行業(yè)產(chǎn)生了巨大的影響,而這是推動AR行業(yè)向前發(fā)展的一個關(guān)鍵因素。計算機以人類無法模仿的速度執(zhí)行任務,但計算機處理和排序信息的方式永遠無法與人類相匹配。在AR領(lǐng)域,深度學習正被用于解決基于攝像機追蹤的檢測問題。這一點很重要,因為將來消費者會在智能手機以外的設備上追蹤攝像頭。由于增強對象是在不同的觀看條件下呈現(xiàn)的,包括不同的方向、規(guī)模以及光線條件,因此需要深度學習工具包在多個制造商的傳感器之間進行無縫整合。

深度學習是培養(yǎng)實時圖像識別和追蹤增強對象的關(guān)鍵,并為它們提供了真實的位置數(shù)據(jù)和特征。深度學習的潛在用途遠遠超過3D建模,后者是在智能手機屏幕上疊加虛擬數(shù)據(jù),就像我們在Pokémon Go中所看到的場景。深度學習成為主流的原因在于SLAM(同步定位和繪圖),它來自高層次的概述,被認為是為蘋果ARKit提供動力的主要技術(shù)。具體來說,VIO(視覺慣性測量)就是個簡單的SLAM系統(tǒng),它讓ARKit的功能更加精確。SLAM使用計算機視覺來創(chuàng)建一個空間的數(shù)字輪廓,并追蹤與物體相關(guān)的手機位置。隨著處理技術(shù)變得越來越便宜,摩爾定律將會繼續(xù)生效,SLAM的能力也會隨之提高。但秘訣在于軟件開發(fā)。在這方面,領(lǐng)先的公司專注于加速性能。

要成為一個世界級的AI力量,需要具備三點:最先進的算法、專用的計算硬件,以及機器學習系統(tǒng)所依賴的原材料——數(shù)據(jù)的大量供應。人工智能、機器學習、深度學習、自然言處理等先進技術(shù)帶來的產(chǎn)業(yè)革命和生產(chǎn)力的充分釋放,經(jīng)過多年的創(chuàng)新發(fā)展,人工智能讓智能設備逐步實現(xiàn)從認識物理世界到個性化場景落地的跨越。

在構(gòu)成人工智能行業(yè)主體的三類企業(yè)中,算法企業(yè)是推動核心底層技術(shù)發(fā)展的重要力量,其重要意義在于以算法突破工業(yè)界紅線,推動其真正達到工業(yè)界應用的KPI。這類企業(yè)實際上是推動當前人工智能核心底層技術(shù)發(fā)展的根本力量。從國外的巨頭微軟、谷歌、FACEBOOK等無不一一深耕超算,國內(nèi)的微美全息等科技企業(yè)也涌上潮頭,將超算能力和場景落地結(jié)合前行。

FACEBOOK

Facebook的一項類似研究就在CVPR公布。據(jù)了解,該研究的特點是將對象(主要以人為主)疊加到現(xiàn)有的圖片中,并且讓他們通過更逼真的視角和方式融合,看上去更自然。

雖然目前各種基于神經(jīng)網(wǎng)絡模型的人像生成工具,一種是在給定條件下生成圖像,另一種是讓算法從零開始,自由發(fā)揮生成一個高清且逼真的人像。Facebook表示,在兩者之中似乎還存在一個新的應用,那就是將給定圖像中的人像嵌入到包含其它人像的圖像中。

這個過程,需要生成一幅人像并嵌入到現(xiàn)有包含其它人像的照片中,而這個生成的人像在的質(zhì)量和原有圖像差別并不明顯,無論是清晰度和細節(jié)。而其中的幾個關(guān)鍵在于:人臉、衣服、頭發(fā)。

據(jù)了解,Facebook通過三個GAN完成整個過程:

第一個GAN基于現(xiàn)有被嵌入圖像中的人物之間以及人物與背景的上下文關(guān)系,并生成一副目標的人體姿勢;第二個GAN呈現(xiàn)出新的人物細節(jié),包括臉部細節(jié);第三個GAN對生成圖像的面部細節(jié)進行增強,保證人臉部分看上去足夠逼真。經(jīng)過測驗,Facebook表示第一步生成的虛擬人物姿勢和大多數(shù)自然的任務姿態(tài)幾乎相同,但是人物與人物之間的互動仍然是一個挑戰(zhàn)。

而該研究的應用,可以融入未來的AR/VR社交(遠程社交),或者其他AR衍生應用等場景。

微美全息:

而微美全息的全息AI云服務更是在行業(yè)中獨樹一幟。在現(xiàn)有的云服務市場中,科技巨頭占據(jù)多數(shù),構(gòu)建基于人工智能的云服務將成為巨頭的下一個主戰(zhàn)場。AI是信息基礎設施的一個升級,是今后產(chǎn)業(yè)發(fā)展的巨大引擎。巨頭都想把握升級過程中涌現(xiàn)的大量機會,賦能全行業(yè)。第二,開源是一種開放式創(chuàng)新。通過開源深度學習平臺,不僅可以吸引大量開發(fā)者,還可以為機器學習提供大量的數(shù)據(jù)支持,以及大量的現(xiàn)實場景。

無論是對軟件開發(fā)者的內(nèi)容生成解決方案,還是針對不同硬件設備的AR功能和服務解決方案,微美全息始終致力于通過領(lǐng)先的AI技術(shù)為客戶和產(chǎn)業(yè)進行賦能,并與國內(nèi)外領(lǐng)先的合作伙伴構(gòu)建完整的AR內(nèi)容及應用開發(fā)生態(tài),共同推動AR應用落地及發(fā)展。

微美全息科技已集全息AI云移動軟件開發(fā)商、處事商、運營商身份于一身,也成為海內(nèi)領(lǐng)先的全息AI領(lǐng)域整合平臺之一。在技術(shù)儲備上超過4654個全息內(nèi)容IP儲備,細分行業(yè)龍頭企業(yè)。各環(huán)節(jié)技術(shù)成熟,客戶數(shù)量為485,全息AR專利數(shù)為224,其中132項專利和92項待審批專利,技術(shù)方面日趨成熟。其商業(yè)應用場景主要聚集在家用娛樂、光場影院、演藝系統(tǒng)、商業(yè)發(fā)布系統(tǒng)及廣告展示系統(tǒng)等五大專業(yè)領(lǐng)域。

微美全息(WIMI.US)以“眼界即視界”為使命,公司建立了全球頂級、自主研發(fā)的深度學習平臺和超算中心,并且研發(fā)了一系列AI技術(shù),包括:人臉識別、圖像識別、文本識別、醫(yī)療影像識別、視頻分析、無人駕駛和遙感等。全息3D人臉識別軟件的開發(fā)基于微美的全息成像特征成像檢測和識別技術(shù)、模板匹配全息成像檢測技術(shù),以及基于深度學習和訓練的視頻處理和識別技術(shù)。傳統(tǒng)的2D面部識別技術(shù)是一種基于面部特征的識別技術(shù),它從面部圖像或面部視頻流中捕獲信息,并自動檢測和跟蹤目標面部;微美的全息3D面部識別技術(shù)是全息成像捕捉和3D肖像的結(jié)合的識別技術(shù)。

全息AR行業(yè)是技術(shù)密集型的。全息AR體驗只能通過硬件和軟件技術(shù)的結(jié)合來實現(xiàn),并且與全息AR相關(guān)的技術(shù)進步將把全息AR體驗帶入下一階段。例如,深度學習AI技術(shù)的突破將使全息AR設備能夠以更加無縫的方式集成由攝像機捕獲并由計算機模擬的內(nèi)容,從而為用戶提供更加身臨其境的體驗。此外,集成芯片的發(fā)展將使圖像處理器以更低的成本生產(chǎn),從而降低全息AR器件的銷售價格。5G網(wǎng)絡的廣泛采用將使本地設備和互聯(lián)網(wǎng)之間的實時數(shù)據(jù)傳輸成為可能,從而大大增強了內(nèi)容的多樣性。

谷歌:

谷歌一直是支持使用深度學習技術(shù)的一股強大力量。深度學習如今在前沿應用中非常普遍,它幾乎與人工智能是一個意思了。原因很簡單——它的效果明顯。運用深度學習,可以破解困擾數(shù)據(jù)科學家?guī)资甑碾y題,比如語音和圖像識別,以及自然語言生成問題。

2011年,谷歌成立谷歌大腦項目,這是他們首次公開對深度學習潛在可能性的探索。第二年,谷歌宣布他們已經(jīng)建立了一個神經(jīng)網(wǎng)絡,用來模擬人類的認知過程。這個網(wǎng)絡在16000臺電腦上運行,在學習了大約1000萬張圖像之后,它能夠成功識別出貓。

2014年,谷歌收購了英國深度學習初創(chuàng)公司DeepMind。DeepMind將現(xiàn)有的機器學習技術(shù)和神經(jīng)科學的前沿研究聯(lián)系起來,開創(chuàng)了一種新的研究方法,讓系統(tǒng)更精確,就像大腦一樣有了智力。

DeepMind研發(fā)出了Alpha Go,為了驗證算法執(zhí)行任務的能力,他們讓系統(tǒng)玩電子游戲,后來又讓系統(tǒng)下圍棋,在這個過程中他們發(fā)現(xiàn)系統(tǒng)的技術(shù)越來越高超。

谷歌在郵件服務中是如何使用深度學習的?

當證明了深度學習在實驗室和游戲競賽中很有效果之后,谷歌悄然將這項技術(shù)推向了更多的服務領(lǐng)域。

第一次實用是在圖像識別中,可以用它對谷歌索引出的互聯(lián)網(wǎng)上的數(shù)百萬張圖片進行分類。這樣做可以讓圖像分類更精確,從而為用戶提供更準確的搜索結(jié)果。

谷歌目前在深度學習的研究中,在圖像分析領(lǐng)域的最新突破是圖像增強。這包括重建或填充圖像中缺失的部分,這種功能是通過從現(xiàn)有的數(shù)據(jù)中推斷,以及利用學到的其他類似圖像實現(xiàn)的。

Google Cloud Video Intelligence向用戶開放視頻分析功能。用戶將視頻傳到谷歌服務器上之后,這個平臺可以對視頻的內(nèi)容進行分割和分析,可以自動生成摘要,如果視頻內(nèi)容有可疑之處,AI甚至還會發(fā)出安全警報。

語言處理是谷歌運用深度學習的另一個服務領(lǐng)域。谷歌AI語音識別助手運用深度神經(jīng)網(wǎng)絡來學習如何更好地理解語音指令和問題。谷歌大腦開發(fā)的技術(shù)已經(jīng)在這個項目中有所運用。

最近,谷歌的翻譯服務也運用了谷歌大腦開發(fā)的技術(shù)。在新的谷歌神經(jīng)機器翻譯系統(tǒng)上進行翻譯,可以將一切都任務都轉(zhuǎn)移到深度學習環(huán)境中。

另外,運用谷歌大腦的技術(shù),可以在Youtube上提供更多個性化的推薦。當我們在谷歌的服務器中瀏覽內(nèi)容時,它會監(jiān)控和記錄我們的瀏覽習慣。已經(jīng)有數(shù)據(jù)顯示,為用戶推薦他們想要看的視頻是提高用戶留存率的關(guān)鍵,留住了用戶之后就有源源不斷的廣告費了。深度神經(jīng)網(wǎng)絡能充分的用來研究和學習用戶的習慣和偏好,不斷推薦用戶喜歡的內(nèi)容。

總的來說,這一切加起來才是真正的沉浸式虛擬體驗,每個人都可以從各種設備中享受這些體驗。盡管在整個行業(yè)中,要想實現(xiàn)真正的AR未來還需要我們?nèi)〉酶筮M步,但許多偉大的公司和偉大的頭腦正在共同努力,使我們的夢想早日成為現(xiàn)實。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

熱門排行

信息推薦