當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

「群體智能」劍指AGI革命!國產(chǎn)架構(gòu)挑戰(zhàn)Transformer霸權(quán),首款非Attention模型更新

 2024-09-30 11:47  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

通往AGI終極之路,是什么?

這世界,沒有一個(gè)完整的定義,也沒有具體的答案。

此前曝出的OpenAI秘密路線圖,將通往AGI目標(biāo)劃分五級(jí)。

而「草莓」o1模型出世,代表著第二級(jí)已經(jīng)實(shí)現(xiàn)。

李飛飛估值10億美金獨(dú)角獸World Labs,將「空間智能」看作通向AGI重要的橋梁。

他們計(jì)劃打造出「大世界模型」(LWM),通過對(duì)世界建模,讓AI在3D世界中去感知、去生成、去互動(dòng)。

國內(nèi)一家AI初創(chuàng)團(tuán)隊(duì),對(duì)此也有不同的看法。

他們認(rèn)為,「群體智能」是邁向更廣泛的通用人工智能的路線。未來,世界每個(gè)設(shè)備都擁有自己的智能,能夠以類人的方式交互。

不過,實(shí)現(xiàn)這一想法的前提是,我們需要一個(gè)創(chuàng)新的算法架構(gòu)。

值得一提的是,這個(gè)團(tuán)隊(duì)卻做了一件「反直覺」的事——首創(chuàng)非Transformer獨(dú)特路線。

基于全新架構(gòu),他們打造的Yan系列模型已經(jīng)植入到樹莓派、機(jī)器人、AIPC等終端設(shè)備中。

恰在RockAI開放日上,多模態(tài)模型Yan1.3全面升級(jí),直接擊敗開源Llama 3,「真端側(cè)」最強(qiáng)大腦誕生了!

模型端到端,秒級(jí)實(shí)時(shí)人機(jī)交互

全新迭代后的Yan1.3,支持從文本、音頻、視覺輸入,并以語音、文本方式輸出。

它模擬了人類復(fù)雜的感知系統(tǒng),既能聽懂自然語言、看懂視覺信息,也能通過語音方式表達(dá)。

可以說,它是全球首個(gè)人機(jī)交互領(lǐng)域中,端到端的多模態(tài)大模型。

憑借出色的架構(gòu)設(shè)計(jì),Yan1.3模型在兼容性和性能,取得了最優(yōu)的表現(xiàn),從低算力到高算力全面覆蓋。

在不同終端上的體驗(yàn),多模態(tài)Yan1.3更是實(shí)現(xiàn)了秒級(jí)實(shí)時(shí)響應(yīng)。

在CPU上秒級(jí)響應(yīng),GPU上更是有百毫秒級(jí)的人機(jī)交互,體驗(yàn)非常絲滑趕超云端的大模型。

不如一起來看看,Yan1.3在手機(jī)、PC、機(jī)器人、無人機(jī)上,如何無損部署的。

低配1500元可跑,真·AI手機(jī)來了

在人手一臺(tái)手機(jī)的時(shí)代,搭載一個(gè)本地的大模型,那才是真·AI手機(jī)。

現(xiàn)場(chǎng)演示中,離線部署Yan1.3 3B參數(shù)的手機(jī),直接斷網(wǎng),上演了不用聯(lián)網(wǎng)也能體驗(yàn)LLM的精彩一幕。

告訴語音助手RockAI自己的需求——介紹一下上海。它在遵循指令后,瞬間給出了關(guān)于上海的一些簡單概要。

它還可以跨應(yīng)用,完成系統(tǒng)的調(diào)用。

讓它打開相冊(cè),并找出一張夕陽的照片。

RockAI不僅準(zhǔn)確找到了夕陽照片,還給出了小紅書的風(fēng)格描述,這種費(fèi)腦的事兒,它全部代勞了。

更驚艷的是,告訴它今天是小明生日,并幫自己為其送上祝福。

RockAI直接進(jìn)入短信界面,自動(dòng)生成編輯了一段內(nèi)容,你所做的就是點(diǎn)擊「發(fā)送」了。

可見,一個(gè)30億參數(shù)離線模型,同時(shí)具備了以文找圖、以圖生文,Agent、語音助手等能力,強(qiáng)大到足以讓人震撼。

在同等的手機(jī)硬件配置上,Yan1.3模型相比Transfomer有30%的性能超越。

或許有的人會(huì)問,能夠運(yùn)行這樣的模型,一定需要高配的手機(jī)。

RockAI聯(lián)創(chuàng)鄒佳思稱,從低端¥1500到中端¥3000配置,而且還只是8G運(yùn)行內(nèi)存,都可以無損適配。

懂人話高效助手,AI PC更便利

不僅如此,在個(gè)人PC上,業(yè)界早就掀起了AI PC的概念。

但若是沒有在設(shè)備端完全部署模型,AI能力的使用會(huì)嚴(yán)重受限。而且,AI PC根本無法普及到大多數(shù)用戶。

接下來,這段現(xiàn)場(chǎng)演示中,直接為AI PC掐斷了網(wǎng)線。

上傳一段主持人的天氣預(yù)報(bào)音頻,然后AI智能助手將其實(shí)時(shí)轉(zhuǎn)錄成了文字。

轉(zhuǎn)寫完成后,還能幫你立即總結(jié)出一份摘要。

另外,每個(gè)人辦公時(shí)均會(huì)遇到一個(gè)困擾,「xxx圖片」誰知道保存到了哪個(gè)文件夾。

現(xiàn)在,這個(gè)煩惱完全可以打消了。

只要一句話,AI智能助手就能直接幫你找到想要的那個(gè)圖片。

而且,它還可以支持以圖搜圖的方式。

這些功能的實(shí)現(xiàn),僅需要一臺(tái)配備英特爾Core i5主機(jī)即可流暢運(yùn)行。

四步成詩,輕松拿捏新中式

Yan1.3還在人形機(jī)器人上,實(shí)現(xiàn)了離線運(yùn)行。

我們都知道,構(gòu)成機(jī)器人最核心的三要素,便是大腦、小腦、本體。

如果讓一個(gè)冰冷的機(jī)械,同時(shí)具備「看聽說想動(dòng)」的能力,并基于已有的知識(shí)完成決策,最后指揮肢體進(jìn)行行動(dòng)。

這樣的前提,一定是離不開大模型、分層控制算法的植入。

當(dāng)你呼叫小蘇小蘇,你看見了什么?

憑借強(qiáng)大的多模態(tài)認(rèn)知能力,它準(zhǔn)確地描述出了當(dāng)前周圍的環(huán)境和布局。

另外,Yan1.3「大腦」控制的軀體,還能完成各類高效復(fù)雜的任務(wù)。

現(xiàn)場(chǎng),讓小蘇吟詩一首——關(guān)于冬天的七言絕句,并在4步之內(nèi)完成。

只見小蘇一邊走,一邊完成了絕美的創(chuàng)作。

寒風(fēng)凌冽雪紛飛,萬物蕭疏鳥自棲。唯有梅花凌雪放,清香四溢滿庭芳。

有趣的是,當(dāng)小蘇吟詩后離拍攝者太近,讓它讓一讓。

只見,憨態(tài)可掬的它向另一邊慢慢踱步。

其實(shí),在今年世界人工智能大會(huì)上,搭載Yan模型,基于樹莓派打造的胖虎機(jī)器人就亮相了。

它在現(xiàn)場(chǎng)七步成詩、詠春拳法等各種精彩演示,吸引了一大波圍觀歪果仁觀看。

城市巡檢拍照,無人機(jī)全包了

而在無人機(jī)方面,搭載Yan1.3后的用法就更多了。

它不僅可以治安巡邏、交通巡檢,異常監(jiān)控,還可以當(dāng)那個(gè)為你抓拍美照的「男友」。

當(dāng)然了,智能巡檢這類任務(wù),對(duì)于一個(gè)城市管理來說非常重要。

植入離線模型的無人機(jī),可以從多方位感知環(huán)境,快速識(shí)別圖像信息,自適應(yīng)調(diào)整飛行高度。

它可以搭配手機(jī),完成「端」和「端」的互聯(lián)操作。

交通巡檢過程中,它可以智能識(shí)別違規(guī)車輛,并將信息傳送到手機(jī)上。

當(dāng)你自拍找不到滿意角度,直呼「飛龍,給我拍一張氛圍感滿滿的照片」。它一躍升天,拍下了多種角度的照片,通過對(duì)照片的多維度評(píng)分,還貼心地幫你選好了最美瞬間。

可見,全新升級(jí)的Yan1.3已經(jīng)賦予了每個(gè)端側(cè)設(shè)備「靈魂」。

它不僅在無人機(jī)、機(jī)器人、PC、手機(jī)等終端設(shè)備中,絲滑適配,而且模型智能能力迎來了全新升級(jí)。

無需閹割模型,讓端側(cè)設(shè)備具備了完整性、可持續(xù)性。

這種類人的輸入輸出過程,不僅大幅地提升人機(jī)交互的質(zhì)量,還為未來教育、醫(yī)療等行業(yè)開辟了更廣闊的應(yīng)用場(chǎng)景。

當(dāng)一個(gè)最強(qiáng)端側(cè)完成進(jìn)化,那么一群最強(qiáng)端側(cè)協(xié)作,能夠?qū)崿F(xiàn)什么?

簡言之,群體智能。

群體智能,怎么實(shí)現(xiàn)?

其實(shí),群體智能,很早就存在于生物界。

蟻群會(huì)一起搬運(yùn)食物、搭建蟻巢;蜜蜂會(huì)各司其職,協(xié)作維護(hù)蜂巢;狼群結(jié)隊(duì),捕獲獵物等等。

這些都是,生物界群體智能的體現(xiàn)。

縱觀生物界的發(fā)展,能夠得出一個(gè)基本規(guī)律——個(gè)體智能化程度越高,群體智能的表現(xiàn)力越強(qiáng)。

就像人類一樣,我們的群體智能,所表達(dá)出的文明程度遠(yuǎn)遠(yuǎn)高于蟻群、蜂群、狼群.......

從中汲取靈感,人工智能也會(huì)有「群體智能」。

單元大模型的智慧,能夠反哺整個(gè)大模型群體,進(jìn)而讓AI群體更聰明、更智能。

或許你會(huì)說,其實(shí)國外很多研究,早就通過多個(gè)智能體協(xié)作,實(shí)現(xiàn)了高性能群體智能。

其實(shí)不然,它們之間有著本質(zhì)的區(qū)別。

智能體本身,存在一個(gè)很大缺陷——不具備自主學(xué)習(xí)能力。

而且,智能體之間的協(xié)作,也是一個(gè)很小范圍的協(xié)作。

究其根本,是因?yàn)榛赥ransformer架構(gòu)大模型搭建的智能體,實(shí)現(xiàn)自我訓(xùn)練非常困難。

群體智能中最核心的要素便是個(gè)體,也就是「端」。

而基于Transformer架構(gòu)的模型,若想在端上運(yùn)行、并自主學(xué)習(xí),根本不可行。

因?yàn)槟P屯ǔ?huì)被量化裁剪壓縮之后,才會(huì)植入端設(shè)備。而被閹割之后的模型,就不再具備學(xué)習(xí)能力。

那該如何破解?

為了實(shí)現(xiàn)群體智能,RockAI經(jīng)過多年的技術(shù)沉淀,獨(dú)創(chuàng)了不同于Transformer的MCSD架構(gòu),并且提出了「類腦激活」機(jī)制。

這條路線,與OpenAI、World Labs有著本質(zhì)區(qū)別,是國產(chǎn)公司在AGI前沿另辟蹊徑的嘗試。

Transformer不是唯一路徑

當(dāng)前的現(xiàn)狀是,大模型領(lǐng)域早已呈現(xiàn)出Transformer「一家獨(dú)大」的格局。

用AI大神Karpathy的話說:最先進(jìn)的GenAI模型,要么是自回歸訓(xùn)練,要么是擴(kuò)散訓(xùn)練,底層的神經(jīng)網(wǎng)絡(luò)通常都是Transformer架構(gòu)。

雖然Transformer自身有許多優(yōu)秀的特質(zhì),但不可否認(rèn),這仍不是一個(gè)百分百完美的架構(gòu)。

甚至,有很多業(yè)界AI大佬已經(jīng)看到了其中的巨大弊端。

首當(dāng)其沖的,就是被詬病已久的幻覺問題。

Yann LeCun認(rèn)為,LLM的幻覺根源于當(dāng)前所使用的自回歸Transformer架構(gòu)。

「幻覺問題是自回歸LLM架構(gòu)特有的」「自回歸LLM會(huì)產(chǎn)生幻覺…幻覺是自回歸生成的本質(zhì)缺陷」

這種架構(gòu)上的本質(zhì)缺陷,注定了有一天我們要走出Transformer生態(tài),就像曾經(jīng)90年代末走出SVM生態(tài)、3年前走出BERT生態(tài)一樣。

就連提出Transformer核心架構(gòu)作者之一Aidan Gomez認(rèn)為,這世間需要比Transformer更好的東西,希望將其取代,把我們帶向更高的性能高地。

「現(xiàn)在使用了太多計(jì)算資源,做了很多浪費(fèi)的計(jì)算」

部署方面,基于Transformer架構(gòu)模型對(duì)終端設(shè)備運(yùn)行內(nèi)存、儲(chǔ)存空間提出了更高要求,同時(shí)壓縮后的模型,在實(shí)際推理上大打折扣。

能源方面,今年3月,馬斯克表示,2025年AI將耗盡電力和變壓器,用他的話來說,「很諷刺的是,我們需要transformers(變壓器)來運(yùn)行transformers(模型)?!?/p>

很明顯,無論是從減少幻覺、推動(dòng)技術(shù)進(jìn)步的角度,還是從環(huán)境保護(hù)、促進(jìn)GenAI發(fā)展可持續(xù)的角度,我們都急需一種能夠跳出Transformer「思維圈」的新架構(gòu)誕生。

國內(nèi)首個(gè)非Attention機(jī)制

RockAI首次提出的MCSD(Multi-Channel Slope and Decay)架構(gòu)就是跳出Transformer路線的一次絕佳嘗試。

而MCSD最大的特點(diǎn),便是替換了Transformer架構(gòu)中的注意力機(jī)制。

隨著序列長度的增加,Transformer架構(gòu)對(duì)計(jì)算資源的消耗呈現(xiàn)O(N^2)增長,相比之下,MCSD實(shí)現(xiàn)了線性擴(kuò)展,而且推理速度更快,將空間和時(shí)間復(fù)雜度分別降低到了O(1)和O(N)。

直白講,MCSD全新架構(gòu)能夠?qū)⑺懔ο慕抵粮汀?/p>

也就意味著,基于此架構(gòu)打造的模型,在端側(cè)設(shè)備上運(yùn)行有了新的可能。

論文地址:https://arxiv.org/abs/2406.12230

MCSD的具體架構(gòu)如圖1所示,由嵌入層和N個(gè)相同的組合層堆疊而成,每個(gè)組合層中由兩個(gè)殘差連接分別封裝MCSD塊和門控MLP塊,兩者都前置一個(gè)RMS歸一化模塊,并使用GeLU作為激活函數(shù)。

MCSD塊的內(nèi)部結(jié)構(gòu)如圖1(右)所示,集成了slope部分和decay部分,分別通過不同的預(yù)定義矩陣捕捉局部和全局特征。

兩個(gè)部分均采用了雙分支設(shè)計(jì),一個(gè)分支負(fù)責(zé)進(jìn)行線性投影,另一個(gè)通過聚合前面token的上下文信息來提取多通道歷史特征,之后兩個(gè)分支進(jìn)行擾動(dòng)(perturbation)操作。

slope和decay部分主要存在兩方面的區(qū)別,一是預(yù)定義權(quán)重不同,因此在提取歷史信息時(shí)對(duì)上下文的感知能力不同,前者更注重短程上下文,后者則更關(guān)注全局上下文。

將slope和decay兩部分的輸出進(jìn)行拼接后就得到了MCSD塊的輸出,這兩者的組合使得模型既能關(guān)注到距離更近的歷史信息,也不會(huì)丟失更遠(yuǎn)的長距離上下文,從而同時(shí)增強(qiáng)了局部和全局的特征提取。

此外,論文還提出通過遞歸形式簡化推理計(jì)算,將推理所用的空間和時(shí)間復(fù)雜度分別降低至O(1)和O(N),顯著壓縮了所需算力。

實(shí)驗(yàn)數(shù)據(jù)顯示,隨著序列逐步變長,KV緩存的存在讓Transformer推理的內(nèi)存成本呈線性增加;相比之下,即使是8k的長序列,MCSD消耗的GPU內(nèi)存也幾乎不變。

給定序列長度后,隨著批大小的增加,Transformer的延遲也會(huì)顯著增加,而MCSD的延遲則依舊十分穩(wěn)定。

此外,有相同批大小或序列長度時(shí),MCSD的吞吐量性能也遠(yuǎn)遠(yuǎn)好于Transformer架構(gòu)。

除了大大節(jié)約吞吐量、延遲、內(nèi)存消耗等方面的成本,MCSD還在基準(zhǔn)測(cè)試上有更佳的性能。

類腦激活機(jī)制

基于MCSD架構(gòu),RockAI實(shí)現(xiàn)了能在「端側(cè)」運(yùn)行群體智能單元大模型。

但這并不代表著,能夠在更多端側(cè)上實(shí)現(xiàn)最優(yōu)性能。

因此,RockAI還在Yan系列模型中采用了獨(dú)創(chuàng)的「類腦激活」機(jī)制,實(shí)現(xiàn)基于仿生神經(jīng)元驅(qū)動(dòng)的選擇算法。

在主流的神經(jīng)網(wǎng)絡(luò)中,每次推理都需要激活全部神經(jīng)元,這會(huì)導(dǎo)致大量算力浪費(fèi)。

而人腦的運(yùn)作并非如此。

不同的大腦區(qū)域負(fù)責(zé)不同的認(rèn)知功能,因此不同的執(zhí)行不同的任務(wù)只會(huì)造成一部分腦神經(jīng)元的激活,而且激活的區(qū)域也各有不同。

比如開車時(shí),視覺皮層會(huì)更加活躍;而寫作時(shí),掌管記憶或邏輯的腦區(qū)激活程度更高。這也許就是為什么,相比調(diào)動(dòng)每個(gè)處理單元的計(jì)算機(jī),大腦明顯更加「節(jié)能」。

因此,模擬大腦中的神經(jīng)元激活模式,可以讓神經(jīng)網(wǎng)絡(luò)更加高效地處理復(fù)雜數(shù)據(jù)和任務(wù),從而顯著提升計(jì)算效率和精度。

通過以上兩種方式結(jié)合,一是用MCSD替換注意力機(jī)制,而是通過選擇性神經(jīng)元計(jì)算,帶了極致低算力消耗。

正是基于如此強(qiáng)大的「雙機(jī)制」,RockAI在今年1月發(fā)布了國內(nèi)首個(gè)非Transformer架構(gòu)的大模型Yan 1.0。

隨之7月,發(fā)布了國內(nèi)首個(gè)終端多模態(tài)大模型Yan 1.2。

經(jīng)過幾次迭代,目前已經(jīng)升級(jí)為端到端的多模態(tài)Yan 1.3,代表著邁向群體智能的新起點(diǎn),是群體智能的單元大模型。

厚積薄發(fā),終極目標(biāo)邁向群體智能

要實(shí)現(xiàn)AI的群體智能,并不是一件簡單的事,提出MCSD架構(gòu)和「類腦激活」機(jī)制,只是一個(gè)開始。

為了達(dá)到群體智能,RockAI將這個(gè)大目標(biāo)分解為4個(gè)階段的子目標(biāo),一步步穩(wěn)扎穩(wěn)打。

目前,他們已經(jīng)跨越了第一級(jí),正在完成第二級(jí)的躍升。

創(chuàng)新基礎(chǔ)架構(gòu),是要跳出Transformer的既定路線,旨在實(shí)現(xiàn)模型性能效率的跨越式發(fā)展;

多元化硬件生態(tài),則是模型部署落地的根本保證,只有適配多終端、多廠商、多型號(hào)的硬件,形成成熟的生態(tài),才能為群體智能創(chuàng)造實(shí)現(xiàn)條件。

隨著Yan 1.3模型的發(fā)布和廣泛部署適配,意味著前兩個(gè)階段的目標(biāo)已經(jīng)基本實(shí)現(xiàn)。

從Yan 1.0到Y(jié)an 1.3,不僅覆蓋了更多設(shè)備,還實(shí)現(xiàn)了端到端的多模態(tài)支持。

輸入輸出形式包含了文本、語音、視覺在內(nèi)的多模態(tài),不但大大方便人機(jī)交互,還能讓多個(gè)AI模型之間更靈活地交流同步。

下一步,RockAI將繼續(xù)發(fā)布Yan2.0,繼續(xù)強(qiáng)化模型的自主學(xué)習(xí)、自我優(yōu)化能力,讓AI更好地和真實(shí)的物理世界交互。

在Yan系列智慧生態(tài)的基礎(chǔ)上,持續(xù)的群體進(jìn)化將成為可能,最終繪制出「群體智能」的未來藍(lán)圖。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦