項(xiàng)目
資訊

熱搜項(xiàng)目：
2021創(chuàng)業(yè)項(xiàng)目加盟TOP10榜單

最新項(xiàng)目
招商合作
VIP特權(quán)

首頁(yè)

創(chuàng)業(yè)動(dòng)態(tài)

創(chuàng)業(yè)加盟

小程序
云服務(wù)
企業(yè)應(yīng)用
建站推廣
互聯(lián)網(wǎng)+
人工智能

創(chuàng)業(yè)經(jīng)驗(yàn)

創(chuàng)業(yè)故事

服務(wù)市場(chǎng)

創(chuàng)業(yè)項(xiàng)目加盟: 招商合作; VIP特權(quán); 最新創(chuàng)業(yè)項(xiàng)目; 創(chuàng)業(yè)項(xiàng)目排行榜

網(wǎng)站服務(wù): SEO診斷; SEO顧問

營(yíng)銷推廣服務(wù): A5全媒體平臺(tái); 品牌營(yíng)銷; 企業(yè)會(huì)員; 小紅書推廣; 快手信息流開戶; 云主機(jī)優(yōu)惠

投資融資

AI智能

前沿領(lǐng)域

晉升業(yè)內(nèi)新寵兒，MoE模型給了AI行業(yè)兩條關(guān)鍵出路

2024-07-15 09:51 來(lái)源：A5專欄我來(lái)投稿撤稿糾錯(cuò)

　域名預(yù)訂/競(jìng)價(jià)，好“米”不錯(cuò)過

文 | 智能相對(duì)論

作者 | 陳泊丞

今年以來(lái)，MoE模型成了AI行業(yè)的新寵兒。

一方面，越來(lái)越多的廠商在自家的閉源模型上采用了MoE架構(gòu)。在海外，OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架構(gòu)。

而在國(guó)內(nèi)，昆侖萬(wàn)維推出的天工3.0、浪潮信息發(fā)布的源2.0-M32、通義千問團(tuán)隊(duì)發(fā)布的Qwen1.5-MoE-A2.7B、MiniMax全量發(fā)布的abab6、幻方量化旗下的DeepSeek發(fā)布的DeepSeek-MoE 16B等等也都屬于MoE模型。

另一方面，在MoE模型被廣泛應(yīng)用的同時(shí)，也有部分廠商爭(zhēng)先開源了自家的MoE模型。前不久，昆侖萬(wàn)維宣布開源2千億參數(shù)的Skywork-MoE。而在此之前，浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等，也都紛紛開源。

為什么MoE模型如此火爆，備受各大廠商的青睞？在開源的背后，MoE模型又是以什么樣的優(yōu)勢(shì)使各大主流廠商成為其擁躉，試圖作為改變AI行業(yè)的利器？

MoE模型火爆的背后： 全新的AI解題思路

客觀來(lái)說，MoE模型的具體工作原理更接近中國(guó)的一句古語(yǔ)“術(shù)業(yè)有專攻”，通過把任務(wù)分門別類，然后分給多個(gè)特定的“專家”進(jìn)行解決。

它的工作流程大致如此，首先數(shù)據(jù)會(huì)被分割為多個(gè)區(qū)塊（token），然后通過門控網(wǎng)絡(luò)技術(shù)（Gating Network）再把每組數(shù)據(jù)分配到特定的專家模型（Experts）進(jìn)行處理，也就是讓專業(yè)的人處理專業(yè)的事，最終匯總所有專家的處理結(jié)果，根據(jù)關(guān)聯(lián)性加權(quán)輸出答案。

當(dāng)然，這只是一個(gè)大致的思路，關(guān)于門控網(wǎng)絡(luò)的位置、模型、專家數(shù)量、以及MoE與Transformer架構(gòu)的具體結(jié)合方案，各家方案都不盡相同，也逐漸成為各家競(jìng)爭(zhēng)的方向——誰(shuí)的算法更優(yōu)，便能在這個(gè)流程上拉開MoE模型之間的差距。

像浪潮信息就提出了基于注意力機(jī)制的門控網(wǎng)絡(luò)（Attention Router），這種算法結(jié)構(gòu)的亮點(diǎn)在于可以通過局部過濾增強(qiáng)的注意力機(jī)制（LFA, Localized Filtering-based Attention），率先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性，然后再計(jì)算全局關(guān)聯(lián)性的方法，能夠更好地學(xué)習(xí)到自然語(yǔ)言的局部和全局的語(yǔ)言特征，對(duì)于自然語(yǔ)言的關(guān)聯(lián)語(yǔ)義理解更準(zhǔn)確，從而更好地匹配專家模型，保證了專家之間協(xié)同處理數(shù)據(jù)的水平，促使模型精度得以提升。

基于注意力機(jī)制的門控網(wǎng)絡(luò)（Attention Router）

拋開目前各家廠商在算法結(jié)構(gòu)上的創(chuàng)新與優(yōu)化不談，MoE模型這種工作思路本身所帶來(lái)的性能提升就非常顯著——通過細(xì)粒度的數(shù)據(jù)分割和專家匹配，從而實(shí)現(xiàn)了更高的專家專業(yè)化和知識(shí)覆蓋。

這使得MoE模型在處理處理復(fù)雜任務(wù)時(shí)能夠更準(zhǔn)確地捕捉和利用相關(guān)知識(shí)，提高了模型的性能和適用范圍。因此，「智能相對(duì)論」嘗試了去體驗(yàn)天工3.0加持的AI搜索，就發(fā)現(xiàn)對(duì)于用戶較為籠統(tǒng)的問題，AI居然可以快速的完成拆解，并給出多個(gè)項(xiàng)目參數(shù)的詳細(xì)對(duì)比，屬實(shí)是強(qiáng)大。

天工AI搜索提問“對(duì)比一下小米su7和特斯拉model3”所得出的結(jié)果

由此我們可以看到，AI在對(duì)比兩款車型的過程中，巧妙地將這一問題拆解成了續(xù)航里程、動(dòng)力性能、外觀設(shè)計(jì)、內(nèi)飾設(shè)計(jì)、智能化與自動(dòng)駕駛、市場(chǎng)表現(xiàn)與用戶口碑、價(jià)格等多個(gè)項(xiàng)目，分別處理得出較為完整且專業(yè)的答案。

這便是“術(shù)業(yè)有專攻”的優(yōu)勢(shì)——MoE模型之所以受到越來(lái)越多廠商的關(guān)注，首要的關(guān)鍵就在于其所帶來(lái)的全新解決問題的思路促使模型的性能得到了較為顯著的提高。特別是伴隨著行業(yè)復(fù)雜問題的涌現(xiàn)，這一優(yōu)勢(shì)將使得MoE模型得到更廣泛的應(yīng)用。

各大廠商爭(zhēng)先開源MoE模型： 解決AI算力荒的另一條路徑

開源的意義在于讓MoE模型更好的普及。那么，對(duì)于市場(chǎng)而言，為什么要選擇MoE模型？

拋開性能來(lái)說，MoE模型更突出的一點(diǎn)優(yōu)勢(shì)則在于算力效率的提升。

DeepSeek-MoE 16B在保持與7B參數(shù)規(guī)模模型相當(dāng)?shù)男阅艿耐瑫r(shí)，只需要大約40%的計(jì)算量。而37億參數(shù)的源2.0-M32在取得與700億參數(shù)LLaMA3相當(dāng)性能水平的同時(shí)，所消耗的算力也僅為L(zhǎng)LaMA3的1/19。

也就意味著，同樣的智能水平，MoE模型可以用更少的計(jì)算量和內(nèi)存需求來(lái)實(shí)現(xiàn)。這得益于MoE模型在應(yīng)用中并非要完全激活所有專家網(wǎng)絡(luò)，而只需要激活部分專家網(wǎng)絡(luò)就可以解決相關(guān)問題，很好避免了過去“殺雞用牛刀”的尷尬局面。

舉個(gè)例子，盡管DeepSeek-MoE 16B的總參數(shù)量為16.4B，但每次推理只激活約2.8B的參數(shù)。與此同時(shí)，它的部署成本較低，可以在單卡40G GPU上進(jìn)行部署，這使得它在實(shí)際應(yīng)用中更加輕量化、靈活且經(jīng)濟(jì)。

在當(dāng)前算力資源越來(lái)越緊張的“算力荒”局面下，MoE模型的出現(xiàn)和應(yīng)用可以說為行業(yè)提供了一個(gè)較為現(xiàn)實(shí)且理想的解決方案。

更值得一提的是，MoE模型還可以輕松擴(kuò)展到成百上千個(gè)專家，使得模型容量極大增加，同時(shí)也允許在大型分布式系統(tǒng)上進(jìn)行并行計(jì)算。由于各個(gè)專家只負(fù)責(zé)一部分?jǐn)?shù)據(jù)處理，因此在保持模型性能的同時(shí)，又能顯著降低了單個(gè)節(jié)點(diǎn)的內(nèi)存和計(jì)算需求。

如此一來(lái)，AI能力的普惠便有了非?？尚械穆窂?。這樣的特性再加上廠商開源，將促使更多中小企業(yè)不需要重復(fù)投入大模型研發(fā)以及花費(fèi)過多算力資源的情況下便能接入AI大模型，獲取相關(guān)的AI能力，促進(jìn)技術(shù)普及和行業(yè)創(chuàng)新。

當(dāng)然，在這個(gè)過程中，MoE模型廠商們?cè)跒槭袌?chǎng)提供開源技術(shù)的同時(shí)，也有機(jī)會(huì)吸引更多企業(yè)轉(zhuǎn)化成為付費(fèi)用戶，進(jìn)而走通商業(yè)化路徑。畢竟，MoE模型的優(yōu)勢(shì)擺在眼前，接下來(lái)或許將有更多的企業(yè)斗都會(huì)嘗試新的架構(gòu)來(lái)拓展AI能力，越早開源越能吸引更多市場(chǎng)主體接觸并參與其中。

但是，開源最關(guān)鍵的優(yōu)勢(shì)還是在于MoE模型對(duì)當(dāng)前算力問題的解決?；蛟S，隨著MoE模型被越來(lái)越多的企業(yè)所接受并應(yīng)用，行業(yè)在獲得相應(yīng)AI能力的同時(shí)也不必困頓于算力資源緊張的問題了。

寫在最后

MoE大模型作為當(dāng)前人工智能領(lǐng)域的技術(shù)熱點(diǎn)，其獨(dú)特的架構(gòu)和卓越的性能為人工智能的發(fā)展帶來(lái)了新的機(jī)遇。不管是應(yīng)用還是開源，隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展，MoE大模型有望在更多領(lǐng)域發(fā)揮巨大的潛力。

MoE模型的本質(zhì)在于為AI行業(yè)的發(fā)展提供了兩條思路，一是解決應(yīng)用上的性能問題，讓AI有了更強(qiáng)大的解題思路。二是解決算力上的欠缺問題，讓AI有了更全面的發(fā)展空間。由此來(lái)看MoE模型能成為行業(yè)各大廠商的寵兒，也是水到渠成的事情。

*本文圖片均來(lái)源于網(wǎng)絡(luò)

此內(nèi)容為【智能相對(duì)論】原創(chuàng)，

僅代表個(gè)人觀點(diǎn)，未經(jīng)授權(quán)，任何人不得以任何方式使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

部分圖片來(lái)自網(wǎng)絡(luò)，且未核實(shí)版權(quán)歸屬，不作為商業(yè)用途，如有侵犯，請(qǐng)作者與我們聯(lián)系。

•AI產(chǎn)業(yè)新媒體;

•澎湃新聞科技榜單月度top5;

•文章長(zhǎng)期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能十萬(wàn)個(gè)為什么》

•【重點(diǎn)關(guān)注領(lǐng)域】智能家電（含白電、黑電、智能手機(jī)、無(wú)人機(jī)等AIoT設(shè)備）、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開發(fā)者以及背后的芯片、算法等。

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

相關(guān)標(biāo)簽: ai智能

相關(guān)文章

從“+AI”到“AI+”，時(shí)代進(jìn)入“Next Level”

“創(chuàng)新的速度比創(chuàng)新本身更重要?！卑Ｂ　ゑR斯克曾這樣說到。近日，由馬斯克所掌舵的特斯拉，在2024年世界人工智能大會(huì)上正式推出了第二代Optimus（擎天柱）人形機(jī)器人，距離第一代面世，僅過去9個(gè)月。加速升級(jí)的人形機(jī)器人不負(fù)所望，成了今年WAIC大會(huì)（世界人工智能大會(huì)）的一大看點(diǎn)。除此以外，今年的WA

標(biāo)簽：

ai智能
OpenAI這個(gè)盤，阿里云們能接得住嗎？

降價(jià)，搶客……國(guó)產(chǎn)大模型跑起來(lái)了

標(biāo)簽：

阿里云

ai智能
OpenAI斷供，國(guó)產(chǎn)大模型百億市場(chǎng)紛爭(zhēng)再起

北京時(shí)間6月25日凌晨，多個(gè)地區(qū)的OpenAI用戶收到了一封來(lái)自官方的郵件。郵件顯示：“您所使用的APl流量來(lái)自O(shè)penAl目前不支持的地區(qū)。我們將從7月9日開始采取額外措施，阻止來(lái)自不在我們支持的國(guó)家和地區(qū)列表中的地區(qū)的APl接口。”所謂的API，就是應(yīng)用程序編程接口。開發(fā)者通過使用OpenAI的

標(biāo)簽：

ai智能

大模型
如何加速AI原生應(yīng)用進(jìn)程？華為云開天aPaaS提出新范式

每一次新舊代際轉(zhuǎn)換時(shí)，都會(huì)上演這樣的一幕：“暢想很多，落地很少”，AI原生應(yīng)用似乎也不例外。關(guān)于AI原生應(yīng)用的呼聲已經(jīng)持續(xù)一段時(shí)間，但普通用戶對(duì)“AI原生”依然陌生。除了新業(yè)態(tài)普及的周期性，AI原生應(yīng)用的爆發(fā)與否還涉及另一個(gè)議題，即怎么降低AI原生應(yīng)用開發(fā)的難度和門檻。剛剛結(jié)束的華為開發(fā)者大會(huì)202

標(biāo)簽：

ai智能
搞AI？中小企業(yè)拿什么和大廠拼？

近期，蘋果發(fā)布M4芯片，號(hào)稱“比當(dāng)今任何AIPC的任何神經(jīng)引擎都強(qiáng)！”緊隨其后微軟攜“Copilot+PCs”的概念加入AIPC激戰(zhàn)。截至目前，包括聯(lián)想、惠普、華為等多家主流PC廠商在內(nèi)，已經(jīng)至少推出了超50款A(yù)IPC產(chǎn)品。AI重塑行業(yè)的機(jī)遇，誰(shuí)都不想錯(cuò)過。對(duì)于企業(yè)來(lái)說，能否積極擁抱AIPC十分關(guān)鍵

標(biāo)簽：

ai智能

“創(chuàng)造市場(chǎng)”與“算法進(jìn)化”，中美AI競(jìng)速的岔路口

“人工智能的商業(yè)模式，是要?jiǎng)?chuàng)造一個(gè)市場(chǎng)，而非一個(gè)算法”。這是世界AI泰斗MichaelI.Jordan的觀點(diǎn)。而當(dāng)前的全球AI市場(chǎng)，占據(jù)主導(dǎo)地位的中美雙方，卻也走出了兩條截然不同的技術(shù)路徑，前者執(zhí)著于前沿技術(shù)的探索，后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個(gè)方向，或許已經(jīng)無(wú)法直接進(jìn)行排位先后、優(yōu)

標(biāo)簽：

ai智能
智能體進(jìn)化發(fā)展了一年，現(xiàn)在的RPA Agent迭代到什么程度了？

智能體進(jìn)化發(fā)展了一年，現(xiàn)在的RPAAgent迭代到什么程度了？從實(shí)在智能最新發(fā)布的實(shí)在Agent7.0，看RPAAgent的迭代升級(jí)抓取豆瓣信息、自己制作PPT，這款A(yù)IAgent真的實(shí)現(xiàn)了流程全自動(dòng)化AIAgent構(gòu)建到執(zhí)行全自動(dòng)化，持續(xù)進(jìn)化RPAAgent再次降低智能體應(yīng)用門檻實(shí)在智能重磅發(fā)布實(shí)
崔大寶：大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

崔大寶｜節(jié)點(diǎn)財(cái)經(jīng)創(chuàng)始人進(jìn)入2024年，大模型似乎有熄火之勢(shì)：資本市場(chǎng)，與之關(guān)聯(lián)的概念炒不動(dòng)了，英偉達(dá)股價(jià)動(dòng)輒暴跌重挫，引發(fā)“泡沫戳破”的擔(dān)憂；消費(fèi)市場(chǎng)，BATH們的推新活動(dòng)少了，產(chǎn)品更新迭代的速度慢了，民眾的關(guān)注度降了……熱鬧的大概只剩下兩場(chǎng)酣仗：自5月15日字節(jié)跳動(dòng)宣布“以厘計(jì)費(fèi)”，打響國(guó)內(nèi)大模型

標(biāo)簽：

大模型
這一屆“出道”的數(shù)字人，已經(jīng)拿捧上了“鐵飯碗”

文|智能相對(duì)論作者|陳泊丞好消息！你心心念念的事業(yè)單位發(fā)錄取公告了！壞消息！他們沒錄你，錄了個(gè)數(shù)字人。圖片來(lái)源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破，越來(lái)越多的傳統(tǒng)企業(yè)和機(jī)構(gòu)開始用上了“數(shù)字員工”。甚至很多中國(guó)人心心念念的“鐵飯碗”，也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡(jiǎn)單翻看一下全國(guó)各地事業(yè)單位的“錄

標(biāo)簽：

數(shù)字人
來(lái)到IPO關(guān)口，地平線離“三分天下”還有多遠(yuǎn)？

黑芝麻智能敲鐘后，港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉，近日地平線已通過中國(guó)證監(jiān)會(huì)IPO備案，擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市，預(yù)計(jì)籌集約5億美元資金。從天眼查可以了解到，該公司成立于2015年，是一家乘用車高級(jí)輔助駕駛（ADAS）和高階自動(dòng)駕駛（AD）解決方案供
對(duì)標(biāo)GPT-4o，科大訊飛正以大模型重塑語(yǔ)音產(chǎn)業(yè)

大模型的創(chuàng)新與未來(lái)

標(biāo)簽：

科大訊飛

機(jī)器人大會(huì)引領(lǐng)產(chǎn)業(yè)動(dòng)向，卓翼飛思繪制無(wú)人系統(tǒng)教科研新藍(lán)圖

8月21日，萬(wàn)眾矚目的2024世界機(jī)器人大會(huì)暨博覽會(huì)在北京亦創(chuàng)國(guó)際會(huì)展中心盛大開幕。這場(chǎng)為期5天，集“展覽”“論壇”“賽事”于一體的機(jī)器人盛會(huì)，反映了當(dāng)下機(jī)器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計(jì)數(shù)據(jù)，今年現(xiàn)場(chǎng)逛展觀眾高達(dá)25萬(wàn)人次，比去年增加25%。機(jī)器人行業(yè)有多火?看看2024世界機(jī)器人大會(huì)火爆程度便可知
卓翼智能：超大載重高烈度環(huán)境特種智能系留無(wú)人平臺(tái)的應(yīng)用與未來(lái)

瞄準(zhǔn)場(chǎng)景需求，打造國(guó)內(nèi)領(lǐng)先的自主可控、高質(zhì)量超大載重高烈度環(huán)境特種智能系留無(wú)人平臺(tái)。卓翼智能亮相HICOOL峰會(huì)以科技實(shí)力榮摘?jiǎng)?chuàng)業(yè)大賽一等獎(jiǎng)這個(gè)比賽5年培育出16家“獨(dú)角獸”HICOOL2024全球創(chuàng)業(yè)者峰會(huì)暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕，大賽共吸引了124個(gè)國(guó)家和地區(qū)的7406個(gè)創(chuàng)業(yè)項(xiàng)
60萬(wàn)獎(jiǎng)金召喚AI創(chuàng)新者，2024無(wú)錫國(guó)際人工智能創(chuàng)新應(yīng)用大賽火熱進(jìn)行中！

人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量。無(wú)錫市作為中國(guó)的科技創(chuàng)新中心之一，正通過構(gòu)建人工智能"算力+算法+數(shù)據(jù)"三要素齊備的產(chǎn)業(yè)生態(tài)，為產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用提供強(qiáng)大支撐，通過“AI+”行動(dòng)推動(dòng)人工智能與多個(gè)產(chǎn)業(yè)交叉融合，實(shí)現(xiàn)技術(shù)落地和產(chǎn)業(yè)化，加速形成新質(zhì)生產(chǎn)力，打造具有國(guó)際競(jìng)爭(zhēng)力的產(chǎn)業(yè)創(chuàng)新智造
“云+AI”驅(qū)動(dòng)操作系統(tǒng)創(chuàng)新升級(jí)，龍蜥堅(jiān)持可持續(xù)發(fā)展路線

近日，2024龍蜥操作系統(tǒng)大會(huì)（OpenAnolisConference）在北京圓滿召開，此次大會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)開源發(fā)展委員會(huì)、中關(guān)村科學(xué)城委員會(huì)、海淀區(qū)委網(wǎng)信辦、中國(guó)開源軟件推進(jìn)聯(lián)盟指導(dǎo)，龍蜥社區(qū)主辦，阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦，主題為“進(jìn)化

加載更多

熱門排行

編輯推薦

從社區(qū)賣菜之爭(zhēng)看不反壟斷，創(chuàng)新創(chuàng)業(yè)就機(jī)會(huì)渺茫了如何認(rèn)識(shí)和確保知識(shí)付費(fèi)網(wǎng)課項(xiàng)目帶來(lái)的好處？做空歡聚渾水的一場(chǎng)空歡喜完美日記母公司紐交所上市騰訊認(rèn)購(gòu)首日大漲75% 2020年下一個(gè)創(chuàng)業(yè)風(fēng)口是什么？

站長(zhǎng)必看的網(wǎng)站-站長(zhǎng)信息和服務(wù)中心: 徐州好推網(wǎng)絡(luò)科技有限公司版權(quán)所有; 舉報(bào)投訴郵箱：yy@haotui.cn