1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 人工智能
  4. 正文

從文生圖到文生視頻,AI行業(yè)卷瘋了

 2023-12-26 10:58  來源:A5專欄  我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

前不久,身穿太空服的馬斯克瞬間進(jìn)入二次元的視頻在網(wǎng)上引起炸裂,讓人不可思議的是,動(dòng)畫版的馬斯克不僅神形兼?zhèn)?,背景和?dòng)作也非常連貫合理,而這一切都來自于一位斯坦福華人博士生設(shè)計(jì)的一款名叫“Pika”的視頻生成工具。只需要在該軟件的視頻輸入框內(nèi)輸入“馬斯克穿著太空服,3D動(dòng)畫”的關(guān)鍵詞,一個(gè)身穿太空服的卡通馬斯克便能躍然于屏上。

近幾年,隨著AIGC賦能多業(yè)態(tài)應(yīng)用的加速落地,整個(gè)行業(yè)的熱潮,已經(jīng)逐漸從文生文、文生圖,轉(zhuǎn)向了文生視頻領(lǐng)域。事實(shí)上,AIGC從文字到視頻是大的發(fā)展趨勢,不少產(chǎn)業(yè)人士已經(jīng)感知到了市場的風(fēng)向,國內(nèi)字節(jié)跳動(dòng)、阿里、百度等科技大廠均已跑步入場。

AIGC邁入視頻時(shí)代

據(jù)了解,字節(jié)跳動(dòng)于11月18日推出了文生視頻模型PixelDance;阿里緊隨其后也上線了Animate Anyone模型;百度文心大模型的類似功能則在內(nèi)測中,不久后會(huì)以插件形式開放。顯然,AI技術(shù)與文生視頻的融合已經(jīng)在業(yè)界掀起了一股新的熱潮。而國內(nèi)玩家之所以如此積極地下場布局,其中的原因不言而喻。

首先,文生視頻應(yīng)用非常廣泛,具備巨大的市場潛力。短視頻市場雖然方興未艾,但短視頻的制作能力卻跟不上各個(gè)平臺(tái)爆發(fā)的短視頻需求。而文生視頻技術(shù)的日趨成熟和廣泛應(yīng)用,或?qū)楫?dāng)下熱門的短視頻市場帶來一些變數(shù)。比如,影視和游戲等行業(yè)就是文生視頻落地的重要場景,文生視頻用文字就可以編輯和生成想要的故事情節(jié),實(shí)現(xiàn)創(chuàng)意輔助和降本增效。而憑借為內(nèi)容生成賦能這一獨(dú)特優(yōu)勢,文生視頻的前景也是毋庸置疑。

其次,文生視頻操作十分便利,能有效降低各項(xiàng)成本。眾所周知,個(gè)性化的視頻制作麻煩、成本高昂,所以一款簡單的視頻生成工具,就成了不少行業(yè)和企業(yè)的渴望,而AI文生視頻技術(shù)能力的突破則為這一問題帶來全新解決方案。文生視頻顧名思義就是無需視頻制作技巧,僅用簡單文字就可以生成想要的視頻素材,不僅如此,還能隨著輸入場景和關(guān)鍵詞不斷更新,簡直大大降低了視頻制作的門檻和成本,可以說是創(chuàng)作者在數(shù)字化時(shí)代下的“福音”。

最后,文生視頻產(chǎn)品功能驚艷,能進(jìn)一步增強(qiáng)企業(yè)競爭力。在當(dāng)下的AI賽道上,文生圖的應(yīng)用早已層出不窮,相比較而言,能夠完全“攻下”文生視頻這一陣地的玩家卻是寥寥無幾。歸根結(jié)底,是文生視頻的產(chǎn)品功能更加強(qiáng)大,其難度自然也就可想而知了。只不過,高難度往往伴隨著高價(jià)值,若是有哪一個(gè)企業(yè)能憑借強(qiáng)大的算力、跨領(lǐng)域合作能力和技術(shù)自主性等優(yōu)勢引領(lǐng)這一賽道,那么其在行業(yè)內(nèi)形成差異化優(yōu)勢也將指日可待。

萬丈高樓平地起

文生視頻作為一種新興的傳媒形式,正以前所未有的方式影響著我們的日常生活。目前,在企業(yè)宣傳、數(shù)字化人、科普創(chuàng)作、線上社交等領(lǐng)域都對文生視頻技術(shù)有所運(yùn)用。而為了提高視頻生成的流暢度、真實(shí)感,國內(nèi)入局的玩家如字節(jié)跳動(dòng)、阿里和百度等都在多個(gè)方面下足了功夫。

一方面,各玩家收集了大量數(shù)據(jù),以提高視頻生成效果的多樣性。文本生成視頻模型往往需要大量數(shù)據(jù)來學(xué)習(xí)字幕的相關(guān)性、幀照片的寫實(shí)感和時(shí)間的動(dòng)態(tài)信息,而缺乏高質(zhì)量配對的數(shù)據(jù)集,就難以合理組合人物、難以合理架構(gòu)場景,因此,生成視頻的合理性及連貫性就會(huì)大打折扣。阿里為了提高生成效果的多樣性,就讓其研究人員收集了大約3500萬單的文本視頻對和60億文本圖像對來優(yōu)化模型,讓生成的視頻達(dá)到了預(yù)期效果。

另一方面,各玩家設(shè)計(jì)了分層編輯器,以提高文生視頻語義的一致性。從簡單文字生成高質(zhì)量視頻,就需要文生視頻產(chǎn)品能夠準(zhǔn)確預(yù)測文字的意圖,然后在保持輸入文字內(nèi)容和結(jié)構(gòu)的同時(shí)生成精確的運(yùn)動(dòng)。為了達(dá)到這一目標(biāo),阿里的研究者設(shè)計(jì)了兩個(gè)分層編碼器,即固定CLIP編碼器和可學(xué)習(xí)內(nèi)容編碼器,分別提取高級語義和低級細(xì)節(jié),然后將其合并到視頻擴(kuò)散模型中,更好地確保了低分辨率下生成視頻的語義連貫。

除此之外,各玩家還提高了視頻分辨率,以保證視頻生成效果的高質(zhì)量。文生視頻最理想的效果就是用戶給出提示詞,系統(tǒng)自動(dòng)生成任何風(fēng)格相對應(yīng)的視頻,但這就對視頻分辨率提出了不小的考驗(yàn)。阿里的文生視頻將視頻分辨率提高到了1280×720,還優(yōu)化了初始的600個(gè)去噪step,以改進(jìn)生成視頻中存在的細(xì)節(jié)、偽影和噪音問題。字節(jié)跳動(dòng)文生視頻也提出了基于文本指導(dǎo)+首尾幀圖片指導(dǎo)的視頻生成方法,使得視頻生成的動(dòng)態(tài)性變得更強(qiáng)。

打鐵還需自身硬

隨著人工智能和視頻技術(shù)的快速發(fā)展,AIGC行業(yè)正在向AI視頻傾斜,AI文生視頻的爆發(fā)期或許即將到來,而參與到AI視頻創(chuàng)作中的玩家也將會(huì)越來越多。即便是在這樣的大環(huán)境下,不管是已經(jīng)推出模型的字節(jié)跳動(dòng)和阿里,還是正準(zhǔn)備推出插件的百度,能入局文生視頻賽道,其自身都有著不可忽視的倚仗。

一來,參與玩家算力儲(chǔ)備充足,能很好地克服文生視頻在技術(shù)上的不足。作為文生文、文生圖的升級,文生視頻對算力以及模型的工程化能力要求更高。據(jù)了解,文生視頻的人工智能模型參數(shù)為10億級別至100億級別。而國內(nèi)在文生視頻領(lǐng)域有所布局的頭部玩家中,無論是字節(jié)跳動(dòng)還是阿里、百度,其在參數(shù)上的積累都已經(jīng)十分深厚。可見,這些具有算力儲(chǔ)備的云服務(wù)廠商在發(fā)展視頻生成類應(yīng)用上具有天然優(yōu)勢。

二來,參與玩家行業(yè)經(jīng)驗(yàn)豐富,能大大加速文生視頻面世和迭代的速度。文生圖和文生視頻的人工智能模型在底層技術(shù)框架上有著較高的相似性,一定程度上來說,文生視頻可以看作是文生圖的進(jìn)階版技術(shù),這也就意味著,文生圖的技術(shù)和經(jīng)驗(yàn)可供文生視頻加以運(yùn)用和參考。而眾所周知,字節(jié)跳動(dòng)、阿里、百度等玩家早已在文生圖領(lǐng)域有所深耕,甚至有的產(chǎn)品也已投入商用,憑借在文生圖技術(shù)上的積淀,其在文生視頻領(lǐng)域也有望實(shí)現(xiàn)大幅進(jìn)步。

三來,參與玩家資源整合能力強(qiáng)大,能夠?yàn)槠湮纳曨l的發(fā)展提供助力。相較于文字和圖片,視頻能承載的信息量更大,這也就是說,想要生產(chǎn)出更加生動(dòng)、高清,真實(shí)感更強(qiáng)的視頻,各玩家在文生視頻上的投入成本也將更高。不過,值得一提的是,作為互聯(lián)網(wǎng)大廠,阿里、百度、字節(jié)跳動(dòng)經(jīng)過多年發(fā)展,其在人才、資金、算力等眾多資源和實(shí)力上的優(yōu)勢和權(quán)利不容小覷,得益于此,其文生視頻產(chǎn)品也將擁有更強(qiáng)的競爭力和影響力。

山雨欲來風(fēng)滿樓

文生視頻不僅顛覆了傳統(tǒng)媒體行業(yè),也為內(nèi)容升級和產(chǎn)業(yè)進(jìn)化帶來了許多新的商機(jī)和可能性。只不過,目前國內(nèi)文生視頻技術(shù)還在發(fā)展的初級階段,雖然看上去文生視頻與文生圖的邏輯極其相似,但事實(shí)上,文生視頻的難度要大得多,需要突破的瓶頸也有很多。

一是,文生視頻數(shù)據(jù)要求高、計(jì)算難度大,參與玩家離產(chǎn)出令人滿意的視頻還有很大距離。相較于文字和圖片,視頻在多維信息表達(dá)、畫面豐富性及動(dòng)態(tài)性方面有更大優(yōu)勢,但這同時(shí)也意味著,文生視頻對算力的需求將進(jìn)一步加大;文生視頻所涉及的自然語言處理、視覺處理、畫面合成等領(lǐng)域,需要攻克的技術(shù)難點(diǎn)也在增加。而國內(nèi)的玩家,目前仍然缺乏高質(zhì)量配對數(shù)據(jù)集,因此其在語義準(zhǔn)確性、清晰度和連續(xù)性等方面將會(huì)面臨嚴(yán)峻挑戰(zhàn)。

二是,文生視頻成本耗費(fèi)大,商業(yè)模式較單一,參與玩家想要將商業(yè)化跑通還有一定難度。與文生圖相比,文生視頻的計(jì)算復(fù)雜性提升,其成本耗費(fèi)也會(huì)相應(yīng)有所增加。另外,圖片生成類的商業(yè)模式較為單一,收費(fèi)模式和收費(fèi)依據(jù)較為趨同,而視頻生成模型的收費(fèi)依據(jù)則與其類似。雖然圖片生成類在多模態(tài)大模型中的商業(yè)化程度較高,可為視頻生成的商業(yè)化前景提供一定參考,但作為新興產(chǎn)業(yè),文生視頻的商業(yè)化想要跑通仍需一定時(shí)間。

三是,國內(nèi)外企業(yè)紛紛加大了對文生視頻的投入和研究,該賽道的競爭將會(huì)進(jìn)一步升級。AI視頻生成賽道已然十分熱鬧,不僅有美國AI初創(chuàng)公司Pika labs發(fā)布的“Pika 1.0”,還有谷歌推出的AI視頻生成模型“W.A.L.T”等。而除了國外企業(yè)對文生視頻技術(shù)的高度重視外,國內(nèi)百度、阿里、字節(jié)、騰訊、360、萬興科技、昆侖萬維、國脈文化、美圖等公司也紛紛涉足該領(lǐng)域,并推出了相關(guān)的人工智能模型,顯然,視頻生成領(lǐng)域的競爭正日趨白熱化。

從文生圖到文生視頻,AIGC賽道的競爭已經(jīng)非常激烈。雖然國內(nèi)文生視頻的進(jìn)展相對緩慢,尚且沒有明星產(chǎn)品的出現(xiàn),但更多有人才、有技術(shù)的文生視頻公司正在不斷涌現(xiàn)。只不過,除了上述挑戰(zhàn)之外,文生視頻目前還有一些數(shù)據(jù)隱私和安全性問題需要解決,真正的商業(yè)化運(yùn)作和盈利能力也還有待驗(yàn)證。而誰能在這次“跑馬圈地”中成為最終的贏家,我們也只能拭目以待。

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • “創(chuàng)造市場”與“算法進(jìn)化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要?jiǎng)?chuàng)造一個(gè)市場,而非一個(gè)算法”。這是世界AI泰斗MichaelI.Jordan的觀點(diǎn)。而當(dāng)前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個(gè)方向,或許已經(jīng)無法直接進(jìn)行排位先后、優(yōu)

    標(biāo)簽:
    ai智能
  • 智能體進(jìn)化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進(jìn)化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實(shí)在智能最新發(fā)布的實(shí)在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實(shí)現(xiàn)了流程全自動(dòng)化AIAgent構(gòu)建到執(zhí)行全自動(dòng)化,持續(xù)進(jìn)化RPAAgent再次降低智能體應(yīng)用門檻實(shí)在智能重磅發(fā)布實(shí)

  • 崔大寶:大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

    崔大寶|節(jié)點(diǎn)財(cái)經(jīng)創(chuàng)始人進(jìn)入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動(dòng)了,英偉達(dá)股價(jià)動(dòng)輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費(fèi)市場,BATH們的推新活動(dòng)少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動(dòng)宣布“以厘計(jì)費(fèi)”,打響國內(nèi)大模型

    標(biāo)簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經(jīng)拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個(gè)數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機(jī)構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標(biāo)簽:
    數(shù)字人
  • 來到IPO關(guān)口,地平線離“三分天下”還有多遠(yuǎn)?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會(huì)IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計(jì)籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動(dòng)駕駛(AD)解決方案供

  • 機(jī)器人大會(huì)引領(lǐng)產(chǎn)業(yè)動(dòng)向,卓翼飛思繪制無人系統(tǒng)教科研新藍(lán)圖

    8月21日,萬眾矚目的2024世界機(jī)器人大會(huì)暨博覽會(huì)在北京亦創(chuàng)國際會(huì)展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機(jī)器人盛會(huì),反映了當(dāng)下機(jī)器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計(jì)數(shù)據(jù),今年現(xiàn)場逛展觀眾高達(dá)25萬人次,比去年增加25%。機(jī)器人行業(yè)有多火?看看2024世界機(jī)器人大會(huì)火爆程度便可知

  • 卓翼智能:超大載重高烈度環(huán)境特種智能系留無人平臺(tái)的應(yīng)用與未來

    瞄準(zhǔn)場景需求,打造國內(nèi)領(lǐng)先的自主可控、高質(zhì)量超大載重高烈度環(huán)境特種智能系留無人平臺(tái)。卓翼智能亮相HICOOL峰會(huì)以科技實(shí)力榮摘?jiǎng)?chuàng)業(yè)大賽一等獎(jiǎng)這個(gè)比賽5年培育出16家“獨(dú)角獸”HICOOL2024全球創(chuàng)業(yè)者峰會(huì)暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個(gè)國家和地區(qū)的7406個(gè)創(chuàng)業(yè)項(xiàng)

  • 60萬獎(jiǎng)金召喚AI創(chuàng)新者,2024無錫國際人工智能創(chuàng)新應(yīng)用大賽火熱進(jìn)行中!

    人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量。無錫市作為中國的科技創(chuàng)新中心之一,正通過構(gòu)建人工智能"算力+算法+數(shù)據(jù)"三要素齊備的產(chǎn)業(yè)生態(tài),為產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用提供強(qiáng)大支撐,通過“AI+”行動(dòng)推動(dòng)人工智能與多個(gè)產(chǎn)業(yè)交叉融合,實(shí)現(xiàn)技術(shù)落地和產(chǎn)業(yè)化,加速形成新質(zhì)生產(chǎn)力,打造具有國際競爭力的產(chǎn)業(yè)創(chuàng)新智造

  • “云+AI”驅(qū)動(dòng)操作系統(tǒng)創(chuàng)新升級,龍蜥堅(jiān)持可持續(xù)發(fā)展路線

    近日,2024龍蜥操作系統(tǒng)大會(huì)(OpenAnolisConference)在北京圓滿召開,此次大會(huì)由中國計(jì)算機(jī)學(xué)會(huì)開源發(fā)展委員會(huì)、中關(guān)村科學(xué)城委員會(huì)、海淀區(qū)委網(wǎng)信辦、中國開源軟件推進(jìn)聯(lián)盟指導(dǎo),龍蜥社區(qū)主辦,阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦,主題為“進(jìn)化