當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

API難以解決AI智能體執(zhí)行能力問題,AI Agent深度落地鎖定RPA

 2024-01-15 15:33  來源: A5專欄   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

論文、項目、產(chǎn)品不斷涌現(xiàn),AI Agent工具使用瞄準RPA越來越多的AI Agent項目正在融合RPA,背后的邏輯是什么?被遺忘在角落的RPA,成了提升AI Agent執(zhí)行能力的天選神器由RPA廠商推出的RPA Agent,與市面上的Agent有什么不同?源自API的實驗性AI智能體越來越多,基于RPA的實用性AI Agent穩(wěn)扎穩(wěn)打API難以解決AI智能體執(zhí)行能力問題,AI Agent深度落地鎖定RPA

文/王吉偉

LLM(Large Language Models)剛爆發(fā)之時,很多人認為RPA要完了,自然語言交互+API操作足以干掉任何UI自動化工具。

然而,大語言模型應用發(fā)展到AI Agent這一步,大家才發(fā)現(xiàn)API并不是萬能的。Agent平臺雨后春筍一般出現(xiàn),但所構(gòu)建的大多Agent只能在問答與訂餐、買機票之間徘徊。

不能參與復雜業(yè)務流程的Agent,也就無法幫助企業(yè)更好地增效降本。

為了讓Agent深度參與到ERP、CRM等企業(yè)管理軟件的自動化操作中,除了構(gòu)建與生成更多的API及相關(guān)函數(shù),UI自動化也再度成為解決問題的關(guān)鍵,成為Agent架構(gòu)工具使用模塊的首選。

面向龐大而復雜的企業(yè)管理系統(tǒng),企業(yè)級Agent的工具模塊解決方案就變成API與UI兼顧,API用以直接調(diào)用插件與工具,UI用于解決非接口軟件的連接。

由此,探索Agent與RPA的廠商越來越多。

OpenAI投資了一家主打“RPA 3.0”的初創(chuàng)企業(yè)Induced AI,面壁智能聯(lián)合清華等機構(gòu)發(fā)布了“APA”推出了ProAgent,清華&智譜AI團隊發(fā)布了專注于GUI圖形交互界面的理解和導航的CogAgent,騰訊推出了用于移動端的AppAgent。

這些相關(guān)項目,本質(zhì)上都是Agent與RPA的結(jié)合。

其實先一步對“API+UI”類型Agent解決方案進行探索的,是RPA\超自動化廠商。從最開始接入LLM到現(xiàn)在推出Agent產(chǎn)品與解決方案,廠商們一直都在積極探索與跟進LLM的應用。

并且早在大語言模型之前,RPA\超自動化廠商就已經(jīng)實現(xiàn)了兼容API與UI。

Gartner曾在2022年RPA魔力象限報告中預測,到2024年,95%的RPA供應商將通過API與UI集成提供自動化。當前融合RPA的超自動化廠商,基本實現(xiàn)了兼顧API與UI。

說到這里,有人可能會問,如果把功能強大的企業(yè)級RPA平臺作為工具融入Agent架構(gòu),這樣的Agent產(chǎn)品是不是就能深度參與到企業(yè)運營的復雜業(yè)務流程?由RPA廠商打造的Agent產(chǎn)品又與其他廠商的產(chǎn)品有什么不同?

本文,王吉偉頻道就跟大家聊聊這些。

AI Agent瞄準RPA

今年10月份,OpenAI投資了一家RPA初創(chuàng)公司Induced AI。在Induced AI,用戶只需用簡單的英語輸入工作流程和錄屏視頻,Induced AI就能將其實時轉(zhuǎn)換為偽代碼,并調(diào)取多種相關(guān)工具,來執(zhí)行大量重復性任務。

從產(chǎn)品描述中可以看到,Induced AI的“RPA 3.0”形態(tài)產(chǎn)品是一款基于大語言模型的智能體。

開始很多人并不知道OpenAI為何要投資一個RPA公司,但隨著AI Agent越來越熱,在大家意識到其落地方面存在執(zhí)行能力不足的問題后,瞬間就想明白了OpenAI的“用意”。

把RPA當作工具去操作API無法觸達的企業(yè)管理軟件,自然就能大幅提升Agent的能力,且只有這樣的才有可能打造出企業(yè)級Agent。

自此開始,關(guān)于Agent與RPA的研究越來越多。

11月份,面壁智能聯(lián)合清華自然語言處理實驗 等機構(gòu)共同發(fā)布了新一代流程自動化范式 Agentic Process Automation(APA,相關(guān)項目為ProAgent),該范式實現(xiàn)了工作流構(gòu)建的自動化,以及工作流執(zhí)行時動態(tài)決策的自動化,并通過實驗揭示了大模型智能體在自動化中的可行性與潛力。

項目地址:https://github.com/THUDM/CogVLM

而該項研究的主要目的,就是將Agent技術(shù)的靈活性引入RPA(或者說將RPA作為工具引入Agent架構(gòu),也是成立的)。

而在此之前,為了解決LLM面對用戶指令使用外部工具(API)處理高級任務時的不足問題,面壁智能聯(lián)合來自TsinghuaNLP、耶魯、人大、騰訊、知乎的研究人員推出 ToolLLM 工具學習框架中的ToolBench數(shù)據(jù)集,已經(jīng)囊括16464個真實世界API。

由此,UI自動化對于Agent在真實世界應用重要性不言而喻。

12月15日,清華&智譜AI團隊發(fā)布了最新研究成果CogAgent-Chat。CogAgent是一個基于180億參數(shù)規(guī)模的視覺語言模型(VLM)的圖形用戶界面(GUI)智能體,專注于GUI圖形交互界面的理解和導航。

項目地址:https://github.com/THUDM/CogVLM

CogAgent使用屏幕截圖作為輸入,在PC和Android GUI導航任務上超越了基于語言模型的方法,如Mind2Web和AITW,引領了GUI理解領域的最新技術(shù)發(fā)展。

這個技術(shù)理念,與實在智能推出的RPA Agent使用屏幕語義理解技術(shù)通過識別屏幕構(gòu)建UI自動化非常相似,同樣屬于Agent與RPA技術(shù)的結(jié)合。

除了創(chuàng)業(yè)公司,科技大廠也在關(guān)注這個領域。最近騰訊和德州大學達拉斯分校的研究團隊合作開發(fā)了一個名為AppAgent的項目,該項目可以通過自主學習和模仿人類的點擊和滑動手勢,在手機上執(zhí)行各種任務。

項目地址:https://github.com/mnotgod96/AppAgent

這包括在社交媒體上發(fā)帖、幫助用戶撰寫和發(fā)送郵件、使用地圖、在線購物,甚至進行復雜的圖像編輯。AppAgent已在50個任務上進行了廣泛測試,涵蓋了10種不同的應用程序。

這個項目,可以看作Agent與RPA結(jié)合在手機端的應用。

(注:回復 APA,獲取項目相關(guān)論文。)

除了上述項目,王吉偉頻道也接觸過幾個智能體創(chuàng)業(yè)項目,都采用了Agent+RPA這個模式。

LLM廠商、科研機構(gòu)以及科技大廠對于Agent和RPA的探索與研究,進一步驗證了當前階段RPA對于AI Agent在各領域落地應用的重要性。

背后的邏輯

相較于直接使用LLM,目前的AI Agent產(chǎn)品在體驗上的優(yōu)勢盡顯:

首先,智能程度和普適性高,能較好的理解和推理復雜的任務并且做出規(guī)劃;

其次,能高效判斷并使用外部工具,整個過程的銜接非常流暢。

但隨著更多的使用,大家發(fā)現(xiàn)當前Agent的實驗性強于實用性,存在兩個影響應用的重要問題:

一是效果不穩(wěn)定,多步推理能力不夠。大部分產(chǎn)品demo看上去效果驚艷,但對于抽象復雜的問題,能有效解決的比例不到 10%,只適合解決一些中等難度的問題。

二是外部生態(tài)融合度不高。第三方API支持的數(shù)量和生態(tài)不多(基本以搜索和文件讀取功能為主),API覆蓋范圍不夠廣,很難做到比較完整的跨應用生態(tài)。

大家知道,目前最流行的也是最理想的AI Agent框架是由OpenAI提出的“LLM+記憶+規(guī)劃+工具使用”四件套。

對于一款AI Agent來說,LLM、記憶和規(guī)劃擔當了任務的分析、拆解與規(guī)劃,工具使用則關(guān)系著執(zhí)行任務的能力。任務規(guī)劃得再好,沒有執(zhí)行能力也無法完成任務。

上面第一個問題關(guān)聯(lián)的是用戶體驗與實際效果,當然還要看Agent面向什么應用場景。

如果是2C場景比如購物分析等效果不穩(wěn)定或者等待太長時間,大概率會讓很多用戶放棄使用。

但若是2B場景比如用于程序構(gòu)建,其自動化生成應用及業(yè)務流程的能力,遠比之前手動輸入代碼或者拖拽式的無代碼操作的效率要高得多。

而第二個問題則是企業(yè)應用Agent的關(guān)鍵,Agent主要通過API來調(diào)用各種插件工具去執(zhí)行各種任務,工具越強大執(zhí)行能力也越強。

相關(guān)研究數(shù)據(jù)統(tǒng)計,目前公共和私人API的應用數(shù)量已接近2億。在國內(nèi),僅2022年就有6700多萬個API被創(chuàng)建。

但對于大型企業(yè)異構(gòu)且復雜的信息化環(huán)境來說,這些API仍然無法滿足其個性化、安全性等方面的需求。

加上很多企業(yè)軟件系統(tǒng)缺少API以及開發(fā)成本過高等因素,使得Agent無法操作更多的企業(yè)管理軟件,阻礙了AI Agent的跨部門、跨領域應用,執(zhí)行能力大打折扣。

這種情況下,在工具調(diào)用上,如果想打造一款能夠參與復雜業(yè)務流程的企業(yè)級Agent,不只需要通過API調(diào)用工具,更需要通過UI自動化實現(xiàn)各種軟件連接。

RPA和AI Agent有著很強的關(guān)系。接口的設計原則是“高內(nèi)聚、低耦合”,實際上很多軟件很難有接口,這時候RPA的作用就尤為重要。把API和RPA封裝起來作為“手和腳”,結(jié)合大語言模型“大腦”,Agent才能真正實現(xiàn)無所不能的智能自動化。

由此,一些組織重新把目光重新聚焦到RPA身上。

使用RPA通過基于LLM的AI Agent自動執(zhí)行業(yè)務流程任務企業(yè)級應用,并構(gòu)建自動化流程的長期維護機制,也成為更多組織在智能自動化方面新的研究課題。

同時,Agent的執(zhí)行能力落點到RPA,也使得已經(jīng)積累大量數(shù)據(jù)、經(jīng)驗、技術(shù)以及生態(tài)能力的RPA廠商所推出的Agent產(chǎn)品,受到更多關(guān)注。

尤其是發(fā)布相關(guān)領域模型的廠商,更是廣大企業(yè)與投資機構(gòu)關(guān)注的重點。

RPA Agent的優(yōu)勢

由RPA\超自動化廠商推出的基于RPA構(gòu)建的AI Agent,或者將RPA作為工具的Agent,這里將其稱之為RPA Agent。

目前已經(jīng)出現(xiàn)很多Agent構(gòu)建平臺,也出現(xiàn)了大量Agent產(chǎn)品。但如果仔細觀察這些產(chǎn)品,會發(fā)現(xiàn)大多數(shù)產(chǎn)品還只是知識問答類的對話機器人,少部分可以通過API操作部分工具或者適用于Agent平臺的內(nèi)部生態(tài),與OpenAI推出的“準Agent”產(chǎn)品GPTs相似。

這些封裝了大語言模型產(chǎn)品能力的類智能體產(chǎn)品,或者說是智能體的早期產(chǎn)品,跟歐美技術(shù)圈所定義的智能體還有一些差距,在能力上缺少了調(diào)用API的靈活性,也缺少了用RPA去連接更多管理軟件的通用性。

類似的智能體能夠勝任內(nèi)容生成、推理分析及反饋等,對于一些不需要太多企業(yè)管理系統(tǒng)的中小微企業(yè)大部分業(yè)務運營都能勝任。

但在執(zhí)行層面就要差很多,不能在生成內(nèi)容后執(zhí)行其他業(yè)務流程的任務自動化,缺少了對長流程的支持,無法調(diào)用工具去完成復雜業(yè)務流程的自動化執(zhí)行。

與這類Agent相比,RPA Agent恰好可以解決上述Agent難以解決的問題。

RPA本身就是為解決UI自動化而生,用于彌補API自動化覆蓋范圍小、開發(fā)難度大等的不足。

為了保證RPA運行的穩(wěn)定性,廠商們在技術(shù)及產(chǎn)品上面下了很大的功夫,比如屏幕語義識別、IPA模式等,這樣的產(chǎn)品作為Agent的調(diào)用工具,具備操作大型企業(yè)復雜業(yè)務流程的天然屬性。

在上一輪業(yè)務數(shù)字化改造中,大量企業(yè)在業(yè)務流程自動化上都引入了性價比很高的RPA\超自動化解決方案。LLM爆發(fā)后,超自動化廠商都在積極融合LLM,并且現(xiàn)在開始陸續(xù)推出Agent解決方案。

其實對于已經(jīng)引入RPA\超自動化解決方案的企業(yè)來說,想要享受Agent紅利很簡單。如果RPA服務商已經(jīng)推出Agent解決方案,只需要將原有解決方案中使用的產(chǎn)品或者技術(shù)升級成為Agent解決方案即可,一般而言廠商可以提供技術(shù)平移及迭代的服務。

這樣企業(yè)就不用再去了解和引入新的Agent解決方案,避免更多的投資與開銷,這在當前經(jīng)濟下行的形勢下是蠻重要的。

Agent廠商在為廣大企業(yè)提供個性化服務及部署時,也會基于原有企業(yè)的RPA系統(tǒng)去做相應的解決方案,這使得大量企業(yè)的Agent解決方案實則都是在工具應用上調(diào)用RPA去執(zhí)行各種企業(yè)管理軟件的操作。

顯然在這個部署的過程中,先一步推出基于RPA的Agent解決方案的廠商將會更具優(yōu)勢,因為他們對RPA以及超自動化有著更深的理解,也能讓其Agent解決方案能夠觸達企業(yè)運營的更深層。

從目前市面上大多AI Agent以及用戶反饋來看,AI智能體想要真正在B端實現(xiàn)量級業(yè)務場景的落地及更好地商用,需要綜合考量其本身的安全性、技術(shù)發(fā)展周期是否成熟以及To B端的場景是否密切貼合,更需要考慮接口成本、隱私、管理、授權(quán)等諸多因素。

從具體需求來看,比如金融領域大B客戶對于查詢和拆解指標、項目數(shù)據(jù)查看分析、推送報表/報告等需求,看起來簡單卻不是簡單的GPTs或者知識內(nèi)容類Agent能夠?qū)崿F(xiàn)的。

其中的業(yè)務流程涉及到了深入企業(yè)管理系統(tǒng)的復雜流程自動化構(gòu)建,更涉及到了數(shù)據(jù)庫讀取、API管理及UI自動化連接等。

目前僅是基于API接口讀取數(shù)據(jù)及調(diào)用工具插件的Agent,難以實現(xiàn)這樣的流程應用,而基于LLM并同時兼顧API與UI自動化的RPA Agent是不錯的解決方案。

在廣大企業(yè)關(guān)注的數(shù)據(jù)安全方面,相較于API模式,RPA模式的優(yōu)勢在于對系統(tǒng)的無侵入。通過結(jié)合ISSUT(智能屏幕語義理解)等技術(shù),RPA能夠?qū)θ祟惒僮飨到y(tǒng)的行為進行模仿,并通過識別屏幕上的軟件進行操作,全流程不會對系統(tǒng)和數(shù)據(jù)造成任何損害。

此外對于系統(tǒng)設計而言,對外暴露的API越多,安全風險越高。在實在智能CEO孫林君看來,系統(tǒng)的設計原則是“高內(nèi)聚,低耦合”,即用大模型去構(gòu)建Agent時,軟件暴露的API越少越好。

所以,RPA Agent不只是一種行之有效的Agent解決方案,更是當下LLM時代企業(yè)應用Agent的新范式。

RPA Agent實例解讀

下面,我們來看兩個已經(jīng)發(fā)布的RPA Agent產(chǎn)品案例。

案例1:實在智能TARS-RPA-Agent

上個月完成近2億元C輪融資的實在智能在8月份所推出的實在Agent智能體,是一個典型的企業(yè)級Agent智能體產(chǎn)品。

實在Agent智能體,既可以支持私有化部署,又支持無需部署就可以方便用戶使用的大語言模型的超自動化智能體,它基于“自研垂直大語言模型TARS和ISSUT(智能屏幕語義理解)雙模引擎打造。

該產(chǎn)品實現(xiàn)了全行業(yè)首個“你說PC做,所說即所得”,能夠自主拆解任務、感知當前環(huán)境、執(zhí)行并且反饋、記憶歷史經(jīng)驗。

實在智能自研的基座大語言模型TARS,最大特點是被投喂了大量的行業(yè)知識,KNOW-HOW和自動化流程數(shù)據(jù),有利于TARS對客戶業(yè)務流程的理解和拆解,使得實在Agent智能體能夠更好的規(guī)劃與執(zhí)行復雜的業(yè)務流程。

實在Agent智能體能夠聽懂業(yè)務用戶的所有指令,更能準確把指令任務自主拆解成方便后續(xù)自動化流程去執(zhí)行的“生成式,懂業(yè)務的智能數(shù)字員工”。

只需簡單說一句話,實在Agent智能體就能幫用戶操作電腦軟件完成各種工作和任務,每個流程中的步驟百分百可視,用戶可以邊查看執(zhí)行的每一個步驟,邊判斷整個自動化流程是否準確,并可以隨時進行調(diào)整。

使用智能體可以替代手工作業(yè),實現(xiàn)至少300%效率提升,保證數(shù)據(jù)處理準確無誤,防止人為因素風險,將個人智慧轉(zhuǎn)化為企業(yè)組織智慧,沉淀人機協(xié)同經(jīng)驗。

作為一款企業(yè)級AI Agent平臺,實在Agent智能體具備識別與理解、系統(tǒng)方案、深入匹配、專有部署、更加可信、自主可控、持續(xù)迭代等多種特性,可以為企業(yè)打造無需額外配置、開箱即用且效果立竿見影的智能體助理,幫助員工提升工作效率和創(chuàng)造力,賦能企業(yè)增效降本。

案例2:壹沓科技CubeAgent

CubeAgent是壹沓科技推出的基于大模型的數(shù)字員工平臺,為企業(yè)提供基于大模型技術(shù)驅(qū)動的數(shù)字員工聚合及訓練平臺,幫助企業(yè)輕松構(gòu)建專有的“數(shù)字員工團隊”,為白領員工配備具備多種能力的“辦公小助手”,一站式幫助企業(yè)員工完成所有的日常工作。

在供應鏈領域,運小沓數(shù)字員工平臺是全球首款供應鏈大模型產(chǎn)品,能夠為供應鏈企業(yè)量身打造虛擬數(shù)字員工專家團隊,資深供應鏈運價經(jīng)理、物流可視追蹤經(jīng)理、供應鏈新人成長師、行業(yè)案例專家行業(yè)翻譯大師、行政問答助理等,提供高效所答即所問的供應鏈領域準確知識。實現(xiàn)這一切,只需像跟同事聊天一樣。

作為供應鏈企業(yè)更加智能的業(yè)務自動化解決方案,運小沓數(shù)字員工平臺可以助力企業(yè)實現(xiàn)產(chǎn)品智能調(diào)用和辦公系統(tǒng)智連:一句話查運價、發(fā)艙單、物流追蹤,智能運行FMS、OA、CRM,提升組織敏捷性,開啟全新智能辦公時代。

借助一系列虛擬辦公助手,運小沓數(shù)字員工平臺也將為供應鏈企業(yè)提供更加智能的業(yè)務自動化解決方案、「白領員工+CubeAgent數(shù)字員工」的人機協(xié)作智能辦公新模式,提升組織人才密度、敏捷性,幫助供應鏈企業(yè)重構(gòu)生產(chǎn)關(guān)系,推動企業(yè)生產(chǎn)力躍遷。

據(jù)悉在商業(yè)拓展方面,運小沓數(shù)字員工平臺已經(jīng)跟供應鏈Top企業(yè)在大模型方面達成戰(zhàn)略合作,并宣布成立了Next Club。

Induced AI已經(jīng)在前面介紹過,這里不再作為案例贅述。

后記:RPA Agent的“iPhone時刻”

把時間軸放大去看,在API一統(tǒng)數(shù)字化江湖之前,RPA會一直擁有存在的價值。只要仍舊存在UI操作的業(yè)務流程,只要API無法解決所有軟件的聯(lián)通問題,RPA或者類RPA工具就會一直充當UI自動化的連接器。

歐美日韓等地域的RPA\超自動化應用普及率已經(jīng)很高,意味著API+UI的Agent解決方案更容易得到推廣。

而國內(nèi)市場尤其是制造業(yè)等信息化相對滯后的領域,目前剛進入RPA2.0\3.0的時代。對于引入AI+RPA解決方案的企業(yè),傳統(tǒng)AI技術(shù)早晚會變成LLM技術(shù),而Agent解決方案也將是最佳的LLM應用方案。屆時,大部分廠商都將是RPA Agent解決方案。

由此來看,至少未來5-10年,RPA Agent或者以類RPA產(chǎn)品為工具的AI Agent會成為企業(yè)數(shù)字化運營的主流模式。

所以,“RPA Agent”這個詞組,除了表達它是一種“以RPA為工具的Agent”之外,更意味著Agent+RPA管理企業(yè)數(shù)字化運營的模式即將流行起來。

表面上看,RPA成了AI Agent執(zhí)行層面的超級工具。反過來看,AI Agent也在借助RPA落地。

在埃森哲最新發(fā)布的《2024年技術(shù)展望》趨勢報告中,將“智能體-AI互聯(lián)網(wǎng)的生態(tài)系統(tǒng)“列入第二趨勢,再次證明AI Agent將在組織運營中扮演的重要角色。

同時該報告調(diào)查數(shù)據(jù)顯示,96%的高管認為,在未來3年內(nèi)充分利用AI Agent生態(tài)系統(tǒng)將成為其組織的重要機遇。AI Agent生態(tài)系統(tǒng)的崛起正在改變企業(yè)智能和自動化戰(zhàn)略的思考方式,將帶來巨大的機遇和挑戰(zhàn)。

這意味著,AI Agent會帶來組織的深度變革與企業(yè)數(shù)字化運營范式的轉(zhuǎn)變,也將帶來廣闊的市場空間。

對于智能體早期企業(yè)可以做什么,埃森哲也提到越早為智能體準備好相關(guān)的基礎設施和信息,智能體就能越早發(fā)揮潛力。并建議重新考慮某些數(shù)據(jù)管理實踐,比如數(shù)據(jù)庫的向量化處理、提供用于訪問數(shù)據(jù)的新API以及擴展與公司系統(tǒng)進行接口 交互的工具等。

而當前與系統(tǒng)進行接口 交互的主流自動化工具,正是能夠通過UI連接不同系統(tǒng)以補充API生態(tài)不足的RPA。

由此,作為能夠深扎復雜業(yè)務流程且執(zhí)行能力更強的AI智能體,RPA Agent的“iPhone時刻”已然到來。

【王吉偉頻道,關(guān)注AIGC與IoT,專注數(shù)字化轉(zhuǎn)型、業(yè)務流程自動化與RPA,歡迎關(guān)注與交流?!?/p>

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

熱門排行

信息推薦