1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 人工智能
  4. 正文

5分鐘搞定機器學習建模,智鈾科技-小智平臺免費試用

 2019-10-14 16:20  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

AutoML的概念源自2012年學術(shù)界提出一個新觀點Programming by Optimization(PbO),字面上的意思是指以最優(yōu)化程序開發(fā),實質(zhì)上就是要解決建模時依賴人工的問題。

AutoML更大范圍內(nèi)為世人周知是因為谷歌Cloud AutoML Vision產(chǎn)品的發(fā)布,這款產(chǎn)品可以用AI設(shè)計AI,讓更多對機器學習了解有限的人,把Google級的AI技術(shù)運用到產(chǎn)品打磨中,從而降低了使用機器學習的門檻,這也是智鈾科技正在做的事情,不同的是,谷歌AutoML目前專注于圖像識別領(lǐng)域,智鈾科技目前主要以結(jié)構(gòu)化數(shù)據(jù)為主,致力于為企業(yè)帶來全流程、自動化的建模和部署能力,幫助企業(yè)構(gòu)建人工智能核心,實現(xiàn)AI驅(qū)動。

目前,傳統(tǒng)行業(yè)使用機器學習仍面臨著巨大的挑戰(zhàn)。

1、建模過程繁瑣

2、AI人才匱乏

3、人力成本大

4、算法設(shè)計周期長

5、系統(tǒng)實施維護困難

針對這些痛點,夏粉博士帶領(lǐng)智鈾科技團隊開發(fā)了自動化機器學習產(chǎn)品“小智”。

小智可以免費試用,支持上限為 200MB 的 CSV 訓練數(shù)據(jù)量、10MB的數(shù)據(jù)預(yù)測,無需編寫代碼,學習數(shù)學,就可以讓你親身體驗機器學習的魅力。模型精度也無需擔心,小智可以幫您完成簡單便捷、高質(zhì)高效的建模。

試用方法:進入智鈾科技官網(wǎng),在產(chǎn)品頁面點擊免費試用即可

智鈾科技發(fā)布的自動化機器學習產(chǎn)品“小智”,可以自動構(gòu)建高精度模型,為用戶提供從數(shù)據(jù)預(yù)處理、特征工程、模型調(diào)參、模型評估、模型預(yù)測到結(jié)果分析等一站式服務(wù),其獨創(chuàng)的參數(shù)搜索算法解決了人工調(diào)參費時耗力的問題,獨創(chuàng)的特征工程算法,令組合特征挖掘效率提升上千倍。另外,小智還支持千億樣本、千億特征數(shù)據(jù)量,模型從淺層到深層靈活支持。

除了以獨創(chuàng)的算法實現(xiàn)了自動建模,小智在產(chǎn)品的交互方面也貫徹著簡單易用的原則,直觀的web界面允許任何人和小智進行交互,不需要AI背景,用戶也可以一鍵完成建模,內(nèi)置的可視化效果,如ROC曲線圖和準確&召回曲線,能夠使用戶對自己的業(yè)務(wù)有更深刻的理解。據(jù)某銀行客戶介紹:“在通用場景下,普通業(yè)務(wù)人員借助小智也能達到高級建模人員水平。”

隨著互聯(lián)網(wǎng)+時代的到來,大數(shù)據(jù)在企業(yè)的落地應(yīng)用正在快速增長,而數(shù)據(jù)安全,也成為眾多企業(yè)的顧慮,這也催生了企業(yè)對于私有化部署的需求。據(jù)悉,小智將以產(chǎn)品的形式提供給行業(yè),除了支持公有云、SAAS模式外,還提供私有化部署。

AutoML仍然是一個在摸索中的新興領(lǐng)域,誰能搶占技術(shù)占領(lǐng)市場尤為重要。目前,智鈾科技已經(jīng)與金融、醫(yī)療、物聯(lián)網(wǎng)等多個行業(yè)的公司合作為其提供服務(wù),產(chǎn)品的功能應(yīng)用涵蓋點擊率預(yù)估、反欺詐偵測、市場精準營銷以及個性化推薦等,滿足不同場景的不同需求,同時產(chǎn)品的有效性經(jīng)過實踐驗證,不但能夠為企業(yè)帶來收入的增長并且節(jié)省成本。

整體建模流程

機器學習建模過程一般包含多個步驟,首先,數(shù)據(jù)科學家要對業(yè)務(wù)問題進行定義,抽象為數(shù)學問題;對獲取到的數(shù)據(jù)進行分析、理解、 清洗,劃分;其次進行特征工程,如特征衍生、特征組合、特征選擇等,然后才能開始進行建模、訓練、預(yù)測等。在小智平臺,用戶只需上傳數(shù)據(jù),選定目標名稱,其余步驟包括數(shù)據(jù)預(yù)處理、特征工程、調(diào)參、訓練及預(yù)測,得到分析結(jié)果,部署和監(jiān)控模型均由小智完成,實現(xiàn)真正端到端的全程自動機器學習。這大大減少了缺乏機器學習知識用戶的使用難度。

機器學習工作流圖(綠色圓柱塊表示數(shù)據(jù),為整個工作流的基礎(chǔ),藍色的方塊為一個簡單的建模流程,有簡單問題只需要走完藍色方塊就結(jié)束了,黃色的兩個方塊為模型需要上線,持續(xù)優(yōu)化改善的部分)

機器學習工作流如上圖所示,整個流程以數(shù)據(jù)為中心,循環(huán)往復(fù)。在使用小智的過程中,首先要收集建模需要的數(shù)據(jù),可能是業(yè)務(wù)相關(guān)數(shù)據(jù),也可能是從網(wǎng)上爬取的一些信息。我們可以將這些結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為csv寬表或txt文件,放在本地、數(shù)據(jù)庫或HDFS上,然后上傳至小智,對數(shù)據(jù)集的格式進行調(diào)整,例如編碼、分隔符、空值標識、首行是否為特征名稱等。至此,用戶負責的數(shù)據(jù)準備之前的步驟便完成了。

下一步為建立模型。當用戶上傳數(shù)據(jù)到小智平臺后,小智會檢查和清理數(shù)據(jù),并且會以數(shù)據(jù)科學的角度給出所有特征的數(shù)據(jù)畫像。用戶選擇建模目標后就可以開始“一鍵式”自動化建模了。小智會依次完成從數(shù)據(jù)清洗、特征工程、調(diào)參、選擇最優(yōu)算法、搭建模型、模型評估、模型發(fā)布的全過程,實現(xiàn)真正的“一鍵式”建模。模型評估階段可以監(jiān)控模型的預(yù)測性能,當用戶認為預(yù)測結(jié)果不理想時可以選擇重新訓練模型以達到理想的預(yù)測結(jié)果。當用戶完成模型訓練并且選擇了合適的模型后,就可以部署模型了。 部署后,可以上傳CSV預(yù)測文件,對上傳的數(shù)據(jù)進行批量預(yù)測,或者使用模型API 進行實時預(yù)測。

案例分析

為了實際感受小智的效果,并了解它到底和人工建模相比有什么優(yōu)勢,我們使用一個廣告點擊預(yù)測案例來說明,即通過廣告系統(tǒng)的結(jié)構(gòu);流量預(yù)估:設(shè)備號、手機,區(qū)域(經(jīng)緯度)、訪問時間;廣告主專業(yè):新型游戲等;創(chuàng)意特征;投放之后定向的特征;廣告位;環(huán)境等特征來預(yù)測某條投放廣告是否被點擊。

點擊率(click-through rate)是評價在線廣告效果的重要指標,對點擊率進行預(yù)測建模在線廣告商尤為重要。我們可以用歷史的廣告投放數(shù)據(jù)建立一個模型,輸入未來一段時間的廣告投放數(shù)據(jù)進行模型驗證。分別進行小智自動化建模和手動建模。

小智數(shù)據(jù)怎么做

該建模數(shù)據(jù)集是在線廣告點擊率預(yù)測競賽的數(shù)據(jù),來自Kaggle競賽,通過廣告ID、是否點擊、位置欄位、網(wǎng)站域名、網(wǎng)站種類、應(yīng)用ID、應(yīng)用領(lǐng)域、設(shè)備編號等屬性來預(yù)測廣告是否被點擊。本案例分析中我們只截取了其中一部分數(shù)據(jù)集,并做了必要的數(shù)據(jù)清洗,每條樣本為一條廣告投放并且標記了是否被點擊的數(shù)據(jù),最后一列“click”為目標,1表示點擊,0表示未點擊。已預(yù)先劃分好數(shù)據(jù)集,“train.csv”為訓練集,“test.csv”為預(yù)測集。訓練樣本集共320473個,預(yù)測樣本79527個,特征維度為23維。

在上傳數(shù)據(jù)階段,可以看到有一個虛線框,點擊虛線框火將文件拖拽至此即可實現(xiàn)上傳。虛線框中還有“點此下載測試數(shù)據(jù)”和“下載數(shù)據(jù)匿名化工具”兩個選項,我們提供了一些公開的測試數(shù)據(jù)可供用戶下載測試,加入用戶不想讓自己的數(shù)據(jù)上傳到公有云上,可以下載數(shù)據(jù)匿名化工具對數(shù)據(jù)進行簡單的加密,使得數(shù)據(jù)特征名稱、敏感特征值隱藏,而且不會影響模型效果。

上傳數(shù)據(jù)后,可以看到小智中的數(shù)據(jù)概覽,點擊“確定并生成畫像”進入到下一步,接著通過可視化操作選擇要預(yù)測的目標變量與可用的特征變量,保存特征列表后即可進行模型訓練。對于分類任務(wù),特征變量可以分為類別型和數(shù)值型,小智可以自動檢測變量類型,用戶也可以根據(jù)需求自定義修改類型,這又會節(jié)省很多精力。

小智的上傳數(shù)據(jù)界面

原始訓練數(shù)據(jù)樣本集概覽

經(jīng)過匿名化處理的訓練數(shù)據(jù)樣本集概覽

確定目標變量無誤后,小智會根據(jù)目標變量自動分析模型類型,以及分析特征變量,并給出自動質(zhì)量修復(fù)方案。

數(shù)據(jù)畫像示例

小智建模怎么做

處理完數(shù)據(jù)后就可以開始建模了,小智全自動建模不需要用戶做任何操作,只要等待模型訓練完成即可。目前只支持二分類和回歸,主要采用常用的LR和GBDT算法,兼顧了性能與可解釋性。之后小智會進行自動建模、調(diào)參,用戶可以選擇模型中結(jié)果較好的一個。

模型訓練完后可以查看訓練足跡、模型評估、以及模型描述。

其中模型評估中有ROC曲線、Lift提升度、KS曲線、精確&召回曲線等指標,AUC等指標采用交叉驗證的計算值,Lift、KS等采用的是驗證集上計算出的指標。模型評估是我們評價模型好壞的標準,在預(yù)測數(shù)據(jù)集上也有同樣的一個評估模塊。在模型描述中我們有特征重要性查看和歸因解釋,我們可以看到在模型中排列在前面的一些特征,比如我們可以選擇top K進行重新建模,在以后收集數(shù)據(jù)時特別注重這些特征的完整性和正確性等。原因解釋可以查看預(yù)測正確的樣本的哪些屬性占主要正向原因,哪些屬性占主要的負向原因。還可以查看真實值和預(yù)測值相差最大的top K個樣本,查看是否是異常數(shù)據(jù)樣本。

模型描述中的特征重要度

模型描述中的原因解釋

小智部署怎么用

最后的部署就比較簡單了,確定最合適的訓練模型,然后選擇發(fā)布即可下載模型部署或者調(diào)用API,配合SDK使用進行預(yù)測就行了。一般小智可以通過數(shù)據(jù)源或 API 進行模型部署,其中數(shù)據(jù)源采用本地 CSV 文件。

與一般工程師人工建模效果對比

如下圖所示,通過運用小智建立的廣告點擊預(yù)測模型,在預(yù)測集上的AUC 可達到 0.7294,能夠較準確地識別出廣告流量是否被點擊,為廣告投放提供了重要支持;分析團隊在收集到相關(guān)數(shù)據(jù)后,利用小智平臺能夠在 1 小時內(nèi)迅速構(gòu)建出模型并完成預(yù)測;整個過程僅需要一名普通水平的數(shù)據(jù)分析師即可完成整個建模預(yù)測工作,不需要任何外部顧問,從而節(jié)約了大量成本。

在實際應(yīng)用中,小智不僅在廣告推薦領(lǐng)域,還有包括金融、能源、醫(yī)療、新零售、物流、制造、游戲等眾多領(lǐng)域的中都有很好的表現(xiàn)。

小智在預(yù)測集上的AUC 達到 0.7294

一般的算法工程師,借助開源算法庫sklearn中的GBDT、RF、LR、Adaboost,以及Xgboost五種算法模型進行建模分析??吹浇PЧ詈玫哪P褪荊BDT,AUC只有0. 7108,小于小智自動建模的AUC 0.7294。

對比銀行某產(chǎn)品推薦的人工建模效果

建模場景: 預(yù)測目標客戶在1個月內(nèi)購買產(chǎn)品(5種產(chǎn)品)的可能性;

建模規(guī)模: 約3700萬戶;

建模數(shù)據(jù): 根據(jù)客戶前一個月的表現(xiàn),對5類產(chǎn)品的持有和未持有分開建立10個模型,每個數(shù)據(jù)集大小為200MB—8G;

建模效果: 與行內(nèi)建模團隊模型效果基本相符。建模效率提升了近10倍,在合作銀行中一個人工模型上線一般需要2月左右,小智只需要不到一周就能完成建模,且能和銀行內(nèi)已有應(yīng)用系統(tǒng)無縫融合。

對同一模型評價指標的分值,評估級別計算方法為: (小智分值-行內(nèi)基線)/行內(nèi)基線

最終效果對比表

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標簽
智能產(chǎn)品
人工智能

相關(guān)文章

  • IoT開發(fā)者為王,涂鴉智能硬核“靠邊站”

    IoT盛宴:涂鴉向下,產(chǎn)品向上

    標簽:
    人工智能
  • IPO觀察丨黑芝麻智能遞表港交所,車芯行業(yè)已邁向量產(chǎn)決戰(zhàn)期?

    雖然我國汽車芯片行業(yè)還處在發(fā)展初期,但已經(jīng)迸發(fā)出無限潛力。一方面,智能汽車的發(fā)展不斷帶動需求增長;另一方面,政策引導(dǎo)下,汽車芯片企業(yè)持續(xù)搶占高地。對此,在7月5日-7日舉辦的2023年中國汽車論壇上,中國汽車工業(yè)協(xié)會副秘書長李邵華就做出表示,“中國將成為未來汽車芯片發(fā)展的集聚地”。車規(guī)芯片行業(yè)近日的

    標簽:
    人工智能
  • 倒計時2天丨云天勵飛將亮相世界人工智能大會

    2023世界人工智能大會將于7月6日至8日在上海舉辦。云天勵飛將在大會上展示自主設(shè)計開發(fā)的新一代邊緣計算芯片DeepEdge10系列SoC芯片,并公布“天書”大模型的最新動態(tài)。歡迎蒞臨上海世博展覽館H1-C801展臺參觀交流!同時,云天勵飛也將與中國電子、中國信通院、華為等合作伙伴,在WAIC的舞臺

    標簽:
    人工智能
  • 酷學院智能產(chǎn)品發(fā)布會:引領(lǐng)中大型企業(yè)學習新潮流

    近日,酷學院智能產(chǎn)品發(fā)布會在深圳閃亮登場。近200位現(xiàn)場觀眾和近萬人次在線觀看,共同見證了這一激動人心的時刻。發(fā)布會上,酷學院引領(lǐng)大家探索企業(yè)培訓學習和人才發(fā)展領(lǐng)域的新高度,并揭幕其全新的產(chǎn)品智能升級和突破??釋W院產(chǎn)品負責人徐晨通過形象生動、邏輯嚴謹?shù)闹v述,揭曉了全新的智能企業(yè)培訓和人才發(fā)展平臺,以

    標簽:
    人工智能
  • 青少年在科創(chuàng)新活動中受益:人工智能教育開啟未來的可能性

    隨著人工智能技術(shù)的快速發(fā)展,各行各業(yè)都受到了深刻影響,特別是中小學人工智能教育的普及,已經(jīng)成為當今不可忽視的重要課程。ChatGPT等人工智能技術(shù)的出現(xiàn),讓我們看到了人工智能將成為未來推動科技跨越發(fā)展、生產(chǎn)力整體躍升的重要驅(qū)動力量之一。在這個背景下,中小學教育已經(jīng)將人工智能作為重要學習內(nèi)容,并將科技

    標簽:
    人工智能
  • “創(chuàng)造市場”與“算法進化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經(jīng)無法直接進行排位先后、優(yōu)

    標簽:
    ai智能
  • 智能體進化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應(yīng)用門檻實在智能重磅發(fā)布實

  • 崔大寶:大模型降溫背后的難點、卡點、節(jié)點

    崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型

    標簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經(jīng)拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標簽:
    數(shù)字人
  • 來到IPO關(guān)口,地平線離“三分天下”還有多遠?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供

  • 機器人大會引領(lǐng)產(chǎn)業(yè)動向,卓翼飛思繪制無人系統(tǒng)教科研新藍圖

    8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知

  • 卓翼智能:超大載重高烈度環(huán)境特種智能系留無人平臺的應(yīng)用與未來

    瞄準場景需求,打造國內(nèi)領(lǐng)先的自主可控、高質(zhì)量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項

  • 60萬獎金召喚AI創(chuàng)新者,2024無錫國際人工智能創(chuàng)新應(yīng)用大賽火熱進行中!

    人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。無錫市作為中國的科技創(chuàng)新中心之一,正通過構(gòu)建人工智能"算力+算法+數(shù)據(jù)"三要素齊備的產(chǎn)業(yè)生態(tài),為產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用提供強大支撐,通過“AI+”行動推動人工智能與多個產(chǎn)業(yè)交叉融合,實現(xiàn)技術(shù)落地和產(chǎn)業(yè)化,加速形成新質(zhì)生產(chǎn)力,打造具有國際競爭力的產(chǎn)業(yè)創(chuàng)新智造

  • “云+AI”驅(qū)動操作系統(tǒng)創(chuàng)新升級,龍蜥堅持可持續(xù)發(fā)展路線

    近日,2024龍蜥操作系統(tǒng)大會(OpenAnolisConference)在北京圓滿召開,此次大會由中國計算機學會開源發(fā)展委員會、中關(guān)村科學城委員會、海淀區(qū)委網(wǎng)信辦、中國開源軟件推進聯(lián)盟指導(dǎo),龍蜥社區(qū)主辦,阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦,主題為“進化