1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 人工智能
  4. 正文

全雙工就夠了?思必馳聊更強(qiáng)的持續(xù)對(duì)話能力

 2019-12-05 16:08  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

AI語(yǔ)音已逐步滲透到了大眾的生活中,但是刻板的對(duì)話方式似乎還困擾著廣大用戶。

全雙工這個(gè)概念對(duì)人工智能行業(yè)從業(yè)者來講,并不陌生。談到全雙工,此前,谷歌Duplex幫助人們通過電話預(yù)約餐廳和理發(fā)師的功能,帶來了有趣的觀感體驗(yàn),在I/O 2019上,谷歌宣布對(duì)Duplex進(jìn)行重大擴(kuò)展。

谷歌Duplex

在推進(jìn)對(duì)話交互智能的市場(chǎng)化應(yīng)用過程中,思必馳同樣發(fā)現(xiàn),自然流暢的對(duì)話體驗(yàn)、類人化的交互體驗(yàn)成為了絕對(duì)的剛需。

因此,具備以上兩個(gè)特點(diǎn)的全雙工語(yǔ)音交互技術(shù),成為了關(guān)注的焦點(diǎn)。思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱,早在劍橋大學(xué)期間主導(dǎo)開發(fā)了全雙工口語(yǔ)對(duì)話系統(tǒng),2010年參加國(guó)際對(duì)話系統(tǒng)研究挑戰(zhàn)賽時(shí),獲得可控測(cè)試的冠軍,這也是世界上最早的全雙工端到端口語(yǔ)對(duì)話系統(tǒng)之一。區(qū)別在于,與現(xiàn)在廣泛作用于物聯(lián)網(wǎng)智能終端設(shè)備的全雙工交互系統(tǒng)相比,當(dāng)時(shí)的主要應(yīng)用,在基于電話信道的人機(jī)交互方面。

全雙工是個(gè)系統(tǒng)工程

作為系統(tǒng)工程,全雙工需要綜合利用語(yǔ)音語(yǔ)言技術(shù)的各個(gè)模塊,實(shí)現(xiàn)前后聯(lián)動(dòng),例如,其對(duì)前端信號(hào)處理、AEC回聲消除有強(qiáng)相關(guān)依賴,實(shí)時(shí)上傳的音頻對(duì)噪聲處理、音頻音質(zhì)要求較高,同時(shí),作為系統(tǒng)工程,全雙工涉及到全鏈路語(yǔ)音交互的各個(gè)模塊,其同樣需要對(duì)識(shí)別后的識(shí)別信息、語(yǔ)義信息等進(jìn)行綜合判斷及處理,并做出決策。

半雙工&全雙工

因此,全雙工交互技術(shù)的提升涉及到對(duì)話系統(tǒng)的各個(gè)模塊,不僅各個(gè)模塊的功能需要提升,模塊間的配合能力更需要完善。

思必馳在推進(jìn)全雙工交互技術(shù)的市場(chǎng)落地過程中,發(fā)現(xiàn)了一個(gè)更有效的事情,“全雙工+語(yǔ)義拒識(shí)”讓交互體驗(yàn)更加優(yōu)化。全雙工固然重要,但語(yǔ)義拒識(shí)算法,卻往往容易被人忽視。

語(yǔ)義拒識(shí)算法

受限于語(yǔ)音技術(shù)的發(fā)展,現(xiàn)有的對(duì)話系統(tǒng)受噪聲條件的影響非常明顯,缺乏穩(wěn)健性。在對(duì)話系統(tǒng)中,說話人的檢測(cè)和基于語(yǔ)義的拒識(shí)是其非常重要的組成部分。當(dāng)說話人的語(yǔ)音模糊不清或者語(yǔ)音數(shù)據(jù)不在已有訓(xùn)練集合中時(shí),識(shí)別系統(tǒng)會(huì)產(chǎn)生識(shí)別錯(cuò)誤,從而影響對(duì)話系統(tǒng)的識(shí)別和理解效果。

在半雙工狀態(tài)下,環(huán)境噪聲以及周圍人聲容易引起無效輸入,對(duì)話系統(tǒng)或錯(cuò)誤響應(yīng),或給出“沒聽懂”的呆板播報(bào),并且播報(bào)時(shí)不能打斷,十分影響交互效率。全雙工狀態(tài)下,對(duì)無實(shí)際語(yǔ)義的輸入則不會(huì)給出響應(yīng)。

拒識(shí)算法主要目的是去除沒有語(yǔ)義意義的音頻片段,節(jié)省后端處理的計(jì)算資源,提高整個(gè)對(duì)話系統(tǒng)的交互魯棒性,提升用戶使用體驗(yàn),避免錯(cuò)誤的語(yǔ)義理解引發(fā)錯(cuò)誤的反饋到用戶端。

思必馳語(yǔ)義拒識(shí)算法

思必馳拒識(shí)算法能夠解決的很多噪聲和無語(yǔ)義意義的問題,例如用戶無意義的嗯啊聲、背景噪聲與閑聊聲、純音樂聲、聲音幅度小、各種笑聲尖叫聲,無厘頭聲音等。

語(yǔ)義拒識(shí)對(duì)全雙工對(duì)話交互而言至關(guān)重要,可以說,拒識(shí)做不好,全雙工的效果往往也會(huì)差強(qiáng)人意。

思必馳全雙工交互技術(shù),更強(qiáng)的持續(xù)對(duì)話能力

思必馳全雙工交互技術(shù),讓更流暢的多輪對(duì)話成為常態(tài),說法更自由。

l連續(xù)交互免喚醒

過去,半雙工狀態(tài)下,用戶的跨領(lǐng)域交互每次交互都需要重新喚醒,于是,免喚醒技術(shù)成為改善體驗(yàn)的焦點(diǎn)。近些年,免喚醒技術(shù)已不是新鮮方案,有的采用“便捷喚醒詞定制”,有的采用“喚醒+識(shí)別理解一體化”方案,但都存在著諸如“漏字”這類一系列的風(fēng)險(xiǎn):

“你好小馳明天天氣如何?”

漏字通常出現(xiàn)在喚醒詞和后面識(shí)別文本連接的地方,也就是句子中段。當(dāng)系統(tǒng)在識(shí)別過程中漏掉“明”字時(shí),就會(huì)造成時(shí)間信息不清晰(“明天”還是“今天”?),系統(tǒng)無法明確用戶的真正時(shí)間指令。而現(xiàn)在,思必馳全雙工技術(shù)方案可實(shí)現(xiàn)一次喚醒,在多個(gè)領(lǐng)域持續(xù)交互,跨領(lǐng)域指代消解。

l動(dòng)態(tài)斷句

在日常生活中,很多用戶說話會(huì)出現(xiàn)拖音現(xiàn)象,說話過程中,有思考/間斷的過程,因此會(huì)出現(xiàn)很多半截句,簡(jiǎn)單粗暴的調(diào)整語(yǔ)音端點(diǎn)檢測(cè)閾值的做法往往會(huì)帶來對(duì)話卡頓的現(xiàn)象。

半雙工狀態(tài)下,對(duì)話系統(tǒng)設(shè)定了固定的停頓檢測(cè)時(shí)間,用戶還未表達(dá)完整句子稍微一猶豫/停頓,會(huì)被語(yǔ)音端點(diǎn)檢測(cè)系統(tǒng)誤斷句,造成輸入內(nèi)容不完整,機(jī)器無法理解。

思必馳全雙工交互技術(shù)則在云端根據(jù)用戶說話節(jié)奏和內(nèi)容,忽略無意義噪聲,動(dòng)態(tài)斷句,既能保證用戶輸入的完整性,又能保證較快的響應(yīng)速度。在回復(fù)方面,則可以適時(shí)的回復(fù)“嗯”等接話話術(shù),系統(tǒng)打破了對(duì)用戶說話規(guī)則的要求,用戶可以按照自身的說話習(xí)慣來進(jìn)行交流,交互過程更加人性化。

l語(yǔ)義打斷,避免誤打斷

在半雙工狀態(tài)下,語(yǔ)音合成播放時(shí)很難進(jìn)行打斷,在一些終端設(shè)備上,行業(yè)內(nèi)普遍采用的打斷方式是“快捷喚醒詞打斷”,說法十分固定,無法泛化,需要定制多個(gè)喚醒詞,當(dāng)用戶想打斷的時(shí)候,必須要重復(fù)喚醒詞,容易發(fā)生誤打斷。同時(shí),對(duì)話打斷對(duì)環(huán)境有較高要求,在有噪聲的時(shí)候,也容易被誤打斷。

思必馳全雙工交互技術(shù)可在對(duì)話的過程中,實(shí)時(shí)語(yǔ)義打斷,不容易出現(xiàn)誤打斷,同時(shí),對(duì)沒有語(yǔ)義的輸入,則不會(huì)打斷語(yǔ)音合成播放。

這一技術(shù)在智能客服的領(lǐng)域?qū)?huì)大大改善消費(fèi)者的體驗(yàn),消費(fèi)者可以隨時(shí)隨刻打斷機(jī)器人客服的無效對(duì)話信息,進(jìn)行信息咨詢。

如何判斷什么時(shí)候接話,什么時(shí)候反問,機(jī)器需要有智能決策的能力,這也是思必馳全雙工技術(shù)的一大特性:主動(dòng)交互。根據(jù)用戶表達(dá)狀態(tài),如“正常說話”、“主動(dòng)沉默”、“無意義表達(dá)”等狀態(tài),來給予相應(yīng)的主動(dòng)反饋。

思必馳全雙工交互技術(shù)支持智能判斷,尤其是能夠主動(dòng)打斷用戶的復(fù)雜冗長(zhǎng)表達(dá),主動(dòng)打破沉默僵局,實(shí)現(xiàn)流暢自然的用戶口語(yǔ)交流習(xí)慣。當(dāng)識(shí)別到用戶正常表達(dá)時(shí),機(jī)器等待說完后答復(fù)反饋;當(dāng)用戶大段無意義輸入或表達(dá)過于復(fù)雜時(shí),會(huì)主動(dòng)打斷并提示反問;在交互過程中,當(dāng)用戶沉默時(shí),則可以主動(dòng)發(fā)起對(duì)話交互。

同時(shí),經(jīng)過反復(fù)打磨和優(yōu)化,該技術(shù)對(duì)系統(tǒng)功耗幾乎無影響,實(shí)現(xiàn)低功耗下的最優(yōu)質(zhì)體驗(yàn)。

思必馳全雙工語(yǔ)音交互

實(shí)踐,是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)

目前,思必馳全雙工交互技術(shù)已展開全線方案滲透,包括AIOT方案和企業(yè)信息智能服務(wù),深入作用汽車、家居、電子、教育、醫(yī)療、政務(wù)、金融、物流、酒店等場(chǎng)景。以音箱方案為例,接入全雙工系統(tǒng)后,這款“智能助理設(shè)備終端”將更似真人助理,更具備人類親和力的特質(zhì)和邏輯思維能力,整個(gè)對(duì)話體驗(yàn)更加自然流暢。

思必馳業(yè)務(wù)場(chǎng)景

云端全雙工中控大腦持續(xù)優(yōu)化

針對(duì)全雙工交互技術(shù),思必馳將持續(xù)優(yōu)化云端全雙工中控大腦,持續(xù)進(jìn)行策略優(yōu)化、場(chǎng)景優(yōu)化、單點(diǎn)技術(shù)模塊優(yōu)化,將交互體驗(yàn)做的更好。

未來,多模態(tài)交互將會(huì)讓全雙工交互技術(shù)發(fā)揮更大的能量,配合聲紋識(shí)別、圖像處理、虹膜識(shí)別等技術(shù),過濾無用信息,人機(jī)交互會(huì)變得更加貼合人性,或許不遠(yuǎn)的未來,你甚至分不清與你隔屏對(duì)話的,到底是人還是機(jī)器人。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
ai技術(shù)
智能語(yǔ)音

相關(guān)文章

  • 匯聚中國(guó)AI頂尖力量 云天勵(lì)飛參與華為AI大模型聯(lián)合創(chuàng)新

    2023年7月6日,第六屆世界人工智能大會(huì)(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會(huì)的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領(lǐng)軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊(duì)”,云天勵(lì)飛作為中國(guó)人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運(yùn)營(yíng)商、科研院所等優(yōu)秀團(tuán)隊(duì)

    標(biāo)簽:
    ai技術(shù)
  • 用友大易:邁入AI招聘2.0時(shí)代,讓人力資源回歸本質(zhì)

    這幾個(gè)月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個(gè)名詞重回C位。過去在AI1.0時(shí)代,主要通過訓(xùn)練模型來實(shí)現(xiàn)圖像識(shí)別、聲音識(shí)別、語(yǔ)言處理等特

    標(biāo)簽:
    ai技術(shù)
  • 新發(fā)布的PaaS2.0,能否助力涂鴉智能再起飛?

    文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個(gè)新故事。6月29日,涂鴉智能在開發(fā)者大會(huì)上,發(fā)布了企業(yè)級(jí)戰(zhàn)略PaaS2.0,希望通過一個(gè)平臺(tái)+四大開發(fā)服務(wù),建立起IoT生態(tài)。對(duì)于這場(chǎng)發(fā)布會(huì),市場(chǎng)的態(tài)度是積極的。美東時(shí)間6月29日收盤,涂鴉智能美股股價(jià)上漲5.6%,來到1.87美元/股。近日股價(jià)穩(wěn)定

    標(biāo)簽:
    ai技術(shù)
  • 大模型難掩AI制藥的悲傷:越過山丘,無人等候

    美團(tuán)曾經(jīng)的二號(hào)人物王慧文對(duì)標(biāo)OpenAI的創(chuàng)業(yè)項(xiàng)目光年之外,以20億賣給美團(tuán),再度引發(fā)市場(chǎng)對(duì)大模型的熱議。

    標(biāo)簽:
    ai技術(shù)
  • 拾起王慧文的AI夢(mèng),美團(tuán)沖向“光年之外”?

    2020年底,王慧文在朋友圈寫下這句話時(shí),外界本以為這位伴隨中國(guó)互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺(tái)。但是,一個(gè)曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

    標(biāo)簽:
    ai技術(shù)
  • “創(chuàng)造市場(chǎng)”與“算法進(jìn)化”,中美AI競(jìng)速的岔路口

    “人工智能的商業(yè)模式,是要?jiǎng)?chuàng)造一個(gè)市場(chǎng),而非一個(gè)算法”。這是世界AI泰斗MichaelI.Jordan的觀點(diǎn)。而當(dāng)前的全球AI市場(chǎng),占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個(gè)方向,或許已經(jīng)無法直接進(jìn)行排位先后、優(yōu)

    標(biāo)簽:
    ai智能
  • 智能體進(jìn)化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進(jìn)化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實(shí)在智能最新發(fā)布的實(shí)在Agent7.0,看RPAAgent的迭代升級(jí)抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實(shí)現(xiàn)了流程全自動(dòng)化AIAgent構(gòu)建到執(zhí)行全自動(dòng)化,持續(xù)進(jìn)化RPAAgent再次降低智能體應(yīng)用門檻實(shí)在智能重磅發(fā)布實(shí)

  • 崔大寶:大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

    崔大寶|節(jié)點(diǎn)財(cái)經(jīng)創(chuàng)始人進(jìn)入2024年,大模型似乎有熄火之勢(shì):資本市場(chǎng),與之關(guān)聯(lián)的概念炒不動(dòng)了,英偉達(dá)股價(jià)動(dòng)輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費(fèi)市場(chǎng),BATH們的推新活動(dòng)少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場(chǎng)酣仗:自5月15日字節(jié)跳動(dòng)宣布“以厘計(jì)費(fèi)”,打響國(guó)內(nèi)大模型

    標(biāo)簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經(jīng)拿捧上了“鐵飯碗”

    文|智能相對(duì)論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個(gè)數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機(jī)構(gòu)開始用上了“數(shù)字員工”。甚至很多中國(guó)人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡(jiǎn)單翻看一下全國(guó)各地事業(yè)單位的“錄

    標(biāo)簽:
    數(shù)字人
  • 來到IPO關(guān)口,地平線離“三分天下”還有多遠(yuǎn)?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國(guó)證監(jiān)會(huì)IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計(jì)籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級(jí)輔助駕駛(ADAS)和高階自動(dòng)駕駛(AD)解決方案供

  • 機(jī)器人大會(huì)引領(lǐng)產(chǎn)業(yè)動(dòng)向,卓翼飛思繪制無人系統(tǒng)教科研新藍(lán)圖

    8月21日,萬眾矚目的2024世界機(jī)器人大會(huì)暨博覽會(huì)在北京亦創(chuàng)國(guó)際會(huì)展中心盛大開幕。這場(chǎng)為期5天,集“展覽”“論壇”“賽事”于一體的機(jī)器人盛會(huì),反映了當(dāng)下機(jī)器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計(jì)數(shù)據(jù),今年現(xiàn)場(chǎng)逛展觀眾高達(dá)25萬人次,比去年增加25%。機(jī)器人行業(yè)有多火?看看2024世界機(jī)器人大會(huì)火爆程度便可知

  • 卓翼智能:超大載重高烈度環(huán)境特種智能系留無人平臺(tái)的應(yīng)用與未來

    瞄準(zhǔn)場(chǎng)景需求,打造國(guó)內(nèi)領(lǐng)先的自主可控、高質(zhì)量超大載重高烈度環(huán)境特種智能系留無人平臺(tái)。卓翼智能亮相HICOOL峰會(huì)以科技實(shí)力榮摘?jiǎng)?chuàng)業(yè)大賽一等獎(jiǎng)這個(gè)比賽5年培育出16家“獨(dú)角獸”HICOOL2024全球創(chuàng)業(yè)者峰會(huì)暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個(gè)國(guó)家和地區(qū)的7406個(gè)創(chuàng)業(yè)項(xiàng)

  • 60萬獎(jiǎng)金召喚AI創(chuàng)新者,2024無錫國(guó)際人工智能創(chuàng)新應(yīng)用大賽火熱進(jìn)行中!

    人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量。無錫市作為中國(guó)的科技創(chuàng)新中心之一,正通過構(gòu)建人工智能"算力+算法+數(shù)據(jù)"三要素齊備的產(chǎn)業(yè)生態(tài),為產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用提供強(qiáng)大支撐,通過“AI+”行動(dòng)推動(dòng)人工智能與多個(gè)產(chǎn)業(yè)交叉融合,實(shí)現(xiàn)技術(shù)落地和產(chǎn)業(yè)化,加速形成新質(zhì)生產(chǎn)力,打造具有國(guó)際競(jìng)爭(zhēng)力的產(chǎn)業(yè)創(chuàng)新智造

  • “云+AI”驅(qū)動(dòng)操作系統(tǒng)創(chuàng)新升級(jí),龍蜥堅(jiān)持可持續(xù)發(fā)展路線

    近日,2024龍蜥操作系統(tǒng)大會(huì)(OpenAnolisConference)在北京圓滿召開,此次大會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)開源發(fā)展委員會(huì)、中關(guān)村科學(xué)城委員會(huì)、海淀區(qū)委網(wǎng)信辦、中國(guó)開源軟件推進(jìn)聯(lián)盟指導(dǎo),龍蜥社區(qū)主辦,阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦,主題為“進(jìn)化