當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

愛(ài)數(shù)智慧高難度對(duì)話測(cè)試集入選LDC Catalog,助力語(yǔ)音識(shí)別

 2019-12-20 17:05  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

2019年12月,愛(ài)數(shù)智慧自然式對(duì)話測(cè)試數(shù)據(jù)集入選LDC Catalog,編號(hào)為L(zhǎng)DC2019S23。LDC Catalog是經(jīng)過(guò)CoreTrustSeal數(shù)據(jù)知識(shí)庫(kù)認(rèn)證的數(shù)據(jù)存儲(chǔ)平臺(tái),并獲得OLAC(開(kāi)放數(shù)據(jù)存儲(chǔ)聯(lián)盟) 五星級(jí)評(píng)定。愛(ài)數(shù)智慧此次入選的數(shù)據(jù)集由60名發(fā)音人在不同環(huán)境中錄制而成,發(fā)音人來(lái)自全國(guó)多個(gè)口音區(qū),年齡段覆蓋均衡。作為測(cè)試集,該數(shù)據(jù)集可為多種對(duì)話類語(yǔ)音識(shí)別模型測(cè)試提供特征廣泛的語(yǔ)音數(shù)據(jù)。

AI巨頭發(fā)力多輪對(duì)話研究,對(duì)話數(shù)據(jù)集需求爆發(fā)

AI巨頭在應(yīng)用層的拓展推動(dòng)對(duì)話類數(shù)據(jù)集需求迎來(lái)爆發(fā)期。《2019人工智能商業(yè)化報(bào)告》指出,語(yǔ)音交互更貼近人類的溝通行為和習(xí)慣,隨著技術(shù)突破帶來(lái)的用戶體驗(yàn)的提升,將最有可能成為人機(jī)交互的主流。對(duì)話式語(yǔ)音交互成為AI巨頭發(fā)力的重點(diǎn),谷歌、亞馬遜、阿里、騰訊、百度、小米等紛紛推出了支持多輪連續(xù)對(duì)話的智能音箱、智能助理、智慧客服、智能機(jī)器人等產(chǎn)品。AI系統(tǒng)連續(xù)對(duì)話能力將引發(fā)金融、教育、科技互聯(lián)網(wǎng)、交通出行、移動(dòng)通信、科技制造等行業(yè)的交互變革。

另一方面,朗讀式數(shù)據(jù)的模型識(shí)別準(zhǔn)確率已可達(dá)97%-98%,而從CHiME 5比賽數(shù)據(jù)來(lái)看,對(duì)話式數(shù)據(jù)的模型識(shí)別準(zhǔn)確率基本在50%左右。這個(gè)結(jié)果表明,在語(yǔ)音識(shí)別領(lǐng)域,對(duì)話類語(yǔ)音識(shí)別仍然是一個(gè)挑戰(zhàn)。語(yǔ)音識(shí)別技術(shù)應(yīng)用需要更好、更智能的對(duì)話類語(yǔ)音識(shí)別模型,也需要更多的對(duì)話類數(shù)據(jù)提升模型性能。

愛(ài)數(shù)智慧自然式對(duì)話測(cè)試數(shù)據(jù)集入選LDC Catalog

總有一些企業(yè)走在了行業(yè)趨勢(shì)的前端,因此當(dāng)市場(chǎng)需求興起時(shí),那些具有前瞻性眼光的企業(yè)便能抓住機(jī)遇的風(fēng)口。2019年12月,著名的語(yǔ)音數(shù)據(jù)存儲(chǔ)與發(fā)布平臺(tái)LDC將愛(ài)數(shù)智慧的自然式對(duì)話測(cè)試數(shù)據(jù)集納入數(shù)據(jù)集目錄,編號(hào)為L(zhǎng)DC2019S23。公開(kāi)資料顯示,該目錄已經(jīng)過(guò)CoreTrustSeal數(shù)據(jù)知識(shí)庫(kù)認(rèn)證。這充分肯定了入選數(shù)據(jù)集的可信賴度,同時(shí)也表明這些數(shù)據(jù)在未來(lái)仍然有用且有意義。

愛(ài)數(shù)智慧自然式對(duì)話測(cè)試數(shù)據(jù)集詳解

愛(ài)數(shù)智慧科技有限公司成立于2016年,是一家專業(yè)的人工智能數(shù)據(jù)服務(wù)商,為語(yǔ)音識(shí)別、語(yǔ)音合成等領(lǐng)域提供專業(yè)的數(shù)據(jù)采集和標(biāo)注服務(wù)。人工智能從業(yè)者常說(shuō) “Garbage in, garbage out”,也就是說(shuō)好的數(shù)據(jù)和好的模型一樣重要。因此,我們不禁有些好奇這個(gè)數(shù)據(jù)集的魅力。愛(ài)數(shù)智慧的工作人員從數(shù)據(jù)采集、標(biāo)注以及應(yīng)用三方面為我們講述了這個(gè)數(shù)據(jù)集的豐富內(nèi)涵。

(一)采集的多樣性

該數(shù)據(jù)集采用自發(fā)式風(fēng)格錄制,發(fā)音人根據(jù)選擇的主題自由對(duì)話,充分還原生活中自然語(yǔ)言對(duì)話的場(chǎng)景。

發(fā)音人的多樣性:該數(shù)據(jù)集由60名發(fā)音人錄制而成,年齡段為4-67歲,采樣均衡;發(fā)音人來(lái)自全國(guó)多個(gè)口音區(qū),如陜西、內(nèi)蒙、福建等;

錄制環(huán)境多樣性:該數(shù)據(jù)集在三個(gè)不同混響的房間進(jìn)行錄制,接近真實(shí)生活場(chǎng)景;

錄音設(shè)備多樣性:錄音設(shè)備包含5種不同品牌安卓手機(jī)、8種型號(hào)的蘋(píng)果手機(jī)、2種型號(hào)的錄音筆;

拾音距離的多樣性:數(shù)據(jù)集既包含近場(chǎng)數(shù)據(jù),又包含遠(yuǎn)場(chǎng)數(shù)據(jù)。

(二)標(biāo)注的準(zhǔn)確性

同一說(shuō)話人音頻截取的準(zhǔn)確性。在對(duì)話過(guò)程中,既有設(shè)備錄制單人說(shuō)話聲音,又有設(shè)備

同時(shí)記錄對(duì)話音頻。因此,為了保證說(shuō)話人音頻的一致性,需要將至少3份音頻數(shù)據(jù)結(jié)合起來(lái)標(biāo)注。這要求在不同的音頻數(shù)據(jù)中,對(duì)同一說(shuō)話人音頻的截取要保持高度的統(tǒng)一。

前瞻性的標(biāo)簽體系和標(biāo)注準(zhǔn)則。自然語(yǔ)言產(chǎn)生的語(yǔ)音交疊、停頓、咳嗽、拍手等聲音都

是有意義的,這些聲音表明了說(shuō)話人的狀態(tài)、情緒,甚至?xí)凳菊f(shuō)話人的心理活動(dòng)。如何用機(jī)器可識(shí)別的語(yǔ)言說(shuō)明這些聲音呢?愛(ài)數(shù)智慧的標(biāo)注團(tuán)隊(duì)制定了一套客戶認(rèn)可的標(biāo)簽體系,為出現(xiàn)在音頻中的每一種聲音找到歸屬。在長(zhǎng)期的標(biāo)注中,愛(ài)數(shù)智慧形成了一套完整的標(biāo)注準(zhǔn)則,讓數(shù)據(jù)保持一致性。

(三)語(yǔ)音識(shí)別模型適配的多樣性

該自然式對(duì)話測(cè)試數(shù)據(jù)集可用于多種類型的語(yǔ)音識(shí)別模型測(cè)試,如對(duì)話識(shí)別模型、說(shuō)話人分離、模型魯棒性測(cè)試等。

對(duì)話類語(yǔ)音識(shí)別模型準(zhǔn)確率測(cè)試。例如,在一個(gè)典型的家庭應(yīng)用場(chǎng)景中,使用語(yǔ)音交互的家庭成員包含老人、妻子(成年女性)、丈夫(成年男性)、孩子。這些家庭成員的發(fā)音方式、發(fā)音習(xí)慣均有差異。在語(yǔ)音識(shí)別模型中,該數(shù)據(jù)集發(fā)音人年齡的多樣性可用于測(cè)試模型對(duì)不同年齡段的識(shí)別效果。

說(shuō)話人分離任務(wù)測(cè)試?;谔囟ㄕf(shuō)話人的場(chǎng)景化識(shí)別已經(jīng)成為研究熱點(diǎn),美國(guó)國(guó)家標(biāo)準(zhǔn)局從2002年的豐富轉(zhuǎn)寫(xiě)評(píng)測(cè)中正式加入了說(shuō)話人分離任務(wù),即從多人對(duì)話中自動(dòng)地將語(yǔ)音依據(jù)說(shuō)話人進(jìn)行劃分并加以標(biāo)記。該數(shù)據(jù)集在采集中,已經(jīng)設(shè)置了單人錄音通道和多人錄音通道。因此,可以將該數(shù)據(jù)集用于測(cè)試模型對(duì)說(shuō)話人分離任務(wù)的準(zhǔn)確率。

說(shuō)話人確認(rèn)任務(wù)測(cè)試。標(biāo)注人員按照說(shuō)話人對(duì)音頻進(jìn)行標(biāo)注,即每段音頻都有對(duì)應(yīng)的說(shuō)話人。由于該數(shù)據(jù)集采用多種不同類型的設(shè)備錄制,在模型中,可將不同設(shè)備錄制的語(yǔ)音段用于對(duì)待測(cè)說(shuō)話人的身份進(jìn)行判斷,從而得出模型完成說(shuō)話人確認(rèn)任務(wù)的準(zhǔn)確率。

模型魯棒性測(cè)試。該數(shù)據(jù)集采集中,既有近場(chǎng)數(shù)據(jù),又包含遠(yuǎn)場(chǎng)數(shù)據(jù)。將不同拾音距離的數(shù)據(jù)放入模型中,可以測(cè)試出模型在不同底噪、距離等因素干擾下的準(zhǔn)確率,從而分析模型魯棒性。

此外,該數(shù)據(jù)集包含了多種口音的語(yǔ)音數(shù)據(jù),可以幫助模型快速擴(kuò)展到多個(gè)不同口音區(qū)域。

據(jù)了解,愛(ài)數(shù)智慧擁有數(shù)據(jù)量行業(yè)領(lǐng)先的中文自然對(duì)話數(shù)據(jù)庫(kù),并在多語(yǔ)種自然對(duì)話數(shù)據(jù)制作上擁有行業(yè)認(rèn)可的專業(yè)度。可制作50多種語(yǔ)言的數(shù)據(jù)集,如中文、日語(yǔ)、韓語(yǔ)、泰語(yǔ)、他加祿語(yǔ)、馬來(lái)語(yǔ)以及各種口音的英語(yǔ)等。該公司已經(jīng)積累10萬(wàn)小時(shí)+多語(yǔ)種多場(chǎng)景的音頻數(shù)據(jù),可快速用于提高語(yǔ)音識(shí)別模型性能。隨著AI巨頭對(duì)對(duì)話數(shù)據(jù)需求的爆發(fā)式增長(zhǎng),我們期待愛(ài)數(shù)智慧作為對(duì)話數(shù)據(jù)制作的先行者,發(fā)揮先發(fā)優(yōu)勢(shì),為提升語(yǔ)音識(shí)別模型性能提供有力的數(shù)據(jù)支撐。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
語(yǔ)音識(shí)別

相關(guān)文章

熱門(mén)排行

信息推薦