如果你問一知人最喜歡聽到的話是什么,那一定會是“你們的機(jī)器人也太像真人了吧!”。
(資料圖片)
從一句話通知到平均對話時長超過一分鐘,從“人工智障”到“金牌客服”,底層核心能力逐漸成熟,語音識別準(zhǔn)確率穩(wěn)步提升,一點(diǎn)一滴的進(jìn)步讓人工智能電話通道的有效觸達(dá)成為可能。而在對話體驗(yàn)不斷提升的背后,站著的,是一群敢于摘星的人,他們就是一知智能算法團(tuán)隊(duì)。
這是一個碩博率達(dá)到100%的部門,匯集了眾多業(yè)內(nèi)頂尖的技術(shù)人才。其中有AI Lab主任姜興華等屢獲行業(yè)大獎的牛人,有薛弘揚(yáng)博士等人工智能科學(xué)家,也有畢業(yè)于東京大學(xué)、美國加州大學(xué)洛杉磯分校、南安普頓大學(xué)、瑞典皇家理工學(xué)院、利物浦大學(xué),浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)、西安交通大學(xué)、華中科技大學(xué)等國內(nèi)外頂尖院校的精英。
作為技術(shù)驅(qū)動型公司,一知智能始終保持對技術(shù)先進(jìn)性的追求。一知智能算法團(tuán)隊(duì)核心成員來自浙江大學(xué)人工智能研究所和國家重點(diǎn)實(shí)驗(yàn)室,擁有強(qiáng)大的高校研發(fā)背景。創(chuàng)始團(tuán)隊(duì)在校期間屢次在國際大賽中獲獎。2016年知識圖譜構(gòu)建競賽(Knowledge Base Population,簡稱 KBP)領(lǐng)先IBM、科大訊飛(002230)、CMU等研究機(jī)構(gòu)獲實(shí)體檢測任務(wù)(Mention Detection)國際綜合排名第一;2017年在機(jī)器閱讀理解大賽(Stanford Question Answering Dataset,簡稱SQuAD)中,領(lǐng)先谷歌、微軟、BAT、科大訊飛等名企,榮獲國際單模型組國際排名第二(國內(nèi)第一)、國際多模型組國際排名第三;2017年SNLI機(jī)器閱讀理解大賽打敗了斯坦福、MIT、UIUC、清華等國際頂尖知名高校位列國際排名第一。2019年2月,一知智能與浙江大學(xué)聯(lián)合成立了浙大·一知人工智能研究中心。其中,與微軟亞研院聯(lián)合研發(fā)的FastSpeech算法合成速度比谷歌快260倍;SimulSpeech同聲傳譯算法為同等翻譯效果下業(yè)界最快實(shí)時性翻譯;FastLR唇語識別算法為目前世界上解碼速度最快的唇語識別系統(tǒng),比第二名caseded算法快10倍。與此同時,算法團(tuán)隊(duì)還擁有十余項(xiàng)自主研發(fā)的人機(jī)語音交互國家專利,語音人工智能領(lǐng)域國家專利數(shù)量在業(yè)內(nèi)遙遙領(lǐng)先,在核心算法技術(shù)上自研已達(dá)到行業(yè)頂尖和國際前沿水平。
正是這樣一群人聚在一起,解決行業(yè)頂尖的技術(shù)難題,試圖摘取人工智能皇冠上的明珠,再通過技術(shù)落地讓每一次人機(jī)交互的體驗(yàn)變得更好。2022年,一知智能算法團(tuán)隊(duì)實(shí)現(xiàn)了意圖識別系統(tǒng)全面升級,在電商、反電詐、游戲等場景下均實(shí)現(xiàn)了超過96%的準(zhǔn)確率,與此同時,他們還完成了新一代自研ASR系統(tǒng),識別準(zhǔn)確率大幅提升,也進(jìn)一步優(yōu)化了語音人機(jī)交互對話體驗(yàn)。
他們不僅是一知底層技術(shù)的挖掘者,也是站在行業(yè)前沿的“弄潮兒”。自2022年8月以來,為保護(hù)消費(fèi)者隱私,各大電商平臺相繼推出虛擬號功能,將消費(fèi)者的手機(jī)號碼改為虛擬號碼,現(xiàn)有的外呼手段無法觸達(dá)品牌相關(guān)用戶群體。而在短短一個月內(nèi),一知智能就實(shí)現(xiàn)了基于虛擬號的完整外呼方案,也是當(dāng)時市場上唯一實(shí)現(xiàn)該外呼方式的廠商。一知智能算法團(tuán)隊(duì)研發(fā)的分機(jī)號接通時刻判斷算法也獲得了國家發(fā)明專利,分機(jī)號輸入判斷模型和接通狀態(tài)判斷模型能夠在毫秒級(20ms)的時間內(nèi)判斷何時輸入分機(jī)號以及用戶是否接起通話,準(zhǔn)確率高達(dá)99%,在提升外呼效率的同時,也能確保運(yùn)營商側(cè)能夠準(zhǔn)確的接收分機(jī)號輸入。
另一方面,算法的優(yōu)化也大幅提高了AI訓(xùn)練師的工作效率。目前,公司已研發(fā)意向等級自動判斷算法,平均可節(jié)約訓(xùn)練師配置話術(shù)約20%的時間,并針對行業(yè)首創(chuàng)的生成式話術(shù)自動化算法完成算法驗(yàn)證,該項(xiàng)技術(shù)為探索需要大批量話術(shù)交付的業(yè)務(wù)場景提供了可能性。
看看一知 Labs 的核心方向還有哪些!
持續(xù)突破底層核心技術(shù)
語音識別系統(tǒng)
一知智能自研ASR系統(tǒng)使用了最新的conformer模型,與之前版本的傳統(tǒng)模型相比,層數(shù)更多,效果更好。模型設(shè)計采用了U2++結(jié)構(gòu),統(tǒng)一了流式和非流式的模式。在業(yè)務(wù)使用中,采用CTC流式解碼,結(jié)合attention和語言模型rescore,能夠?qū)崟r快速獲得識別的中間結(jié)果,并確保最終預(yù)測結(jié)果的準(zhǔn)確率。與此同時,算法團(tuán)隊(duì)還根據(jù)具體業(yè)務(wù)場景的實(shí)際使用情況,增加了專有名詞糾錯模塊,提高了ASR系統(tǒng)在各個定制領(lǐng)域中的識別準(zhǔn)確率。
意圖識別算法
一知智能的意圖識別算法利用蒸餾算法,有效地減少了算法模型參數(shù),在保持模型高識別率的前提下,大幅度提升算法模型的推理性能,有助于支撐一知業(yè)務(wù)量的增長。同時,一知智能算法團(tuán)隊(duì)也長期致力于模型能力的提升,研究并發(fā)表了相關(guān)技術(shù)的發(fā)明專利。與此同時,利用少樣本學(xué)習(xí)技術(shù),用少量的標(biāo)注數(shù)據(jù),訓(xùn)練出具有相同性能的算法模型,將模型的通用能力和特定行業(yè)下的垂直場景進(jìn)行高效融合,賦予了多樣場景快速平鋪的能力。
而近期ChatGPT的出現(xiàn)和火熱意味著深度學(xué)習(xí)意圖識別算法能力有了全新突破,除了ChatGPT這類直接面向終端用戶的產(chǎn)品以外,生成式AI還有更為廣闊的技術(shù)應(yīng)用空間。ChatGPT及其相關(guān)的人工智能內(nèi)容生成技術(shù)也與一知智能現(xiàn)有業(yè)務(wù)息息相關(guān)。一知智能的AI外呼產(chǎn)品已廣泛應(yīng)用于電商、政企、出海等各個行業(yè),引入ChatGPT的強(qiáng)大能力,協(xié)助AI訓(xùn)練師的編寫話術(shù)腳本,能夠顯著提升工作效率,與此同時,將ChatGPT納入真實(shí)對話體系,提升對話廣度和深度,最大限度減少“答非所問”。AIGC通用模型能力的持續(xù)發(fā)展必將催生一場內(nèi)容生成產(chǎn)業(yè)變革,也期待多模態(tài)人機(jī)交互能力能乘著這陣東風(fēng)上更上一層樓。
快速響應(yīng)客戶需求和痛點(diǎn)
意向等級判斷算法
在AI外呼場景中,當(dāng)我們的AI機(jī)器人結(jié)束與客戶的通話后,了解該客戶的意向等級(意向強(qiáng)烈、意向一般、意向弱等)是AI外呼公司一項(xiàng)不可避免的緊迫任務(wù),企業(yè)客戶對于意向等級判斷的效率和質(zhì)量有著極高的要求。在算法介入之前,AI訓(xùn)練師需要編寫大量的意向規(guī)則以匹配相關(guān)關(guān)鍵詞來判斷意向,該方式非常耗時且準(zhǔn)確率也不高。
算法同學(xué)在分析該場景后發(fā)現(xiàn),這一場景其實(shí)非常符合決策樹的邏輯,基于這一判斷,我們針對AI機(jī)器人話術(shù)和客戶話術(shù)分別訓(xùn)練了分類算法模型,在拿到這些話術(shù)標(biāo)簽后,依據(jù)話術(shù)標(biāo)簽的轉(zhuǎn)換邏輯,從上至下遍歷整個話術(shù),最終自動完成話術(shù)意向等級的判斷。這一算法的引入平均可節(jié)約訓(xùn)練師配置話術(shù)約20%的時間,同時也能大幅提升準(zhǔn)確率。
話術(shù)自動化系統(tǒng)
一知智能最新研發(fā)的話術(shù)自動化系統(tǒng)能夠根據(jù)用戶輸入的數(shù)據(jù)直接生成準(zhǔn)確、通順的話術(shù)草稿。在算法層面,該系統(tǒng)分為兩部分:一是將話術(shù)編輯的專家知識解構(gòu)成本體模型、語義推理規(guī)則體系、語用分類規(guī)則體系三個維度的數(shù)據(jù);二是基于語義角色和語法規(guī)則的文本生成引擎。話術(shù)自動化系統(tǒng)能夠大大減少AI訓(xùn)練師的早期工作量,并使大批量精細(xì)化場景的話術(shù)高效交付成為可能。
分機(jī)號外呼算法
為了保護(hù)個人隱私,天貓、美團(tuán)等主流電商平臺,不再直接提供客戶的手機(jī)號,而是通過虛擬號的方式提供客戶信息。
對于一知智能這類外號平臺來說,最大的困難在于我們無法在客戶拿起電話的那一刻獲得信號信息,這就導(dǎo)致我們的AI機(jī)器人不知從何時開始和客戶對話。因此,一知智能算法團(tuán)隊(duì)針對這一問題,自研了一套分機(jī)號接通時刻點(diǎn)判斷系統(tǒng),成為業(yè)內(nèi)最早支持此項(xiàng)技術(shù)的外呼廠商之一,同時該項(xiàng)技術(shù)也獲得了國家發(fā)明專利。分機(jī)號輸入判斷模型和接通狀態(tài)判斷模型均能在毫秒級(20ms)的時間內(nèi)判斷何時輸入分機(jī)號以及用戶是否接起通話,準(zhǔn)確率高達(dá)99%,在提升外呼效率的同時,還可以確保運(yùn)營商側(cè)能夠準(zhǔn)確接收分機(jī)號碼輸入。
向前一步探索第二曲線
數(shù)字人口型合成算法
一知智能自主研發(fā)的數(shù)字人產(chǎn)品采用了一知智能數(shù)字人業(yè)務(wù)研發(fā)團(tuán)隊(duì)最新推出的由文本和語音驅(qū)動的數(shù)字人口型合成算法,并基于自然語言理解、語音識別、意圖識別、語音合成等一知智能底層核心技術(shù)能力,集成于一知大腦“Yi Brain”,可根據(jù)對話情境完成高度擬人化的對話交流,支持直播、人機(jī)交互大屏、終端機(jī)等多種交互場景。
利用口型合成算法,只需提前拍攝一個幾分鐘的視頻,即可為視頻中的人物生成虛擬形象。此后就可以使用任意文本和語音,驅(qū)動虛擬形象講述新的內(nèi)容。在生成的視頻中,虛擬形象的面部表情和口型會與新的講述內(nèi)容匹配一致,實(shí)現(xiàn)實(shí)時表情、音唇同步,如同重新拍攝的短視頻一般,具備極高的真實(shí)感;同時又省去了重新布置場景、拍攝真人短視頻的復(fù)雜工序和高昂成本。這項(xiàng)技術(shù)可廣泛應(yīng)用于虛擬人短視頻口播、直播等豐富的商業(yè)化落地場景。
一知智能數(shù)字人研發(fā)團(tuán)隊(duì)由多模態(tài)人機(jī)交互領(lǐng)域?qū)<?/strong>薛弘揚(yáng)博士擔(dān)任負(fù)責(zé)人,薛弘揚(yáng)博士在多模態(tài)可視化交互技術(shù)上的研發(fā)背景和應(yīng)用研究經(jīng)驗(yàn)補(bǔ)上了一知智能全棧人機(jī)交互的最后一塊拼圖。數(shù)字人業(yè)務(wù)的開拓能夠補(bǔ)齊一知現(xiàn)有產(chǎn)品在公域獲客、提升品牌用戶心智的需求短板,為企業(yè)提供更多場景、更高水平的解決方案,幫助企業(yè)客戶在全域營銷擁有更多AI數(shù)字生產(chǎn)力。
2023年,一知智能算法團(tuán)隊(duì)將持續(xù)研發(fā)語音、文本、圖像等多模態(tài)內(nèi)容理解和內(nèi)容生成算法,通過AI技術(shù)提升對話體驗(yàn),提升外呼機(jī)器人的實(shí)施效率。在深入研究多模態(tài)人機(jī)交互技術(shù)的同時,借助ChatGPT等大模型算法能力,構(gòu)建屬于一知的技術(shù)護(hù)城河。
【廣告】
(免責(zé)聲明:此文內(nèi)容為廣告,相關(guān)素材由廣告主提供,廣告主對本廣告內(nèi)容的真實(shí)性負(fù)責(zé)。本網(wǎng)發(fā)布目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),請自行核實(shí)相關(guān)內(nèi)容。廣告內(nèi)容僅供讀者參考。)