背景
傳統(tǒng)語音質(zhì)檢通常是指質(zhì)檢員聽取一定比例的電話錄音進(jìn)行人工質(zhì)檢,檢測坐席在通話過程中是否有違規(guī)或非標(biāo)準(zhǔn)話術(shù)行為,如罵人、嘲諷、推諉、過度承諾等,以規(guī)范坐席人員行為,進(jìn)而提升客戶服務(wù)質(zhì)量。純?nèi)斯ぢ犎′浺粜实?,單人日均僅能聽取約3小時(shí),在大規(guī)模呼叫中心中往往只能實(shí)現(xiàn)少量錄音的抽檢,覆蓋率低。隨著語音識別、自然語言理解技術(shù)的高速發(fā)展,近年來誕生了智能語音質(zhì)檢系統(tǒng),在語音質(zhì)檢上起到了越來越重要的作用。
智能語音質(zhì)檢一般采用機(jī)器質(zhì)檢與人工復(fù)檢相結(jié)合的方式,會覆蓋客戶和坐席的每一句話,可以很好地輔助提升人工坐席的服務(wù)質(zhì)量,智能語音質(zhì)檢相比傳統(tǒng)語音質(zhì)檢具有以下優(yōu)勢:
目前58同城呼叫中心每年有上億通電話,為了能夠?qū)崿F(xiàn)海量電話錄音全量自動(dòng)化質(zhì)檢,TEG技術(shù)工程平臺群AI Lab自研了智能語音質(zhì)檢系統(tǒng),它是利用語音識別、自然語言處理、大數(shù)據(jù)技術(shù)構(gòu)建起來的質(zhì)檢管理系統(tǒng),集成了數(shù)據(jù)收集、存儲、質(zhì)檢、分析等功能。58智能語音質(zhì)檢系統(tǒng)的工作流程是:首先收集話務(wù)中心話務(wù)數(shù)據(jù),其次利用語音識別技術(shù)將錄音轉(zhuǎn)成文本,然后利用自然語言處理技術(shù)與深度學(xué)習(xí)技術(shù)對文本進(jìn)行分析處理,最終將質(zhì)檢的結(jié)果在Web管理平臺上展示,由質(zhì)檢人員進(jìn)行人工復(fù)檢。
整體架構(gòu)
語音質(zhì)檢架構(gòu)包括基礎(chǔ)能力層、數(shù)據(jù)層、邏輯層、編輯運(yùn)營層和Web管理層,如下圖所示:
基礎(chǔ)層為語音質(zhì)檢提供了基礎(chǔ)的語義分析能力,包括由NLP自然語言處理模塊和ASR語音識別模塊組成。NLP模塊主要功能包含分詞、文本聚類、文本分類、關(guān)鍵詞提取、實(shí)體提取等。ASR(語音識別)模塊集成封裝了第三方語音識別接口,用于語音轉(zhuǎn)文本、角色分離。
數(shù)據(jù)層提供了數(shù)據(jù)接入能力,接入了Kafka、WMB(58自研消息總線)實(shí)時(shí)話務(wù)數(shù)據(jù),并提供了質(zhì)檢話務(wù)數(shù)據(jù)接口服務(wù),實(shí)現(xiàn)對實(shí)時(shí)錄音數(shù)據(jù)、離線語音數(shù)據(jù)的多種數(shù)據(jù)格式質(zhì)檢、存儲支持。
邏輯層是語音質(zhì)檢的核心部分,實(shí)現(xiàn)了從音頻數(shù)據(jù)到坐席客戶對話文本、質(zhì)檢標(biāo)簽識別的全部流程,包括角色識別、語義標(biāo)簽、語音評分、質(zhì)檢結(jié)果通知等模塊。其中角色識別實(shí)現(xiàn)了兩個(gè)對話角色的識別: 誰是坐席,誰是客戶。語義標(biāo)簽?zāi)K使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),通過語義分析檢測出預(yù)定義質(zhì)檢標(biāo)簽如客戶表示不需要、銷售辱罵客戶等。
編輯運(yùn)營層是一套集數(shù)據(jù)標(biāo)注、效果評估、數(shù)據(jù)分析功能于一體的Web系統(tǒng)。編輯人員通過質(zhì)檢Web平臺完成質(zhì)檢標(biāo)簽、角色識別等的標(biāo)注工作,并定期進(jìn)行數(shù)據(jù)分析和效果評測。
WEB管理層即提供了人工復(fù)檢功能的支持,包括機(jī)檢數(shù)據(jù)概覽、質(zhì)檢任務(wù)分配、人工復(fù)檢、統(tǒng)計(jì)等模塊。
語音識別
語音識別是一種將語音轉(zhuǎn)換成文本的技術(shù),對于雙聲道的錄音,客戶和坐席的聲音在不同的聲道,因此可以很容易地將通話雙方的說話內(nèi)容分開并轉(zhuǎn)寫成文本,對于單聲道錄音(我們的質(zhì)檢錄音絕大多數(shù)都是單聲道),客戶和坐席的聲音混在一起,將說話內(nèi)容轉(zhuǎn)寫成文本之前,我們還需要進(jìn)行語音分離,將雙方的說話內(nèi)容在語音粒度上分開。語音分離的效果直接影響到后續(xù)的質(zhì)檢工作,假如誤把客戶的說話內(nèi)容判別為坐席的說話內(nèi)容,必然會降低質(zhì)檢的效果。衡量語音分離的通用指標(biāo)是分離錯(cuò)誤率(DiarizationError Rate)DER,它指的是語音總時(shí)長中識別錯(cuò)誤的語音時(shí)長所占的比重,DER越小說明分離的效果越好。
此外對于單聲道的語音,我們將分離后的語音識別成文本后,還需要進(jìn)行角色識別的工作,語音分離只是識別出哪些說話內(nèi)容是A的,哪些是B的,還需要依靠角色識別來判斷A和B哪個(gè)是坐席,哪個(gè)是客戶。
角色識別服務(wù)分兩步進(jìn)行,首先會根據(jù)音頻特征判斷說話人雙方是否是異性,如果是異性,使用語音性別模型識別出每一句說話內(nèi)容的性別,然后進(jìn)行角色的判定。如果無法確定認(rèn)為雙方為異性,則會進(jìn)行通用角色識別:獲得A和B的說話內(nèi)容之后,第一步是整體判別A和B的角色,整體判別之后可能還會有部分語句的角色是錯(cuò)的(由于語音分離不完全準(zhǔn)確造成),比如有什么還可以幫您的嗎?明顯是坐席說的話,但是卻被分到了客戶的角色上,因此第二步我們會做單句角色糾正??蛻艉妥恼f話內(nèi)容都有明顯的角色特征,在角色整體判別和單句角色糾正中,我們使用了深度學(xué)習(xí)模型Transformer和TextCNN并結(jié)合挖掘到的一些規(guī)則來進(jìn)行識別。
語音轉(zhuǎn)文字
質(zhì)檢標(biāo)簽識別
銷售質(zhì)檢包括銷售違規(guī)質(zhì)檢和銷售常規(guī)質(zhì)檢。銷售違規(guī)質(zhì)檢是為了找出客戶有投訴傾向的錄音,為此我們定義了客戶表示將去投訴,銷售辱罵客戶,客戶表示被騷擾,客戶表示打錯(cuò)了等標(biāo)簽。語音質(zhì)檢系統(tǒng)可以檢測出包含這些標(biāo)簽的錄音,并將這些錄音反饋給銷售主管,銷售主管獲取這些錄音做進(jìn)一步的處理以避免客戶投訴的發(fā)生。
銷售常規(guī)質(zhì)檢針對所有業(yè)務(wù)線的銷售錄音,包括過度承諾,工作作假,銷售辱罵客戶等標(biāo)簽,銷售常規(guī)質(zhì)檢對于監(jiān)督銷售工作、規(guī)范銷售行為起到了重要作用。
客服質(zhì)檢針對的是客服錄音,目標(biāo)是檢測出通話中客服不文明或者不合規(guī)的行為,客服質(zhì)檢對于提升客服服務(wù)質(zhì)量有重要作用。比如招聘業(yè)務(wù)線新戶客服的工作是告知新會員需要注意的事項(xiàng),包括安全提示,號碼保護(hù)和客戶熱線等標(biāo)簽,語音質(zhì)檢系統(tǒng)會給出新戶首通客服錄音包含的所有標(biāo)簽,并對本次通話給出一個(gè)評分。
質(zhì)檢標(biāo)簽識別是一個(gè)復(fù)雜同時(shí)又具有挑戰(zhàn)的問題,需要考慮業(yè)務(wù),語氣和上下文等因素,同時(shí)還要避免語音識別錯(cuò)誤帶來的影響。在語義理解上,我們采用了TextCNN,Transformer和Bert等深度學(xué)習(xí)模型,同時(shí)基于對業(yè)務(wù)的理解使用了相應(yīng)的規(guī)則,在標(biāo)簽識別準(zhǔn)確率上,銷售質(zhì)檢準(zhǔn)確率為達(dá)到90%以上,客服質(zhì)檢準(zhǔn)確率達(dá)到87%。
復(fù)檢系統(tǒng)
復(fù)檢系統(tǒng)是Web管理平臺的一部分,我們會把質(zhì)檢結(jié)果展示在Web頁面上,質(zhì)檢員可以看到整體質(zhì)檢報(bào)表,也可以對單通語音進(jìn)行復(fù)檢,人工復(fù)檢的詳情頁面如下所示:
質(zhì)檢員在標(biāo)簽欄可以看到質(zhì)檢系統(tǒng)給出的標(biāo)簽,點(diǎn)擊標(biāo)簽可以直接定位到標(biāo)簽的說話內(nèi)容,點(diǎn)擊說話內(nèi)容左側(cè)的播放按鈕可以聽這句話的錄音,同時(shí)最下側(cè)的錄音進(jìn)度條也會移動(dòng)到相應(yīng)位置。質(zhì)檢員不僅可以很快地復(fù)檢標(biāo)簽內(nèi)容,也可以通過快速瀏覽文字檢查質(zhì)檢系統(tǒng)未覆蓋到的內(nèi)容并手動(dòng)添加標(biāo)簽,復(fù)檢結(jié)果會存入數(shù)據(jù)庫中供后續(xù)分析使用。傳統(tǒng)的人工質(zhì)檢,質(zhì)檢時(shí)邊聽錄音邊做記錄,一通語音要反復(fù)聽好幾遍才會有一個(gè)質(zhì)檢結(jié)果,效率非常低下。相比于傳統(tǒng)的人工質(zhì)檢方式,使用復(fù)檢系統(tǒng)的人效提高2至3倍。
后端架構(gòu)設(shè)計(jì)
語音質(zhì)檢后臺系統(tǒng)基于58同城自研RPC框架SCF實(shí)現(xiàn),使用WMonitor實(shí)現(xiàn)對各個(gè)服務(wù)的監(jiān)控,存儲依據(jù)不同數(shù)據(jù)的特性分別選用了WOS(58自研對象存儲服務(wù))、Redis、WTable(58自研KV存儲服務(wù))、WCS(58自研索引服務(wù))、MySQL等。整個(gè)后臺服務(wù)的設(shè)計(jì)如下圖所示:
語音質(zhì)檢接入了呼叫中心的實(shí)時(shí)話務(wù)消息隊(duì)列,以實(shí)現(xiàn)對坐席電話的實(shí)時(shí)質(zhì)檢功能,此外還額外提供了話務(wù)數(shù)據(jù)接口服務(wù),實(shí)現(xiàn)對離線數(shù)據(jù)的提交質(zhì)檢。
語音質(zhì)檢后臺系統(tǒng)由數(shù)據(jù)服務(wù)、主體服務(wù)、ASR服務(wù)、ASR回調(diào)服務(wù)、說話人識別服務(wù)、質(zhì)檢標(biāo)簽服務(wù)等多個(gè)微服務(wù)組成。
數(shù)據(jù)服務(wù)負(fù)責(zé)實(shí)現(xiàn)對多種數(shù)據(jù)源的接入,補(bǔ)全客戶以及坐席組織架構(gòu)信息,并實(shí)現(xiàn)對存于話務(wù)系統(tǒng)中原始錄音文件的WOS轉(zhuǎn)存功能。主體服務(wù)貫穿整個(gè)質(zhì)檢過程,負(fù)責(zé)控制整個(gè)數(shù)據(jù)流:調(diào)用日晷平臺獲取ABTest實(shí)驗(yàn)配置,向ASR服務(wù)發(fā)起轉(zhuǎn)寫請求,調(diào)用說話人識別服務(wù)、質(zhì)檢標(biāo)簽服務(wù)獲取角色識別結(jié)果以及質(zhì)檢標(biāo)簽,向質(zhì)檢員發(fā)送違規(guī)通知、向其他內(nèi)部系統(tǒng)同步質(zhì)檢結(jié)果等。
語音轉(zhuǎn)寫算法模型耗時(shí)較長,故對第三方服務(wù)的封裝采用異步調(diào)用的方式:由ASR服務(wù)負(fù)責(zé)對HTTP提交任務(wù)接口的封裝,對內(nèi)提供一個(gè)SCF接口;并設(shè)立回調(diào)HTTP服務(wù)接收ASR轉(zhuǎn)寫結(jié)果轉(zhuǎn)存WTable,并使用WMB向主體服務(wù)發(fā)送質(zhì)檢回調(diào)請求。
說話人識別以及質(zhì)檢語音標(biāo)簽分析依賴的模型經(jīng)離線訓(xùn)練后部署在WPAI中,此外WPAI提供了算法模型在線預(yù)測服務(wù),供說話人識別服務(wù)、質(zhì)檢語義標(biāo)簽服務(wù)在線調(diào)用,質(zhì)檢結(jié)果由主體服務(wù)統(tǒng)一存儲到MySQL中。
在將錄音轉(zhuǎn)寫成文本、給每通錄音打上質(zhì)檢標(biāo)簽后,為便于質(zhì)檢員實(shí)時(shí)復(fù)檢操作,我們構(gòu)建了智能質(zhì)檢Web平臺,平臺提供機(jī)檢標(biāo)簽查詢、人工復(fù)檢、錄音文本查看、錄音調(diào)聽、統(tǒng)計(jì)報(bào)表匯總等功能。Web系統(tǒng)涉及大量的標(biāo)簽查詢以及統(tǒng)計(jì)功能,單一的SQL查詢難以滿足性能指標(biāo),對此我們引入了58自研的58云搜(WCS)搜索私有云平臺,將質(zhì)檢結(jié)果數(shù)據(jù)實(shí)時(shí)同步至WCS中,Web查詢由WCS統(tǒng)一承載,目前在千萬級數(shù)據(jù)接口查詢速度約為20ms。
列表查詢
總結(jié)
本文主要介紹了智能語音質(zhì)檢系統(tǒng)的架構(gòu)設(shè)計(jì),包括整體架構(gòu)、角色識別、質(zhì)檢標(biāo)簽識別、系統(tǒng)的服務(wù)設(shè)計(jì)等。
目前智能語音質(zhì)檢系統(tǒng)已穩(wěn)定接入58同城呼叫中心銷售、客服全量錄音,涉及13個(gè)業(yè)務(wù),日均質(zhì)檢電話錄音數(shù)十萬通,其中客服錄音質(zhì)檢場景折合節(jié)省人力近千人,提高了呼叫中心人效和服務(wù)質(zhì)量。
同時(shí)智能語音質(zhì)檢系統(tǒng)提供了通用的語音分析能力,除了目前應(yīng)用的語音質(zhì)檢場景外同樣的技術(shù)也可以用于C2B平臺語音分析場景,58同城作為平臺方為商家以及客戶搭建了方便快捷的溝通途徑,其中語音電話也是一大重要的溝通方式,對于C端客戶與B端商家的語音分析可提供如低質(zhì)通話過濾、客戶需求挖掘分析等多種業(yè)務(wù)能力。C2B的語音一般是雙聲道,不需要做語音分離和角色識別,可以很好地區(qū)分客戶和商家說話內(nèi)容,因此具有更好的分析效果。
此外語音質(zhì)檢后續(xù)將重點(diǎn)提高角色識別、標(biāo)簽識別準(zhǔn)確率,提供簡單快捷的接入平臺的能力,進(jìn)一步挖掘語音數(shù)據(jù)中潛藏信息,服務(wù)業(yè)務(wù)方,提高語音質(zhì)檢、分析工作人效,為廣大用戶提供更好更優(yōu)質(zhì)的服務(wù)。
作者簡介
劉晟源,58同城 AI Lab 后端資深開發(fā)工程師,主要負(fù)責(zé)智能語音質(zhì)檢平臺開發(fā)相關(guān)工作。
陳璐,58同城 AI Lab 算法高級工程師,主要負(fù)責(zé)58智能質(zhì)檢的算法開發(fā)工作。
AI Lab簡介
58同城TEG技術(shù)工程平臺群AI Lab,旨在推動(dòng)AI技術(shù)在58生活服務(wù)行業(yè)的落地,打造AI中臺能力,以提高前臺業(yè)務(wù)的人效和用戶體驗(yàn)。AI Lab目前負(fù)責(zé)的產(chǎn)品包括:智能客服機(jī)器人、智能語音機(jī)器人、智能語音質(zhì)檢系統(tǒng)、智能寫稿、AI算法平臺等,未來將持續(xù)加速創(chuàng)新,拓展AI應(yīng)用。