電話機器人是近兩年興起的人工智能產(chǎn)品,主要通過電話群呼叫潛在客戶,通信選擇信息,幫助企業(yè)選擇意向客戶。企業(yè)使用電話機器人可以降低人工成本,提高運營效率。
電話溝通也是信息溝通的一種方式。對于人類來說,這是一件非常簡單的事情,但對于機器來說,這并不是一件容易的事情,它涉及到主動語音識別技術(shù)。
語音識別,又稱主動語音識別(AutomatichSpeechRecognition、ASR),是指計算機主動將人類的語音內(nèi)容轉(zhuǎn)換成相應(yīng)的文本。
語音識別技術(shù)已經(jīng)有50多年的歷史近年來仍被廣泛使用。隨著移動設(shè)備、可穿戴設(shè)備、智能家居設(shè)備和車載系統(tǒng)的日益普及,對話交互逐漸成為人機交互的重點。
語音識別主要由以下基本模塊組成:信息處理和特征處理、聲學(xué)模型(AM)、語音模型(LM)、發(fā)音詞典和解碼器。
信號處理和特征提取。它是語音識別系統(tǒng)的部分,其主要使命是接收最原始的音頻信號,為后面的聲學(xué)模型提取合適的代表性特征向量。它還包括一些信號處理技術(shù),如盡可能降低環(huán)境噪聲、信道失真、說話人等因素對特征的影響。
普通語音識別系統(tǒng)多采用隱馬爾科夫模型對詞、音節(jié)、音素等基本聲學(xué)單元進行建模,生成聲學(xué)模型??梢院唵卫斫鉃榘l(fā)聲的建模,可以將語音輸入轉(zhuǎn)換成聲學(xué)表示的輸出。
正則語言,包括上下文和文法在內(nèi)的各種語言模型都可以作為語言模型。目前,大多數(shù)語音識別系統(tǒng)仍然選擇基于計算的N元(N-gram)模型及其變體。它可以通過練習(xí)學(xué)習(xí)單詞和單詞之間的聯(lián)系來估計假設(shè)單詞序列的可能性。
發(fā)音詞典包括系統(tǒng)可以處理的單詞的調(diào)整和發(fā)音。發(fā)音詞典獲得了聲學(xué)模型建模單元和言語模型建模單元之間的映射連接,并將它們連接起來,形成一個搜索狀態(tài)空間,用于解碼器進行解碼操作。
解碼器是語音識別系統(tǒng)的中心之一,其使命主要是讀取和輸入語音信號的特征序列,然后根據(jù)聲學(xué)模型、語音模型和發(fā)音詞典解碼以更大概率輸出信號的詞串。
語音識別是先編碼后解碼的過程,信號處理和特征提取是編碼的過程,從原始語音獲得語音向量。后面是語音向量的解碼,解碼需要上面提到的聲學(xué)模型和言語模型。
與計算機視覺不同,語音識別只有一個中心使命——將人類的語音轉(zhuǎn)換成文本。簡單描述一下機器識別語音的過程:單詞由單詞組成,單詞由音素組成。假設(shè)我們把一段語音的聲波按幀切開,用幀組成狀態(tài),用狀態(tài)組成音素,然后用音素組成單詞,語音就變成文字了。
音素:音素是最小的語音單位,一個發(fā)音動作構(gòu)成一個音素。音素構(gòu)成音節(jié),音節(jié)構(gòu)成不同的單詞和短語。音素分為元音和子音。
情況:這里可以理解為比音素更詳細(xì)的語音單位。一般一個音素分紅三種情況。
雖然語音識別技術(shù)仍有許多亟待進步的地方,如方言語音識別、高噪聲環(huán)境語音識別等。但不可否認(rèn)的是,隨著信息技術(shù)的不斷發(fā)展,語音識別技術(shù)將不斷被打破,發(fā)展空間越來越大。