目前市面上的可發(fā)聲芯片分為兩大類:語音合成芯片與語音芯片。在實際開發(fā)語音終端產(chǎn)品工作中,有很多的研發(fā)人員在這兩類芯片的認知上難免會出現(xiàn)概念上混淆,常常將語音合成芯片誤認為語音芯片,加之一些制作銷售語音芯片的公司,為了更好的銷售,以突出語音芯片的價格優(yōu)勢,也對外宣稱其語音IC是語音合成芯片,有意識地誤導開發(fā)人員,其實這兩者芯片是有本質(zhì)上的區(qū)別的。
語音合成芯片,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù)(簡稱TTS芯片),能將任意文字信息實時轉(zhuǎn)化為標準流暢的語音朗讀出來,相當于給機器裝上了人工嘴巴。通過UART接口或SPI接口通訊方式,接收待合成的文本數(shù)據(jù),實現(xiàn)文本到語音(或TTS語音)的轉(zhuǎn)換。其特性是:支持任意中文文本的合成,對常見的數(shù)值、電話號碼、時間日期、度量衡符號等格式的文本具有文本智能分析處理功能;只需要上位機通過串行通信對其發(fā)送一段文本信息,再將文本信息轉(zhuǎn)化為語音信號從而實現(xiàn)實時播報。
語音芯片,顧名思義就是可以存儲控制播放語音的IC;是指將語音信號通過采樣轉(zhuǎn)化為數(shù)字,存儲在IC的ROM中,再通過電路將ROM中的數(shù)字還原成語音信號。從使用方法來看,語音芯片的主要使用方式是先對其進行錄音,錄音完成燒錄后再來對其使用。
總的來說,語音IC是把聲音錄制進去才能播放,中文TTS芯片是可以直接把文本的內(nèi)容播放出來。所以,語音合成芯片是一種高端的語音芯片,是一種采取了語音合成技術(shù)的、截然不同的智能語音芯片,它內(nèi)置了中文TTS軟件或語音合成軟件核心。從未來的市場發(fā)展和用戶體驗要求上來看,語音合成芯片的便捷性始終優(yōu)于市場上的各類語音芯片,更確切的說,未來的語音合成芯片合成效果自然度將更高,性價比將更高,控制更方便以及面向多語種化。
語音合成芯片與語音芯片本質(zhì)區(qū)別在于語音更新:
語音合成芯片,無需燒錄語音。只需要發(fā)送漢字的字庫就可以播報出來,特別是處理大量的非固定的文本信息的時候且需要實時語音提示時,就必須要用到語音合成了。市面上目前比較成熟的SYN6658語音合成芯片,受到很多研發(fā)人員的認可。
語音芯片,需預錄制語音(涉及終端產(chǎn)品更新必須找同一錄音人)、需重新燒錄、需校驗,語音段長度受限,尤其是當這些研制出的語音終端,銷往不同的用戶,就需要使用不同的語音錄制文件,這將會消耗研發(fā)人員大量的寶貴成本。
目前市面上的語音合成芯片對比如下圖,可迅速了解芯片的相關(guān)性能: