CTI論壇(ctiforum.com)(編譯/老秦):語(yǔ)音體驗(yàn)無(wú)處不在,從家中的智能技術(shù)到汽車中的命令。語(yǔ)音是一種新興的、更人性化的與周圍環(huán)境互動(dòng)的方式,正在推動(dòng)下一波消費(fèi)者和員工體驗(yàn)。事實(shí)上,Opus的研究發(fā)現(xiàn),80%的受訪者認(rèn)為流感大流行加速了自動(dòng)語(yǔ)音識(shí)別的采用。
由于開發(fā)人員利用了這種新的通信模式,因此在創(chuàng)建健壯的用戶體驗(yàn)時(shí),瀏覽所有不同的組件可能會(huì)很棘手。作為一名專注于人工智能通信領(lǐng)域的首席技術(shù)官,我與許多客戶交談,了解他們需要什么才能使他們的語(yǔ)音體驗(yàn)獲得成功。以下是創(chuàng)建強(qiáng)健的語(yǔ)音體驗(yàn)時(shí)要避免的四個(gè)關(guān)鍵事項(xiàng):
忽略音頻源的質(zhì)量。基于語(yǔ)音的體驗(yàn)在很大程度上取決于音頻輸入的質(zhì)量和融入體驗(yàn)的轉(zhuǎn)錄能力。作為一名開發(fā)人員,提倡高質(zhì)量的語(yǔ)音數(shù)據(jù)非常重要,因?yàn)榈唾|(zhì)量的語(yǔ)音音頻不僅很難聽到,而且會(huì)使開發(fā)您的語(yǔ)音體驗(yàn)變得更加困難。確保您使用的是良好的語(yǔ)音格式,并采用FLAC和Opus等標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)提供了良好的壓縮和優(yōu)化。好的ASR提供商將能夠處理您擁有的任何數(shù)據(jù),但如果您避免使用低采樣率(如8kHz),而使用更高質(zhì)量的采樣率(如16kHz),您的數(shù)據(jù)將更干凈。在一天結(jié)束時(shí),與您的團(tuán)隊(duì)合作以確保您的錄音要求被聽到是很重要的。
依靠具有剛性架構(gòu)的ASR。我經(jīng)常看到開發(fā)人員被鎖定在提供最小靈活性的現(xiàn)成解決方案中。尋找一家提供低成本解決方案和易于導(dǎo)航的實(shí)時(shí)功能的提供商是現(xiàn)實(shí)的目標(biāo),但沒(méi)有一種適合所有人的解決方案。開發(fā)者需要確切地知道他們希望從音頻數(shù)據(jù)中得到什么,這樣他們就可以選擇一種技術(shù)來(lái)分析最相關(guān)的見解。尋找能夠提供部署靈活性和速度、高精度、實(shí)時(shí)能力、可擴(kuò)展性和定制培訓(xùn)的提供商非常重要。這些功能的重要性排名將根據(jù)您的使用情況而有所不同,但選擇一種對(duì)每種功能都很好的ASR技術(shù)將使您的語(yǔ)音體驗(yàn)更好,因?yàn)樗鼈儠?huì)隨著最終用戶的需求而變化和增長(zhǎng)。
忽略應(yīng)用程序?qū)⒃谄渲惺褂玫纳舷挛摹H绻阆胱屇愕恼Z(yǔ)音體驗(yàn)在電腦上運(yùn)行,你就不需要擔(dān)心連接和帶寬。另一方面,如果您的團(tuán)隊(duì)成員主要使用可能出現(xiàn)連接問(wèn)題的移動(dòng)設(shè)備,那么您應(yīng)該選擇針對(duì)低帶寬進(jìn)行優(yōu)化的最適合的音頻編解碼器,這樣您就不會(huì)占用用戶的網(wǎng)絡(luò)連接。對(duì)封閉源代碼音頻編解碼器保持警惕也很好,因?yàn)樗恍枰獦?biāo)準(zhǔn)化。只要有可能,就嘗試使用開源音頻編解碼器。
沒(méi)有留下試驗(yàn)和失敗的空間。所有的公司對(duì)語(yǔ)音體驗(yàn)都會(huì)有不同的需求,有時(shí)他們并不清楚語(yǔ)音體驗(yàn)在實(shí)時(shí)和現(xiàn)實(shí)生活中是如何工作的。在構(gòu)建應(yīng)用程序或API的過(guò)程中,可能會(huì)出現(xiàn)很多問(wèn)題,因此,當(dāng)您越來(lái)越接近找到滿足企業(yè)需求的產(chǎn)品時(shí),在構(gòu)建系統(tǒng)時(shí)考慮到健壯性和靈活性是至關(guān)重要的。
作為一名開發(fā)人員,您希望為您服務(wù)的任何受眾創(chuàng)造最佳的語(yǔ)音體驗(yàn)。比以往任何時(shí)候都更重要的是,確保您的語(yǔ)音數(shù)據(jù)是高質(zhì)量的,您了解您的基礎(chǔ)ASR技術(shù)可以做什么,并創(chuàng)建一個(gè)能夠準(zhǔn)確處理您需要的敏捷后端體驗(yàn)。語(yǔ)音體驗(yàn)的時(shí)機(jī)就在現(xiàn)在,通過(guò)盡早加入適當(dāng)?shù)腁PI,您的語(yǔ)音體驗(yàn)將蓬勃發(fā)展并適應(yīng)客戶的需求。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
作者:Deepgram首席技術(shù)官Adam Sypniewski
原文網(wǎng)址:
https://www.speechtechmag.com/Articles/Editorial/Industry-Voices/Four-Pitfalls-to-Avoid-When-Building-Compelling-Voice-Experiences-148050.aspx