主頁(yè) > 知識(shí)庫(kù) > 會(huì)打電話的AI背后:谷歌Duplex技術(shù)解析

會(huì)打電話的AI背后:谷歌Duplex技術(shù)解析

熱門標(biāo)簽:電銷卡無(wú)限打 語(yǔ)音系統(tǒng) 廊坊電銷 百度競(jìng)價(jià)排名 攀枝花電銷 畢節(jié)電銷 電銷防封線路代理 通化電銷
AI 科技評(píng)論按:谷歌昨晚在加州召開(kāi)了 2018 年度的開(kāi)發(fā)者大會(huì)(Google I/O 2018)。在大會(huì)介紹的 Android P、Gmail、Gboard、TPUv3 等眾多新產(chǎn)品和功能中,尤為亮眼的無(wú)疑是個(gè)人助理 Google Assistant 中新增加的 Duplex,它可以自己給飯館、發(fā)廊等商業(yè)店面打電話,幫用戶預(yù)約時(shí)間。 在這兩則真實(shí)電話錄音中,Duplex 不僅用自然流暢的語(yǔ)音和電話另一頭的人類完成了交流,對(duì)方根本沒(méi)有意識(shí)到打電話來(lái)的居然是個(gè)「AI」,而且第二則錄音中它還成功地處理了意料之外的發(fā)展?fàn)顩r,不僅理解了「無(wú)需預(yù)定」,還主動(dòng)詢問(wèn)了等位的時(shí)間。根據(jù)谷歌 CEO Sundar Pichai 介紹,他們未來(lái)還計(jì)劃進(jìn)一步拓展 Duplex 的詢問(wèn)營(yíng)業(yè)時(shí)間的能力,有一個(gè)用戶的 Google Assistant 打電話詢問(wèn)了某家店面的營(yíng)業(yè)時(shí)間,就可以把這個(gè)詢問(wèn)結(jié)果同步給更多別的用戶,不僅節(jié)省了用戶/消費(fèi)者自己查詢的時(shí)間,也為店家節(jié)省了時(shí)間。實(shí)際上,這也是谷歌對(duì) Google Assistant 的設(shè)計(jì)宗旨:為用戶節(jié)省時(shí)間,為用戶把事情搞定(get things done)。 谷歌也同步在 Google AI 博客上更新了 Duplex 的技術(shù)細(xì)節(jié),AI 科技評(píng)論編譯如下。 Google Duplex:能打電話完成真實(shí)世界任務(wù)的 AI 系統(tǒng) 長(zhǎng)期以來(lái),人類和計(jì)算機(jī)之間交互的目標(biāo)都是希望兩者之間可以進(jìn)行自然的對(duì)話,就像兩個(gè)人之間講話那樣。近幾年來(lái),計(jì)算機(jī)理解和生成自然語(yǔ)音的能力出現(xiàn)了革命性的提高,谷歌語(yǔ)音搜索、WaveNet 之類基于深度神經(jīng)網(wǎng)絡(luò)的技術(shù)功不可沒(méi)。 即便如此,當(dāng)前最先進(jìn)的人機(jī)對(duì)話系統(tǒng)仍然只有生硬的電子聲音,而且也不理解人類的自然語(yǔ)言。具體來(lái)說(shuō),自動(dòng)呼叫系統(tǒng)即便只是識(shí)別簡(jiǎn)單的單詞和控制指令都不令人滿意,更不用說(shuō)跟人進(jìn)行自然的對(duì)話了。打電話的人需要調(diào)整自己的說(shuō)法方式來(lái)適應(yīng)系統(tǒng),系統(tǒng)卻沒(méi)辦法適應(yīng)打電話的人。 而今天發(fā)布的 Google Duplex 就包含了新的技術(shù),它可以打電話給人類,通過(guò)自然的對(duì)話完成一系列真實(shí)世界的任務(wù)。這項(xiàng)技術(shù)目前針對(duì)的是執(zhí)行一些特定的任務(wù),比如為某幾類活動(dòng)約定時(shí)間。在這些任務(wù)中,Duplex 能讓對(duì)話過(guò)程盡可能地自然,電話另一頭的人類可以像和另一個(gè)人說(shuō)話一樣自然地交流,無(wú)需做任何調(diào)整(實(shí)際上對(duì)方可能根本就沒(méi)有發(fā)現(xiàn)這通電話不是人類打來(lái)的)。 在這項(xiàng)技術(shù)的研究中,一個(gè)重要的研究要點(diǎn)是把 Duplex 的功能限制在封閉的場(chǎng)景中,這些場(chǎng)景涵蓋的內(nèi)容足夠少,以至于 AI 系統(tǒng)可以充分地探索學(xué)習(xí)。相對(duì)應(yīng)地,Duplex 經(jīng)過(guò)這些場(chǎng)景的深入訓(xùn)練后,也就只能執(zhí)行這些場(chǎng)景內(nèi)的自然對(duì)話任務(wù),還不能和人進(jìn)行一般的對(duì)話。 不過(guò),根據(jù)開(kāi)頭的視頻我們已經(jīng)感受到了,在這些任務(wù)中 Duplex 帶來(lái)了令人驚喜的表現(xiàn),對(duì)話過(guò)程對(duì)人類來(lái)說(shuō)非常舒適。 如何展開(kāi)自然對(duì)話 展開(kāi)一段自然的對(duì)話有這么幾個(gè)難點(diǎn):自然語(yǔ)言難以理解,人類的自然行為很難建模,人類對(duì)延遲的耐受性很低所以需要高處理速度,以及生成聽(tīng)起來(lái)自然的語(yǔ)音,其中還要適當(dāng)?shù)貖A雜一些語(yǔ)氣詞。 當(dāng)人類和人類之間對(duì)話的時(shí)候,相比于與計(jì)算機(jī)對(duì)話,他們會(huì)使用更多的復(fù)雜句子。他們經(jīng)常一個(gè)句子說(shuō)到一半然后更正一部分表述,會(huì)啰啰嗦嗦的,會(huì)依賴上下文然后省略一些單詞,還有時(shí)候會(huì)在一個(gè)句子里表達(dá)好多個(gè)意思。比如:「星期二到星期四我們從上午 11 點(diǎn)開(kāi)門到下午 2 點(diǎn),然后下午 4 點(diǎn)到 9 點(diǎn)重新開(kāi)門,然后星期五六日我們,哦不對(duì),星期五星期六我們 11 點(diǎn)開(kāi)門到 9 點(diǎn),星期天 1 點(diǎn)到 9 點(diǎn)。」 在天然的、自發(fā)的對(duì)話中,相比與計(jì)算機(jī)講話,人類會(huì)講得更快、講得更不清晰一些,這時(shí)候的語(yǔ)音識(shí)別也更難,單詞錯(cuò)誤率更高。在打電話的時(shí)候這個(gè)問(wèn)題會(huì)更明顯,經(jīng)常會(huì)遇到背景噪音,通話質(zhì)量也不好。 在較長(zhǎng)的對(duì)話中,根據(jù)上下文的不同,同樣的句子也可以有不同的含義。比如,「ok for 4」在預(yù)訂座位的時(shí)候就有可能指人的數(shù)目,也有可能指時(shí)間。相關(guān)的上下文句子可能會(huì)在好幾個(gè)句子之前,而受到電話中單詞錯(cuò)誤率的影響,這個(gè)問(wèn)題又會(huì)變得愈發(fā)難解。 識(shí)別了對(duì)方的語(yǔ)義之后,AI 系統(tǒng)要說(shuō)的內(nèi)容就是由當(dāng)前要執(zhí)行的任務(wù)和對(duì)話進(jìn)行的狀況共同決定的。除此之外,自然語(yǔ)言的對(duì)話中還有一些常見(jiàn)的語(yǔ)言習(xí)慣;這些約定俗成的句法模式包括:重復(fù)時(shí)說(shuō)得更詳細(xì)一些(-「時(shí)間是下周五?!?「什么時(shí)候?」-「下周五,18 號(hào)?!梗秸Z(yǔ)句(「你聽(tīng)得清嗎」),打斷(-「數(shù)字是 212…」-「對(duì)不起你能重新說(shuō)一遍嗎」),以及停頓(「你可以稍等一下嗎 [停頓] 謝謝!」,1 秒的停頓和 2 分鐘的停頓又有不同的含義)。 認(rèn)識(shí) Duplex 借助語(yǔ)言理解、交互、時(shí)間控制、語(yǔ)音生成方面的最近技術(shù)發(fā)展,Google Duplex 的對(duì)話聽(tīng)起來(lái)相當(dāng)真實(shí)自然。 為了處理上面提到的挑戰(zhàn),Duplex 的核心是一個(gè) RNN 網(wǎng)絡(luò),它是由 TensorFlow Extended(RFX)構(gòu)建的。為了達(dá)到高精度,谷歌用匿名的電話對(duì)話數(shù)據(jù)訓(xùn)練了 Duplex 的 RNN 網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)會(huì)使用谷歌自動(dòng)語(yǔ)音識(shí)別(ASR)的識(shí)別結(jié)果文本,同時(shí)也會(huì)使用音頻中的特征、對(duì)話歷史、對(duì)話參數(shù)(比如要預(yù)訂的服務(wù),當(dāng)前時(shí)間)等等。谷歌為每一種不同的任務(wù)分別訓(xùn)練了不同的理解模型,不過(guò)不同任務(wù)間也有一些訓(xùn)練語(yǔ)料是共享的。最后,谷歌還利用 TFX 的超參數(shù)優(yōu)化進(jìn)一步改進(jìn)了模型。 輸入語(yǔ)音先經(jīng)過(guò)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)處理,生成的文本會(huì)與上下文數(shù)據(jù)以及其它輸入一起輸入 RNN 網(wǎng)絡(luò),生成的應(yīng)答文本再通過(guò)文本轉(zhuǎn)語(yǔ)音(TTS)系統(tǒng)讀出來(lái)。 生成自然的語(yǔ)音 谷歌聯(lián)合使用了一個(gè)級(jí)聯(lián) TTS 引擎和一個(gè)生成式 TTS 引擎(其中使用了 Tacotron 和 WaveNet),根據(jù)不同的情境控制語(yǔ)音的語(yǔ)調(diào)。 這個(gè)系統(tǒng)還可以生成一些語(yǔ)氣詞(比如hmmm、uh),這也讓語(yǔ)音變得更自然。當(dāng)級(jí)聯(lián) TTS 需要組合變化很大的語(yǔ)音單元,或者需要增加生成的停頓時(shí),語(yǔ)氣詞就會(huì)被添加到生成的語(yǔ)音中,這就讓這個(gè)系統(tǒng)可以以一種自然的方式向?qū)Ψ绞疽馐堑奈衣?tīng)著呢或者我還在考慮(人類說(shuō)話的時(shí)候就經(jīng)常在思考的同時(shí)發(fā)出一些語(yǔ)氣詞)。谷歌的用戶調(diào)查也確認(rèn)了人類覺(jué)得帶有語(yǔ)氣詞的對(duì)話更熟悉、更自然。 另一方面,系統(tǒng)的延遲也要能夠符合人類的期待。比如,當(dāng)一個(gè)人在電話里講了你好這樣的簡(jiǎn)單句子之后,他們會(huì)希望很快聽(tīng)到一個(gè)簡(jiǎn)短的回復(fù),這種時(shí)候會(huì)對(duì)延遲更加敏感一些。當(dāng) AI 系統(tǒng)檢測(cè)到了需要短延遲的情境時(shí),就會(huì)使用更快但精度也更低的模型來(lái)處理。在某些極端情況下,系統(tǒng)甚至都不會(huì)等待 RNN 運(yùn)行,而是直接使用快速逼近模型(通常也會(huì)和更慢的正式回應(yīng)搭配起來(lái)使用,就像人類不完全理解另一方的時(shí)候會(huì)猶豫一樣)。這樣的做法就可以讓系統(tǒng)達(dá)到 100ms 之內(nèi)的極短延遲。有趣的是,谷歌發(fā)現(xiàn)在某些情況下要增加一些延遲來(lái)讓對(duì)話聽(tīng)起來(lái)更自然,比如回復(fù)一個(gè)很復(fù)雜的句子的時(shí)候。 系統(tǒng)運(yùn)行 Google Duplex 系統(tǒng)可以進(jìn)行復(fù)雜的對(duì)話,它可以完全自動(dòng)地完成大多數(shù)任務(wù),不需要任何人類參與。系統(tǒng)也有一個(gè)自動(dòng)監(jiān)控機(jī)制,不僅成功完成一個(gè)任務(wù)后可以給用戶彈出提醒,也可以識(shí)別出沒(méi)能成功完成的任務(wù)(比如處理某個(gè)異常復(fù)雜的預(yù)訂)。在這種情況下,它會(huì)給一個(gè)人類操作員發(fā)出指令,轉(zhuǎn)交給人類完成任務(wù)。 為了在訓(xùn)練系統(tǒng)處理新的情境,谷歌也使用了實(shí)時(shí)監(jiān)督訓(xùn)練。這種訓(xùn)練方式和許多事情的教學(xué)方法類似,都有一個(gè)教學(xué)者指導(dǎo)一個(gè)學(xué)生,邊做邊提供必要的指導(dǎo),確保任務(wù)的執(zhí)行效果達(dá)到了教學(xué)者的質(zhì)量要求水平。在 Duplex 系統(tǒng)中,有經(jīng)驗(yàn)的人類操作員就可以作為這樣的教學(xué)者,當(dāng)系統(tǒng)打電話處理新的、不熟悉的情境時(shí),人類操作員就可以實(shí)時(shí)影響系統(tǒng)的行為。這樣的邊做邊學(xué)的過(guò)程可以一直持續(xù)到系統(tǒng)達(dá)到了理想的表現(xiàn)為止,然后系統(tǒng)就可以全自動(dòng)地打電話了。 有益于用戶,也有益于商家 許多商戶并沒(méi)有自己的在線預(yù)定系統(tǒng),仍然使用的是在線預(yù)定。Duplex 就可以幫助他們,無(wú)需改變每日的行為慣例或者培訓(xùn)員工,就可以讓用戶通過(guò) Google Assistant 輕松完成預(yù)定。Duplex 也可以減少用戶放鴿子的情況,可以在手機(jī)上自動(dòng)提醒用戶預(yù)訂事項(xiàng),以及幫助用戶輕松地取消或者重新安排時(shí)間。 也有一些情況下,用戶會(huì)打電話向商戶詢問(wèn)營(yíng)業(yè)時(shí)間,比如節(jié)假日期間的營(yíng)業(yè)時(shí)間,一般在店鋪的在線信息頁(yè)面是看不到的。Duplex 打電話詢問(wèn)之后可以通過(guò)谷歌服務(wù)把這個(gè)信息公開(kāi)出去,省去了其它用戶打同一個(gè)電話、問(wèn)同樣的問(wèn)題的精力,也幫商戶節(jié)省了人力。同時(shí),商戶自己就像往常一樣正常營(yíng)業(yè)就行,這項(xiàng)新技術(shù)并不需要他們學(xué)習(xí)任何技能或者做任何改變就可以享受到便利。 對(duì)用戶來(lái)說(shuō),Google Duplex 當(dāng)然可以幫助用戶輕松地完成它支持的各種任務(wù)。用戶只需要和 Google Assistant 做簡(jiǎn)單的互動(dòng),Duplex 就會(huì)自動(dòng)在后臺(tái)打電話,并且自動(dòng)補(bǔ)全所需的用戶信息。 會(huì)打電話的AI背后:谷歌Duplex技術(shù)解析 用戶讓 Google Assistant 做個(gè)預(yù)約,Google Assistant 接下來(lái)就會(huì)通過(guò) Duplex 打電話與商戶完成預(yù)約 Duplex 還能給用戶增加一項(xiàng)便利,那就是可以非同步地作為服務(wù)提供商的代理,比如在非營(yíng)業(yè)時(shí)間給商戶打電話,或者手機(jī)信號(hào)不好的時(shí)候,Duplex 在這種情況下就成為了一條額外的信息獲取途徑。它也可以幫助殘障人士或者語(yǔ)言不通的用戶,替聽(tīng)力受損的用戶打電話完成預(yù)約,或者替用戶用另一種語(yǔ)言完成任務(wù)。 今年夏天,谷歌就會(huì)開(kāi)始基于 Google Assistant 測(cè)試 Duplex,就從預(yù)訂餐館、預(yù)訂發(fā)廊、詢問(wèn)節(jié)假日的營(yíng)業(yè)時(shí)間這樣的事項(xiàng)開(kāi)始。 會(huì)打電話的AI背后:谷歌Duplex技術(shù)解析 Google Duplex 團(tuán)隊(duì)負(fù)責(zé)人 Yaniv Leviathan 和 項(xiàng)目工程主管 Matan Kalma 在餐廳吃飯,這頓飯就是 Duplex 打電話為他們預(yù)訂的。 一直以來(lái),讓人們可以「像人與人互動(dòng)一樣自然地與科技互動(dòng)」都是谷歌的目標(biāo)。Google Duplex 就是邁向這個(gè)方向的一步,在特定場(chǎng)景下以自然的對(duì)話讓人和科技互動(dòng)。谷歌希望這些具體技術(shù)的發(fā)展也可以為人類和計(jì)算機(jī)的日?;?dòng)帶來(lái)更有有意義的改進(jìn)。

標(biāo)簽:百色 漢中 河南 潛江 重慶 淮北 遼陽(yáng) 青島

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《會(huì)打電話的AI背后:谷歌Duplex技術(shù)解析》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《會(huì)打電話的AI背后:谷歌Duplex技術(shù)解析》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于會(huì)打電話的AI背后:谷歌Duplex技術(shù)解析的相關(guān)信息資訊供網(wǎng)民參考!
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266