Nvidia發(fā)布了用于高性能深度學(xué)習(xí)推理的新版本TensorRT軟件平臺,以強(qiáng)化自己的人工智能戰(zhàn)略。
TensorRT是一個將高性能深度學(xué)習(xí)推理優(yōu)化器與運(yùn)行時(shí)相結(jié)合的平臺,可為AI應(yīng)用提供低延遲、高吞吐量的推理。
推理是AI的一個重要方面,AI訓(xùn)練涉及算法理解數(shù)據(jù)集的能力演化,而推理是指AI能夠?qū)@些數(shù)據(jù)進(jìn)行操作以推斷特定查詢的答案。
新版本的TensorRT在性能方面有了顯著改善,包括大幅縮短了在最先進(jìn)AI語言模型之一——Bidirectional Encoder Representations from Transformers -Large(BERT-Large)——上的推理時(shí)間。眾所周知,BERT-Large是一種自然語言處理訓(xùn)練方法,涉及在大型文本語料庫(如維基百科)上訓(xùn)練通用語言理解模型,然后把該模型作為下游NLP任務(wù)的基礎(chǔ),例如回答人們的問題。
Nvidia表示,TensorRT6新增的優(yōu)化功能可以將B44與T4GPU的算法推理時(shí)間縮短至5.8毫秒,低于之前的10毫秒性能閾值。
Nvidia表示,這次改進(jìn)的性能足夠高,使得BERT可以被企業(yè)首次部署到生產(chǎn)環(huán)境中。傳統(tǒng)觀點(diǎn)認(rèn)為,應(yīng)該在不到10毫秒的時(shí)間內(nèi)執(zhí)行NLP模型,才能提供自然的、引人入勝的體驗(yàn)。
Nvidia表示,還對該平臺進(jìn)行了優(yōu)化,加速了對于語音識別、醫(yī)療應(yīng)用3D圖像分割、工業(yè)自動化中基于圖像的應(yīng)用相關(guān)任務(wù)的推斷。
Nvidia表示,TensorRT6還增加了對動態(tài)輸入批大小的支持,這有助于加速AI應(yīng)用,例如計(jì)算需求波動的在線服務(wù)等。TensorRT Open Source Repository也有升級,新增的訓(xùn)練樣本有助于加快基于語言和圖像的應(yīng)用的推斷。
Constellation Research分析師Holger Mueller表示,這次改進(jìn)很及時(shí),因?yàn)闀扐I平臺的競爭正在全面展開。
“但是Nvidia仍然需要解決下一代應(yīng)用的本地部署問題,除非它設(shè)法將TensorRT平臺變成公有云。在這方面Nvidia有很好的經(jīng)驗(yàn),但需要一定的時(shí)間才能實(shí)現(xiàn)。”
Nvidia表示,現(xiàn)在已經(jīng)可以通過產(chǎn)品頁面下載TensorRT6平臺。