科大訊飛的數(shù)據(jù)平臺(tái)架構(gòu)和重點(diǎn)
談到人工智能,不得不提深度學(xué)習(xí),如今通過(guò)深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)人工智能,已成為業(yè)界普遍接受的共識(shí)。深度學(xué)習(xí)概念,在上個(gè)世紀(jì)80年代就已經(jīng)被提出,但直到近些年才真正得以重視和應(yīng)用,其背后是因?yàn)樯疃葘W(xué)習(xí)所依賴的兩大要素(海量被標(biāo)記的數(shù)據(jù)和強(qiáng)大的算力)成為現(xiàn)實(shí),人工智能實(shí)質(zhì)上變成了對(duì)數(shù)據(jù)的處理和計(jì)算的科學(xué)??拼笥嶏w人工智能的數(shù)據(jù)處理,也采用了業(yè)界主流的處理流程,可以通過(guò)下面的圖示來(lái)描述:
在整個(gè)數(shù)據(jù)處理過(guò)程中,不同階段所使用的技術(shù),以及這些技術(shù)對(duì)數(shù)據(jù)訪問(wèn)的要求都有差別。數(shù)據(jù)處理的各個(gè)階段及每個(gè)階段對(duì)數(shù)據(jù)的訪問(wèn)特點(diǎn)如下圖所示:
在數(shù)據(jù)準(zhǔn)備階段,科大訊飛采用Hadoop等大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)進(jìn)行清洗;模型訓(xùn)練階段是整個(gè)處理過(guò)程的核心,它負(fù)責(zé)從海量數(shù)據(jù)的特征中通過(guò)深度學(xué)習(xí)算法,獲得可交付的模型,用于人工智能產(chǎn)品和方案中。
科大訊飛的基礎(chǔ)架構(gòu)團(tuán)隊(duì),需要為各個(gè)人工智能團(tuán)隊(duì)及業(yè)務(wù)部門(mén)提供穩(wěn)定、高性能的訓(xùn)練存儲(chǔ)平臺(tái),同時(shí)管理近千臺(tái)高性能GPU服務(wù)器,訓(xùn)練使用的存儲(chǔ)平臺(tái)性能如何,直接影響業(yè)務(wù)部門(mén)的訓(xùn)練效率,是整個(gè)數(shù)據(jù)處理流程的重中之重,也是優(yōu)化訓(xùn)練平臺(tái)的切入點(diǎn)。
為了滿足眾多人工智能業(yè)務(wù)部門(mén)訓(xùn)練的需要,科大訊飛用于模型訓(xùn)練的數(shù)據(jù)平臺(tái)必須具備以下特性:
為什么選擇YRCloudFile
作為訓(xùn)練的數(shù)據(jù)平臺(tái)
焱融科技和科大訊飛從2019年開(kāi)始,就進(jìn)行了多次的交流和實(shí)際測(cè)試??拼笥嶏w的技術(shù)團(tuán)隊(duì)對(duì)訓(xùn)練使用的存儲(chǔ)平臺(tái)選型非常重視,最為關(guān)注的是數(shù)據(jù)平臺(tái)的實(shí)際性能,包括大文件的隨機(jī)讀寫(xiě)、小文件的讀寫(xiě)性能;海量元數(shù)據(jù)的操作性能(creation、stat、removal等);海量文件的支持,以及在海量文件的背景下,數(shù)據(jù)訪問(wèn)和操作性能是否保持一致;存儲(chǔ)平臺(tái)的穩(wěn)定性;在故障場(chǎng)景,尤其是元數(shù)據(jù)服務(wù)故障場(chǎng)景下,集群性能的穩(wěn)定性;與容器平臺(tái)的對(duì)接;數(shù)據(jù)生命周期的管理等多方面能力。這些嚴(yán)格的評(píng)估標(biāo)準(zhǔn),也是從實(shí)際業(yè)務(wù)的訴求和科大訊飛基礎(chǔ)架構(gòu)團(tuán)隊(duì)在多年的實(shí)際工作積累中提煉出來(lái)的。
YRCloudFile在架構(gòu)上,可以完全與硬件解耦;在通用的服務(wù)器上就能充分發(fā)揮出高速存儲(chǔ)介質(zhì)和網(wǎng)絡(luò)的性能,相對(duì)于其它的存儲(chǔ)產(chǎn)品,性能領(lǐng)先數(shù)倍;元數(shù)據(jù)處理和訪問(wèn)性能,在故障場(chǎng)景下,元數(shù)據(jù)的訪問(wèn)性能尤為突出,充分滿足海量小文件的訪問(wèn)需求和特點(diǎn);在容器平臺(tái)對(duì)接、冷熱數(shù)據(jù)分層上具有特色鮮明的功能。綜合產(chǎn)品多方面的考量要素,YRCloudFile是最貼近科大訊飛訓(xùn)練數(shù)據(jù)平臺(tái)的高性能分布式文件存儲(chǔ)產(chǎn)品。
在科大訊飛對(duì)焱融科技YRCloudFile進(jìn)行深入了解和測(cè)試之后,雙方達(dá)成了全面的合作。
YRCloudFile在科大訊飛的運(yùn)行狀況
隨著科大訊飛和焱融科技的共同合作,YRCloudFile得以快速應(yīng)用在科大訊飛核心的大規(guī)模深度學(xué)習(xí)訓(xùn)練集群生產(chǎn)環(huán)境中。憑借YRCloudFile靈活的軟件部署架構(gòu)和界面化快速部署能力以及焱融科技的全方位售后服務(wù),從第一個(gè)YRCloudFile集群上線,到后續(xù)數(shù)個(gè)集群陸續(xù)部署,數(shù)據(jù)快速增長(zhǎng),只經(jīng)歷短短幾個(gè)月時(shí)間,總數(shù)據(jù)規(guī)模已達(dá)到近10PB,存放近百億用于訓(xùn)練的音頻、視頻、圖片文件,單集群峰值帶寬達(dá)近十GB/s,訓(xùn)練效率大幅提升。
科大訊飛訓(xùn)練集群容量快速增長(zhǎng)
整個(gè)科大訊飛語(yǔ)音訓(xùn)練平臺(tái)服務(wù)于科大訊飛內(nèi)部人工智能研究院近千臺(tái)高性能計(jì)算服務(wù)器,大量科學(xué)家和算法工程師通過(guò)這些數(shù)據(jù)對(duì)模型進(jìn)行持續(xù)優(yōu)化,完成科大訊飛各類語(yǔ)音服務(wù)的產(chǎn)品輸出。
在YRCloudFile服務(wù)科大訊飛過(guò)程中,焱融科技和科大訊飛的基礎(chǔ)架構(gòu)團(tuán)隊(duì)保持密切的溝通,通過(guò)數(shù)據(jù)IO模型特點(diǎn)的分析,焱融科技研發(fā)團(tuán)隊(duì)進(jìn)一步針對(duì)科大訊飛的數(shù)據(jù)特點(diǎn)對(duì)YRCloudFile進(jìn)行產(chǎn)品層面的優(yōu)化,由此形成了YRCloudFile部署->IO特點(diǎn)分析->讀寫(xiě)優(yōu)化->更新上線的完整閉環(huán)。雙方技術(shù)團(tuán)隊(duì),基于YRCloudFile在2019年的IO500測(cè)試中,獲得了全球第六的成績(jī)。
YRCloudFile也通過(guò)在科大訊飛大規(guī)模的使用,快速積累更多服務(wù)人工智能企業(yè)高性能存儲(chǔ)場(chǎng)景的經(jīng)驗(yàn)和能力,產(chǎn)品得到了進(jìn)一步的增強(qiáng),也證明了YRCloudFile的產(chǎn)品穩(wěn)定性及性能優(yōu)勢(shì)。
YRCloudFile在科大訊飛未來(lái)的規(guī)劃
目前YRCloudFile已經(jīng)為科大訊飛的訓(xùn)練集群提供了大規(guī)模的高性能數(shù)據(jù)服務(wù),接下來(lái)還會(huì)繼續(xù)擴(kuò)大在此場(chǎng)景下的使用。
YRCloudFile給科大訊飛帶來(lái)的價(jià)值
正如我們所介紹的那樣,海量數(shù)據(jù)和強(qiáng)大算力是深度學(xué)習(xí)得以發(fā)揮作用的兩大要素。YRCloudFile作為科大訊飛深度學(xué)習(xí)集群中所使用的高性能文件系統(tǒng),在提供人工智能基礎(chǔ)架構(gòu)的核心存儲(chǔ)服務(wù)的同時(shí),也逐步體現(xiàn)出越來(lái)越大的商業(yè)價(jià)值。
總結(jié)
目前,國(guó)內(nèi)的人工智能行業(yè)正迎來(lái)飛速發(fā)展的時(shí)機(jī),AI交通、AI醫(yī)療、AI政務(wù)、AI教育、自動(dòng)駕駛等多個(gè)人工智能場(chǎng)景在不斷深入到我們的生活,YRCloudFile將幫助語(yǔ)音識(shí)別、視覺(jué)識(shí)別、自動(dòng)駕駛等人工智能企業(yè)提升訓(xùn)練效率,增強(qiáng)人工智能企業(yè)的產(chǎn)品競(jìng)爭(zhēng)力,從而更好地服務(wù)于更多的用戶。
關(guān)于科大訊飛
科大訊飛股份有限公司成立于1999年,是亞太地區(qū)知名的智能語(yǔ)音和人工智能上市企業(yè)。自成立以來(lái),長(zhǎng)期從事語(yǔ)音及語(yǔ)言、自然語(yǔ)言理解、機(jī)器學(xué)習(xí)推理及自主學(xué)習(xí)等核心技術(shù)研究并保持了國(guó)際前沿技術(shù)水平;積極推動(dòng)人工智能產(chǎn)品研發(fā)和行業(yè)應(yīng)用落地,致力讓機(jī)器“能聽(tīng)會(huì)說(shuō),能理解會(huì)思考”,用人工智能建設(shè)美好世界。2008年,公司在深圳證券交易所掛牌上市(股票代碼:002230)。
關(guān)于焱融科技
焱融科技是一家以軟件定義存儲(chǔ)技術(shù)為核心競(jìng)爭(zhēng)力的高新技術(shù)企業(yè),在分布式存儲(chǔ)等關(guān)鍵技術(shù)上擁有自主知識(shí)產(chǎn)權(quán),是容器存儲(chǔ)的領(lǐng)導(dǎo)者。焱融科技針對(duì)各行業(yè)業(yè)務(wù)特性,打造個(gè)性化行業(yè)解決方案,提供一站式的產(chǎn)品與服務(wù)。焱融科技系列產(chǎn)品已服務(wù)于人工智能、金融、政府、制造業(yè)、互聯(lián)網(wǎng)等行業(yè)的眾多客戶。了解更多焱融科技信息,請(qǐng)?jiān)L問(wèn)官網(wǎng)www.yanrongyun.com。
標(biāo)簽:喀什 資陽(yáng) 萍鄉(xiāng) 蘇州 貴陽(yáng) 萊蕪 海南 臨滄
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《案例實(shí)踐 | 焱融科技助力科大訊飛釋放大規(guī)模AI集群計(jì)算能力》,本文關(guān)鍵詞 案例,實(shí)踐,焱融,科技,助力,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。