主頁(yè) > 知識(shí)庫(kù) > 標(biāo)貝科技繆冠瓊:AI數(shù)據(jù)標(biāo)注機(jī)器比重提升,但不可能完全取代人工

標(biāo)貝科技繆冠瓊:AI數(shù)據(jù)標(biāo)注機(jī)器比重提升,但不可能完全取代人工

熱門標(biāo)簽:話術(shù) 太平洋壽險(xiǎn)電話營(yíng)銷 網(wǎng)站建設(shè) 電話銷售團(tuán)隊(duì) 電銷行業(yè) Win7旗艦版 電話外呼服務(wù) AI人工智能
  
  文|AI前線
  作者|劉燕
  AI前線導(dǎo)讀:如果將人工智能比作火箭,那么,數(shù)據(jù)就是助推火箭上升的燃料。機(jī)器學(xué)習(xí)依賴大量的已標(biāo)注數(shù)據(jù),數(shù)據(jù)標(biāo)注讓機(jī)器理解并認(rèn)識(shí)世界。數(shù)據(jù)標(biāo)注是人工智能發(fā)展過(guò)程中不可缺的一環(huán),是AI金字塔構(gòu)建的基礎(chǔ)力量。與AI臺(tái)前的繁榮、高光形成鮮明對(duì)比的是,數(shù)據(jù)標(biāo)注往往居于幕后,常被人忽視,也受到一些偏見(jiàn),血汗工廠、AI富士康、新型民工...隨著AI深入落地對(duì)數(shù)據(jù)提出更高的要求,數(shù)據(jù)標(biāo)注行業(yè)也從草莽生長(zhǎng)階段逐漸過(guò)渡到更精細(xì)化的成長(zhǎng)期。
  01 AI金字塔背后的數(shù)據(jù)標(biāo)注
  數(shù)據(jù)是機(jī)器學(xué)習(xí)的基礎(chǔ),機(jī)器學(xué)習(xí)建立在數(shù)據(jù)建模基礎(chǔ)上,豐富的標(biāo)簽是機(jī)器學(xué)習(xí)成功建模的前提。監(jiān)督學(xué)習(xí)是目前應(yīng)用最廣泛的機(jī)器學(xué)習(xí)算法,該方法強(qiáng)依賴標(biāo)注數(shù)據(jù),它通過(guò)學(xué)習(xí)大量標(biāo)注的訓(xùn)練樣本來(lái)構(gòu)建預(yù)測(cè)模型。深度學(xué)習(xí)也需要大量數(shù)據(jù)的投喂,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)框架都需要在大型的監(jiān)督數(shù)據(jù)集上進(jìn)行訓(xùn)練,百分點(diǎn)首席算法科學(xué)家蘇海波曾表示,深度學(xué)習(xí)只有在擁有充足標(biāo)注數(shù)據(jù)的場(chǎng)景下才能發(fā)揮它的威力,但在很多實(shí)際的應(yīng)用中卻沒(méi)有足夠的標(biāo)注數(shù)據(jù)。
  AI技術(shù)在全場(chǎng)景的落地以及大數(shù)據(jù)時(shí)代的到來(lái)產(chǎn)生了海量、指數(shù)級(jí)別的數(shù)據(jù),數(shù)據(jù)獲取也相對(duì)變得容易,然而,想要獲得大量的已標(biāo)注數(shù)據(jù)卻并不容易,往往需要付出很大的人力、物力、財(cái)力成本。在醫(yī)療AI等專業(yè)門檻較高的細(xì)分領(lǐng)域,缺乏標(biāo)注數(shù)據(jù)就成了阻礙行業(yè)發(fā)展的絆腳石,騰訊優(yōu)圖實(shí)驗(yàn)室總監(jiān)鄭冶楓曾在接受AI前線采訪時(shí)表示,醫(yī)療數(shù)據(jù)標(biāo)注難一方面體現(xiàn)在頂尖的醫(yī)療數(shù)據(jù)標(biāo)注人才缺乏,另一方面,臨床、科研任務(wù)重,很多醫(yī)療專家沒(méi)有時(shí)間和精力做數(shù)據(jù)標(biāo)注。
  數(shù)據(jù)標(biāo)注主要是針對(duì)語(yǔ)音、圖像、文本等進(jìn)行標(biāo)注,主要通過(guò)做標(biāo)記、標(biāo)重點(diǎn)、打標(biāo)簽、框?qū)ο?、做注釋等方式?duì)數(shù)據(jù)集作出標(biāo)注,再將這些數(shù)據(jù)集給機(jī)器訓(xùn)練和學(xué)習(xí)。數(shù)據(jù)標(biāo)注的類型主要有:拼音標(biāo)注、韻律標(biāo)注、詞性標(biāo)注、音素時(shí)間點(diǎn)標(biāo)注、語(yǔ)音轉(zhuǎn)寫(xiě)、分類標(biāo)注、打點(diǎn)標(biāo)注、標(biāo)框標(biāo)注、區(qū)域標(biāo)注等等。由于需要標(biāo)注的數(shù)據(jù)規(guī)模龐大且成本較高,一些互聯(lián)網(wǎng)巨頭及一些AI公司很少自己設(shè)有標(biāo)注團(tuán)隊(duì),大多交給第三方數(shù)據(jù)服務(wù)公司或者數(shù)據(jù)標(biāo)注團(tuán)隊(duì)來(lái)做。
  數(shù)據(jù)服務(wù)是標(biāo)貝科技的起家業(yè)務(wù),自2016年成立以來(lái),標(biāo)貝科技為BAT、AI獨(dú)角獸等多家公司提供過(guò)語(yǔ)音、圖像、NLP數(shù)據(jù)的采集、標(biāo)注等服務(wù)。據(jù)標(biāo)貝科技數(shù)據(jù)負(fù)責(zé)人繆冠瓊介紹,標(biāo)貝有自研的采集標(biāo)注平臺(tái),包括長(zhǎng)語(yǔ)音(對(duì)話、持續(xù))標(biāo)注平臺(tái)和短語(yǔ)音(十幾秒)標(biāo)注平臺(tái),AI語(yǔ)音合成數(shù)據(jù)標(biāo)注平臺(tái)、數(shù)據(jù)工場(chǎng)APP等。在標(biāo)注平臺(tái)的選擇上,會(huì)依據(jù)圖像、語(yǔ)音數(shù)據(jù)、數(shù)據(jù)來(lái)源、客戶需求等綜合決定。以語(yǔ)音合成數(shù)據(jù)標(biāo)注為例,會(huì)標(biāo)注其音字、韻律、音素時(shí)間點(diǎn)、詞性等標(biāo)簽。
  人工智能的繁榮催生并壯大了數(shù)據(jù)標(biāo)注行業(yè),也創(chuàng)造了大量的就業(yè)崗位。有數(shù)據(jù)顯示,目前中國(guó)的全職數(shù)據(jù)標(biāo)注從業(yè)者有約20萬(wàn)人,兼職數(shù)據(jù)標(biāo)注從業(yè)者有約一百萬(wàn)人,全國(guó)從事數(shù)據(jù)標(biāo)注業(yè)務(wù)的公司約有幾百家。
  02 數(shù)據(jù)民工?
  在數(shù)據(jù)標(biāo)注行業(yè)流行著一句話,有多少智能,就有多少人工。數(shù)據(jù)標(biāo)注是人工智能發(fā)展中至關(guān)重要的一環(huán),卻常常容易被人忽視。
  相對(duì)而言,數(shù)據(jù)標(biāo)注是人工智能領(lǐng)域入門級(jí)的工種,單從工作流程看,其技術(shù)含量較低,人是這項(xiàng)工作中最大的影響因素,久而久之,勞動(dòng)密集型成為外界給數(shù)據(jù)標(biāo)注行業(yè)貼上的一個(gè)標(biāo)簽。低門檻吸引了眾多農(nóng)民、學(xué)生、殘疾人群體加入到數(shù)據(jù)標(biāo)注大軍中,在我國(guó)河南、河北、貴州、山西等地的四五線城市還出現(xiàn)了一些特色的數(shù)據(jù)標(biāo)注村。
  不止中國(guó),向勞動(dòng)力更充足、成本更低的地方遷移也是全球數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展趨勢(shì)。印度涌現(xiàn)了不少數(shù)據(jù)標(biāo)注村,他們?yōu)槊绹?guó)、歐洲、澳洲和亞洲的AI公司服務(wù),F(xiàn)acebook就曾將部分社交內(nèi)容標(biāo)注的工作外包給了一家印度公司。
  上述務(wù)工者也由此成為了人工智能浪潮中的參與者,盡管待遇上遠(yuǎn)遠(yuǎn)少于其他人工智能從業(yè)者,但相較傳統(tǒng)的體力工作,數(shù)據(jù)標(biāo)注員的工作倒是更輕松,體面。不過(guò),硬幣的另一面是,這項(xiàng)工作流程簡(jiǎn)單,單調(diào)乏味,數(shù)據(jù)標(biāo)注員日復(fù)一日重復(fù)畫(huà)框的工作...。。關(guān)于數(shù)據(jù)標(biāo)注行業(yè)是臟活累活、數(shù)據(jù)民工的論調(diào)也四散而起。
  對(duì)于這些聲音,繆冠瓊并不認(rèn)同。
  我覺(jué)得(它)不是‘臟活累活’行業(yè),因?yàn)檫@并不是一個(gè)什么人都可以做的工作。AI本身發(fā)展很快,隨著應(yīng)用產(chǎn)品落地,對(duì)數(shù)據(jù)的要求越來(lái)越高,對(duì)數(shù)據(jù)采標(biāo)人員的素質(zhì)也提出了高要求??紤]到外包團(tuán)隊(duì)服務(wù)質(zhì)量難以把控等因素,標(biāo)貝科技所承接的項(xiàng)目主要依靠自有數(shù)據(jù)標(biāo)注團(tuán)隊(duì),其在天津、長(zhǎng)春等城市設(shè)有數(shù)據(jù)團(tuán)隊(duì),兼職人員則視項(xiàng)目大小臨時(shí)擴(kuò)容,遴選兼職人員時(shí)更考慮專業(yè)水平,要求具有語(yǔ)言、方言背景,或者有數(shù)據(jù)標(biāo)注經(jīng)驗(yàn),無(wú)經(jīng)驗(yàn)者要經(jīng)過(guò)至少6個(gè)月培訓(xùn)。
  繆冠瓊表示,數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展越來(lái)越趨向于專業(yè)化,早期多以中文數(shù)據(jù)標(biāo)注為主,現(xiàn)在隨著多語(yǔ)種、方言、個(gè)性化標(biāo)注等發(fā)展標(biāo)注需求的增加,并不是隨便拉來(lái)很多人就可以做的,需要專業(yè)的人才。此外,血汗工廠這種情形多出現(xiàn)在行業(yè)早期且多針對(duì)于只有數(shù)據(jù)標(biāo)注一項(xiàng)業(yè)務(wù)的小團(tuán)隊(duì),它們承接不了一些復(fù)雜的、定制化的項(xiàng)目。從工作量上看,結(jié)合客戶需求,以語(yǔ)音標(biāo)注為例,標(biāo)貝科技的數(shù)據(jù)標(biāo)注員一個(gè)人工作一天的有效標(biāo)注語(yǔ)音時(shí)長(zhǎng)為1小時(shí)。
  03 機(jī)器標(biāo)注比重提升,但不可能取代人工
  蠻荒時(shí)代已過(guò)去了。
  《2019年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)白皮書(shū)》分析指出,2010-2016年為數(shù)據(jù)服務(wù)行業(yè)的初生期,早期數(shù)據(jù)標(biāo)注需求激增,加之入行門檻低,涌入了大量玩家,魚(yú)龍混雜。自2017年以來(lái),伴隨著AI深入落地到各個(gè)應(yīng)用場(chǎng)景中,數(shù)據(jù)標(biāo)注行業(yè)了進(jìn)入成長(zhǎng)期,上層應(yīng)用端的廠商對(duì)數(shù)據(jù)標(biāo)注質(zhì)的要求不斷提高,如自動(dòng)駕駛、運(yùn)動(dòng)圖像、計(jì)算機(jī)視覺(jué)等領(lǐng)域的數(shù)據(jù)標(biāo)注難度很高。
  行業(yè)格局漸漸清晰,馬太效應(yīng)明顯。據(jù)了解,國(guó)內(nèi)從事數(shù)據(jù)標(biāo)注業(yè)務(wù)公司/團(tuán)隊(duì)約有幾百家,其中獨(dú)立做整個(gè)數(shù)據(jù)質(zhì)量服務(wù)的約百余家,能夠提供數(shù)據(jù)采標(biāo)服務(wù)一體化的有幾十家,能夠提供高標(biāo)準(zhǔn)基礎(chǔ)數(shù)據(jù)服務(wù)的僅有十幾家。現(xiàn)階段,下游AI算法研發(fā)單位多將業(yè)務(wù)分流給不同數(shù)據(jù)服務(wù)公司加之?dāng)?shù)據(jù)標(biāo)注相關(guān)標(biāo)準(zhǔn)待完善,該行業(yè)還沒(méi)有出現(xiàn)大的巨頭公司。
  這是一個(gè)尚未飽和的市場(chǎng),同樣,這也意味著巨大的發(fā)展空間。據(jù)統(tǒng)計(jì),2018年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為25.86億元,行業(yè)年復(fù)合增長(zhǎng)率為23.5%。
  繆冠瓊認(rèn)為,受數(shù)據(jù)安全和質(zhì)量標(biāo)準(zhǔn)不斷提升及相關(guān)數(shù)據(jù)政策出臺(tái)影響,一些不滿足行業(yè)標(biāo)準(zhǔn)及客戶需求的將會(huì)被市場(chǎng)淘汰。她補(bǔ)充,行業(yè)目前正處于一個(gè)上升的、快速發(fā)展的階段,整體在朝著個(gè)性化、專業(yè)化的方向發(fā)展,從早期較簡(jiǎn)單的、通用的數(shù)據(jù)過(guò)渡到更復(fù)雜的個(gè)性化的、場(chǎng)景化的數(shù)據(jù),對(duì)于很多細(xì)分領(lǐng)域,需要大量真實(shí)的模型進(jìn)行標(biāo)注去迭代模型,而非簡(jiǎn)單的通用數(shù)據(jù)可以滿足的。
  數(shù)據(jù)標(biāo)注行業(yè)也已經(jīng)開(kāi)始進(jìn)入到人機(jī)協(xié)作的階段,數(shù)據(jù)標(biāo)注市場(chǎng)需求量仍舊很大,需要更加專業(yè)的人及高效的機(jī)器協(xié)助,機(jī)器標(biāo)注所占的比重會(huì)不斷提升,AI技術(shù)與數(shù)據(jù)互補(bǔ),通過(guò)AI技術(shù)提升數(shù)據(jù)效率,數(shù)據(jù)反過(guò)來(lái)服務(wù)于技術(shù)。
  為降低人工成本,提高效率,不少互聯(lián)網(wǎng)技術(shù)公司及第三方數(shù)據(jù)服務(wù)商在開(kāi)發(fā)自己的標(biāo)注工具。去年10月,Google發(fā)布了用于完整圖像標(biāo)注的人機(jī)協(xié)作接口Fluid Annotation,利用它標(biāo)注圖像中每個(gè)對(duì)象和背景區(qū)域的類標(biāo)簽與輪廓,可將標(biāo)注數(shù)據(jù)集的創(chuàng)建速度提高三倍。數(shù)據(jù)標(biāo)注眾包平臺(tái)也不斷涌現(xiàn),京東眾智、百度眾測(cè)、figure-eight、亞馬遜的Mechanical Turk等。
  未來(lái),機(jī)器標(biāo)注、人工輔助將成為可以預(yù)見(jiàn)的發(fā)展趨勢(shì)。這對(duì)數(shù)據(jù)標(biāo)注村來(lái)說(shuō)或許并不是一件好事。但繆冠瓊認(rèn)為,機(jī)器不可能完全取代人工?,F(xiàn)階段人工標(biāo)注的準(zhǔn)確度要高于機(jī)器,機(jī)器只能跑出有一定比例的正確結(jié)果,更精確的結(jié)果仍需要人工來(lái)標(biāo)注,且發(fā)揮的作用更關(guān)鍵。此外,在質(zhì)檢環(huán)節(jié),人的作用也無(wú)可替代,標(biāo)貝數(shù)據(jù)校對(duì)采用人工為主的處理方式,采用遵循一審、二校、三驗(yàn)流程,機(jī)器會(huì)抽檢、驗(yàn)收一部分?jǐn)?shù)據(jù)并給出預(yù)處理結(jié)果,最終的結(jié)果要靠精細(xì)化的人工校對(duì)。
  嘉賓介紹
  繆冠瓊,標(biāo)貝科技聯(lián)合創(chuàng)始人,數(shù)據(jù)業(yè)務(wù)負(fù)責(zé)人,語(yǔ)音及數(shù)據(jù)領(lǐng)域?qū)<遥袠I(yè)經(jīng)驗(yàn)超過(guò)17年以上,參與多本專業(yè)書(shū)籍編寫(xiě),在產(chǎn)品與數(shù)據(jù)的場(chǎng)景結(jié)合上有獨(dú)特的解決方案。

標(biāo)簽:南昌 云南 漯河 儋州 寧夏 宿州 延安 普洱

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《標(biāo)貝科技繆冠瓊:AI數(shù)據(jù)標(biāo)注機(jī)器比重提升,但不可能完全取代人工》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266