1在AI系統(tǒng)能夠?qū)W習(xí)之前,必須有人標(biāo)記提供給它的數(shù)據(jù),這項(xiàng)工作對自動駕駛汽車、監(jiān)控系統(tǒng)和自動化醫(yī)療等AI的創(chuàng)造至關(guān)重要。
2大型科技公司對注釋數(shù)據(jù)的工作往往保持沉默,因?yàn)樗麄兠媾R著隱私維權(quán)人士對他們存儲并與外部企業(yè)共享大量個人數(shù)據(jù)的擔(dān)憂加劇。
3數(shù)以萬計的上班族和通常在家里工作的獨(dú)立承包商,正通過AmazonMechanicalTurk等眾包服務(wù)對數(shù)據(jù)進(jìn)行注釋和貼標(biāo)簽,每個標(biāo)簽只能賺幾分錢。
騰訊科技訊8月17日消息,據(jù)外媒報道,在距離孟加拉灣約60公里遠(yuǎn)的印度布巴內(nèi)斯瓦爾市中心,納米塔·普拉丹(NamitaPradhan)坐在辦公桌前,盯著世界另一端某家醫(yī)院錄制的視頻。
視頻顯示了某人結(jié)腸的內(nèi)部,普拉丹正通過視頻尋找息肉,即大腸中可能導(dǎo)致癌癥的小腫塊,看起來有點(diǎn)兒像黏糊糊的痘痘。當(dāng)她找到息肉時,會用她的電腦鼠標(biāo)和鍵盤標(biāo)記,在這個小凸起周圍畫個數(shù)字圓圈。普拉丹沒有接受過專門的醫(yī)學(xué)培訓(xùn),但她正在幫助訓(xùn)練一個人工智能(AI)系統(tǒng),這個系統(tǒng)最終可以完成醫(yī)生的工作。
在一座小型辦公樓的四樓,數(shù)十名印度年輕男女在辦公桌前認(rèn)真工作,普拉丹就是其中之一。他們接受的訓(xùn)練是對各種數(shù)字圖像進(jìn)行注釋,從街道場景中的停車標(biāo)志和行人,再到衛(wèi)星照片中的工廠和油罐車,他們都能精確定位。
科技行業(yè)的大多數(shù)人都會告訴你,AI是他們行業(yè)的未來,這項(xiàng)技術(shù)正在快速發(fā)展,這要?dú)w功于一種叫做機(jī)器學(xué)習(xí)的東西。但科技公司的高管很少討論其創(chuàng)建過程中的勞動密集型努力。AI正在向人類學(xué)習(xí),而且是向很多人類學(xué)習(xí)。
但在AI系統(tǒng)能夠?qū)W習(xí)之前,必須有人標(biāo)記提供給它的數(shù)據(jù)。例如,人類必須精確定位息肉。這項(xiàng)工作對自動駕駛汽車、監(jiān)控系統(tǒng)和自動化醫(yī)療等AI的創(chuàng)造至關(guān)重要。然而,科技公司對這項(xiàng)工作保持沉默,因?yàn)樗麄兠媾R著隱私維權(quán)人士對他們存儲并與外部企業(yè)共享大量個人數(shù)據(jù)的擔(dān)憂加劇。
今年早些時候,資深科技編輯凱德·梅茨(CadeMetz)設(shè)法幫我們了解下AI培訓(xùn)的幕后場景,這是硅谷奇才們很少會同意的。梅茨在印度進(jìn)行了一次漫步旅行,走訪了五個辦公室,那里的人們正在從事培訓(xùn)AI系統(tǒng)所需的、幾乎沒有終點(diǎn)的重復(fù)工作,所有這些工作都由名為iMerit的公司運(yùn)營。
有像普拉丹女士這樣的腸道測量師和區(qū)分咳嗽好壞的專家,有語言專家和識別街景標(biāo)識的專業(yè)人士。什么是行人?那是雙黃線還是虛白線?將來,機(jī)器人汽車需要知道其中的區(qū)別。
圖2:iMerit員工必須為他們貼標(biāo)簽的工作學(xué)習(xí)不同尋常的技能,比如在人體腸道上發(fā)現(xiàn)有問題的息肉
梅茨所看到的場景看起來不太像我們想象中的未來,或者至少是你可能想象的自動化未來。辦公室可以是呼叫中心或支付處理中心,其中一個位于加爾各答西部低收入居民區(qū)中央的一棟舊式公寓樓中,那里擠滿了行人、汽車三輪車和街頭小販。在他參觀過的布巴內(nèi)斯瓦爾以及印度、尼泊爾、菲律賓、東非和美國的其他城市,數(shù)以萬計的上班族都在致力于訓(xùn)練機(jī)器。
還有數(shù)萬名工人,也就是通常在家里工作的獨(dú)立承包商,也通過AmazonMechanicalTurk等眾包服務(wù)對數(shù)據(jù)進(jìn)行注釋,這種服務(wù)讓任何人都可以將數(shù)字任務(wù)分配給美國和其他國家的獨(dú)立工人,工人們每個標(biāo)簽?zāi)軖陰追皱X。
總部設(shè)在印度的iMerit,為科技和汽車行業(yè)的許多大牌公司貼數(shù)據(jù)標(biāo)簽。該公司以保密協(xié)議為由,拒絕公開這些客戶的名字。但該公司最近透露,其在全球九個辦事處的2000多名員工正在為亞馬遜的在線數(shù)據(jù)標(biāo)簽服務(wù)Sage Maker Ground Truth做出貢獻(xiàn)。之前,它還將微軟列為客戶。
圖3:在印度加爾各答Metiabruz社區(qū)的iMerit辦公室展示的藝術(shù)品
可以肯定的是,AI將來可能會掏空就業(yè)市場。但就目前而言,它正在創(chuàng)造收入相對較低的工作崗位。根據(jù)研究公司Cognilytica的數(shù)據(jù),2018年數(shù)據(jù)標(biāo)簽市場價值超過5億美元,到2023年將達(dá)到12億美元。研究表明,這類工作占建設(shè)AI技術(shù)所花費(fèi)時間的80%。
這項(xiàng)工作是剝削性的嗎?這取決于你住在哪里,你在做什么。在印度,這是通往中產(chǎn)階級的門票。在美國新奧爾良,這是一份體面的工作。但對于作為獨(dú)立承包商的人來說,這往往是一條“不歸路”。
有些技能是必須學(xué)習(xí)的,比如在視頻或醫(yī)學(xué)掃描中發(fā)現(xiàn)疾病的跡象,或者在汽車或樹的圖像周圍畫數(shù)字套索時保持手部穩(wěn)定。在某些情況下,當(dāng)任務(wù)涉及醫(yī)療視頻、色情或暴力圖像時,工作就會變得可怕。
克里斯蒂·米蘭德(Kristy Milland)說:“當(dāng)你第一次看到這些東西時,會深深地感到不安。你不想回去工作,你可能不會回去工作了。”米蘭德花了數(shù)年時間在Amazon Mechanical Turk上做數(shù)據(jù)標(biāo)簽工作,現(xiàn)在已經(jīng)成為代表這項(xiàng)服務(wù)的工人的勞工維權(quán)人士。她稱:“對于我們這些負(fù)擔(dān)不起失去工作的人來說,你就只能繼續(xù)忍受。”
在去印度之前,梅茨曾試著在眾包服務(wù)上給圖片貼上標(biāo)簽,在耐克標(biāo)識周圍畫數(shù)字框,并識別“工作不安全”的圖片。他當(dāng)時顯得非常笨拙。在開始工作之前,他必須通過測試,但卻接連失敗了三次。給圖像貼上標(biāo)簽以便人們可以立即在網(wǎng)站上搜索零售商品,更不用說花時間將裸體女性和性玩具的粗糙圖像識別為“NSFW”,并不完全是鼓舞人心的。
AI研究人員希望他們能夠建立能從少量數(shù)據(jù)中學(xué)習(xí)的系統(tǒng)。但在可預(yù)見的未來,人類的勞動依然是必不可少的。微軟的人類學(xué)家瑪麗·格雷(MaryGray)說:“這是個隱藏在技術(shù)之下、不斷擴(kuò)張的世界,很難將人類排除在循環(huán)之外。”
寺廟之城
圖4:員工離開印度布巴內(nèi)斯瓦爾的iMerit辦公室,這家私人公司是由Radha和DipakBasu創(chuàng)立的,他們都在硅谷工作過很長時間
布巴內(nèi)斯瓦爾又被稱為“寺廟之城”。古老的印度教圣地矗立在城市西南端的路邊市場上,包括可以追溯到公元10世紀(jì)的巨型石塔。在市中心,許多街道沒有鋪設(shè)路面。奶牛和野狗在輕便摩托車、小汽車和卡車之間徘徊。
這座城市擁有83萬人口,也是一個快速增長的在線勞動力中心。從寺廟出發(fā)大約15分鐘的車程,在市中心附近一條鋪好路面的路上,一座白色的四層建筑坐落在一堵石墻后面。里面有三個房間,房間里擺滿了長長的桌子,每個都有自己的寬屏電腦顯示屏。這就是普拉丹女士給視頻貼標(biāo)簽的地方。
24歲的普拉丹在城外長大,并從當(dāng)?shù)匾凰髮W(xué)獲得了學(xué)位,在接受iMerit的工作之前,她在那里學(xué)習(xí)生物學(xué)和其他學(xué)科。這是她哥哥推薦的工作,他本人此前已經(jīng)在公司工作了。普拉丹在工作日時住在她辦公室附近的一家旅社,每個周末都乘公交車回家。
梅茨曾在今年1月份參觀了普拉丹的辦公室。許多身穿印度傳統(tǒng)服裝、帶著長長金耳環(huán)的女士坐在長長的桌子旁,普拉丹女士穿著一件綠色的長袖襯衫、黑色的褲子和白色的系帶鞋,為美國的一位客戶注釋視頻。在通常每天8小時的工作中,這位害羞的女士觀看了十幾個結(jié)腸鏡檢查視頻,不斷地倒轉(zhuǎn)視頻,以便更近距離地查看各個幀。
每隔一段時間,普拉丹就會找到她想要的東西,她會用數(shù)字“包圍盒”套住它。她畫了數(shù)百個這樣的包圍盒,給息肉和其他疾病征兆貼上標(biāo)簽,比如血塊和炎癥。
圖5:普拉丹(右二)在布巴內(nèi)斯瓦爾的iMerit辦公室和同事們一起工作
普拉丹的客戶是美國的一家公司,iMerit不允許透露它的名字,它最終將把普拉丹的工作輸入給AI系統(tǒng),這樣它就可以學(xué)會自己識別醫(yī)療狀況。結(jié)腸鏡的主人不一定知道視頻的存在,普拉丹女士也不知道這些視頻是從哪里來的,iMerit也是如此。
普拉丹女士在與一位非實(shí)習(xí)醫(yī)生進(jìn)行為期七天的在線視頻通話時學(xué)會了這項(xiàng)任務(wù)。這位醫(yī)生住在美國加州奧克蘭,幫助培訓(xùn)許多iMerit辦公室的工作人員。但是有些人質(zhì)疑,是否應(yīng)該由經(jīng)驗(yàn)豐富的醫(yī)生和醫(yī)學(xué)生自己做這類標(biāo)簽。
威爾·康奈爾醫(yī)學(xué)(Weill Cornell Medicine)和紐約長老會醫(yī)院(New York-Presbyterian)的放射學(xué)家、初創(chuàng)公司MD。ai。的聯(lián)合創(chuàng)始人喬治·施(GeorgeShih)博士說,這項(xiàng)工作需要“有醫(yī)學(xué)背景,并具備解剖學(xué)和病理學(xué)相關(guān)知識的人”。MD。ai。幫助企業(yè)為醫(yī)療保健構(gòu)建AI。
在聊起普拉丹的工作時,她說那“很有趣”,但是很累。至于視頻的圖形化本質(zhì)?她承認(rèn):“一開始很惡心,但后來你就習(xí)慣了。”
普拉丹標(biāo)注的圖像很可怕,但沒有iMerit處理的其他圖像那么可怕。他們的客戶也在建立AI,可以識別和刪除社交網(wǎng)絡(luò)和其他在線服務(wù)上不想要的圖片。這意味著需要標(biāo)注色情、暴力和其他有害的圖像。
這項(xiàng)工作可能會讓從業(yè)者感到非常不安,iMerit試圖限制他們審查這類內(nèi)容的數(shù)量。在AI初創(chuàng)企業(yè)Clarifai負(fù)責(zé)數(shù)據(jù)注釋工作的利茲·奧沙利文(LizO‘Sullivan)表示,色情和暴力與更無害的圖片混合在一起,那些貼上可怕標(biāo)簽的圖片被隔離在不同的房間里,以保護(hù)其他員工。奧沙利文曾與iMerit在此類項(xiàng)目上密切合作。
奧沙利文說,其他標(biāo)簽公司將讓員工對這些圖片進(jìn)行無限數(shù)量的注釋。她指出:“如果這會導(dǎo)致創(chuàng)傷后應(yīng)激障礙或者更糟情況,我不會感到驚訝。在道德上不受譴責(zé)的公司根本不愿意承擔(dān)這樣的責(zé)任。你必須用其他工作來填充色情和暴力,這樣工人就不必看色情和斬首等內(nèi)容。”
iMerit在一份聲明中表示,它不會強(qiáng)迫員工查看色情或其他攻擊性內(nèi)容,只有在有助于改善監(jiān)控系統(tǒng)的情況下才會承擔(dān)這項(xiàng)工作。據(jù)一位公司高管透露,普拉丹和其他貼標(biāo)員每月的收入在150美元到200美元之間,同時可為iMerit帶來800美元到1000美元的收入。
按照美國的標(biāo)準(zhǔn),普拉丹的工資低得不像話。但對于她和這些辦公室的其他許多人來說,這大約與數(shù)據(jù)錄入工作的平均工資差不多。盡管工作單調(diào)乏味,但它能幫助付得起公寓的費(fèi)用。
圖6:iMerit員工普拉森吉特·拜迪亞與妻子派克在西孟加拉邦工作,他很滿意當(dāng)前的工作
普拉森吉特·拜迪亞(Prasenjit Baidya)在距離印度東海岸、西孟加拉邦最大城市加爾各答約50公里的農(nóng)場長大。他的父母和大家庭仍然住在他兒時的家中,那是19世紀(jì)初建造的磚房。他們在周圍的田里種植水稻和向日葵,并在鋪滿屋頂?shù)牡靥荷虾娓煞N子。
他是家里第一個接受大學(xué)教育的人,其中包括電腦課。但是學(xué)校沒有教他那么多知識,教室里平均25個學(xué)生才能分配到一臺電腦。大學(xué)畢業(yè)后,他自學(xué)了計算機(jī)技能,當(dāng)時他報名參加了名為Anudip的非營利組織舉辦的培訓(xùn)課程。這是一位朋友推薦的,每月的費(fèi)用相當(dāng)于5美元。
Anudip在印度各地開設(shè)英語和計算機(jī)課程,每年培訓(xùn)約22000人。這家機(jī)構(gòu)直接將學(xué)生推薦給iMerit,它的創(chuàng)始人在2013年將iMerit作為姐妹業(yè)務(wù)建立起來。通過Anudip,拜迪亞在加爾各答的一家iMerit辦公室找到了工作,他的妻子巴納利·派克(BarnaliPaik)也是如此,她在附近的一個村莊長大。
在過去的六年中,iMerit從Anudip雇傭了超過1600名學(xué)生。目前,該公司的員工總數(shù)約為2500人,其中超過80%的人來自月收入低于150美元的家庭。
iMerit成立于2012年,仍然是一家私人公司,它讓員工執(zhí)行數(shù)字任務(wù),比如轉(zhuǎn)錄音頻文件或識別照片中的物體。全球各地的企業(yè)付錢給公司,而且越來越多地,他們在協(xié)助AI訓(xùn)練方面的工作。與丈夫迪帕克(Dipak)共同創(chuàng)立了Anudip和iMerit的拉達(dá)·巴蘇(RadhaBasu)說:“我們想讓低收入背景的人進(jìn)入科技行業(yè)。”巴蘇和迪帕克在硅谷與科技巨頭思科、惠普等長期合作。
這些工人的平均年齡是24歲。像拜迪亞一樣,他們中的大多數(shù)人來自農(nóng)村。該公司最近在加爾各答西部以穆斯林為主的社區(qū)Metiabruz開設(shè)了一家新的辦事處。在那里,它雇傭的大多是穆斯林婦女,她們的家人不愿意讓她們離開這個熙熙攘攘的地區(qū)。他們沒有被要求看色情圖片或暴力材料。
圖7:iMerit員工在加爾各答Metiabruz的辦公室接受培訓(xùn)
起初,iMerit專注于簡單的任務(wù),為在線零售網(wǎng)站整理產(chǎn)品清單,審查社交媒體上的帖子,但它已經(jīng)轉(zhuǎn)移到了為AI提供支持的工作中。iMerit和類似公司的增長代表著從像Mechanical Turk這樣的眾包服務(wù)的轉(zhuǎn)變。iMerit及其客戶可以更好地控制員工的培訓(xùn)方式和工作完成方式。
拜迪亞現(xiàn)在是iMerit的經(jīng)理,他負(fù)責(zé)為美國一家大公司為培訓(xùn)無人駕駛汽車所使用的街道場景貼上標(biāo)簽的工作。他的團(tuán)隊(duì)對數(shù)字照片以及激光雷達(dá)捕獲的三維圖像進(jìn)行分析和標(biāo)記。他們整天都在汽車、行人、停車標(biāo)志和電線周圍畫邊界框。
拜迪亞說這份工作可能會很乏味,但它給了他一種他本來可能不會擁有的生活。他和妻子最近在加爾各答買了一套公寓,步行就可到達(dá)她工作的iMerit辦公室。拜迪亞說:“我的生活發(fā)生了夢幻般的變化,無論是從我的財務(wù)狀況、個人經(jīng)歷以及英語技能等方面來看,都是如此。我獲得了一個機(jī)會!”
聽人們咳嗽
圖8:在iMerit新奧爾良辦公室工作的奧斯卡·卡貝薩斯(OscarCabezas)。當(dāng)公司開始開發(fā)西班牙語數(shù)字助理時,他加入了公司
印度之行幾周后,梅茨乘坐Uber穿過新奧爾良市中心。大約18個月前,iMerit搬進(jìn)了Superdome街對面的一棟建筑。美國一家大科技公司需要一種為其家庭數(shù)字助理的西班牙語版本標(biāo)記數(shù)據(jù)的方法。因此,它將數(shù)據(jù)發(fā)送到新奧爾良的新iMerit辦公室。
2005年卡特里娜颶風(fēng)過后,數(shù)百名建筑工人和他們的家人搬到新奧爾良幫助重建這座城市,很多人留了下來。許多會說西班牙語的人隨這支新的員工隊(duì)伍而來,公司開始雇用他們。
23歲的奧斯卡·卡貝薩斯(Oscar Cabezas)和母親從哥倫比亞搬到了新奧爾良。他的繼父在建筑工地找到了工作,大學(xué)畢業(yè)后,卡貝薩斯加入iMerit,開始開發(fā)西班牙語數(shù)字助理。
他注釋了從推文到餐館評論的所有內(nèi)容,識別人物和地點(diǎn),并找出含糊不清之處。例如,在危地馬拉,“pisto”意味著錢,但在墨西哥,它意味著啤酒。他所:“每天都有新的項(xiàng)目。”
這個辦公室的工作已擴(kuò)展到其他領(lǐng)域,為希望將數(shù)據(jù)保留在美國境內(nèi)的企業(yè)提供服務(wù)。出于法律和安全目的,有些項(xiàng)目必須留在美國。
42歲的格倫達(dá)·赫爾南德斯(Glenda Hernandez)出生在危地馬拉,她說她懷念以前在數(shù)字助理項(xiàng)目上的工作。她喜歡讀書,曾為大型出版公司在網(wǎng)上評論書籍,這樣她就可以獲得免費(fèi)的副本,她很享受用西班牙語進(jìn)行閱讀帶來的有償閱讀機(jī)會。
圖9:格倫達(dá)·赫爾南德斯(Glenda Hernandez)是新奧爾良iMerit的工作人員,她已經(jīng)學(xué)會了區(qū)分咳嗽好壞之間的區(qū)別
赫爾南德斯對圖像標(biāo)記或類似于對人們咳嗽的錄音進(jìn)行注釋的項(xiàng)目不那么感興趣,但這是建立AI的一種方式,可以通過電話識別疾病癥狀。她說:“整天聽咳嗽有點(diǎn)兒讓人覺得惡心!”微軟人類學(xué)家格雷說,這項(xiàng)工作很容易被誤解。整天聽人們咳嗽可能令人惡心,但這也是醫(yī)生度過他們?nèi)兆拥姆绞健Kf:“我們不認(rèn)為這是苦差事。”
赫爾南德斯女士的工作是為了幫助醫(yī)生做好他們的工作,或者也許有一天,取代他們。她以此為榮。在抱怨了這個項(xiàng)目后不久,她指了指辦公室里的同事說:“我們都是咳嗽診斷大師。”
“我受夠了”
圖10:多倫多的克里斯蒂·米蘭德(KristyMilland)在Amazon Mechanical Turk工作了14年,這是一家眾包數(shù)據(jù)注釋任務(wù)的公司,現(xiàn)在她試圖改善從事這些工作的人的工作條件
2005年,克里斯蒂·米蘭德(Kristy Milland)在Amazon Mechanical Turk注冊了她的第一份工作。她當(dāng)時26歲,和丈夫住在多倫多,丈夫管理著當(dāng)?shù)氐囊患覀}庫。Amazon Mechanical Turk是一種賺點(diǎn)兒外快的方式。
第一個項(xiàng)目是亞馬遜自己的。米蘭德的筆記本電腦上會彈出三張店面的照片,她會選擇顯示前門的那張。亞馬遜正在建立一個類似谷歌街景(Google Street View)的在線服務(wù),該公司需要幫助挑選最好的照片。
她每點(diǎn)擊一次就能賺0.03美元,或者說大約每分鐘0.18美元。2010年,米蘭德的丈夫失去了工作,Amazon Mechanical Turk成了她的全職工作。在兩年的時間里,她每周工作六七天,有時一天工作17個小時。她一年賺大約5萬美元。米蘭德女士說:“那時候夠了,但現(xiàn)在卻不行。”
當(dāng)時的工作并不真正涉及AI。對于另一個項(xiàng)目,米蘭德會從抵押貸款文件中提取信息,或者從名片照片中重新鍵入姓名和地址,有時每小時只能賺1美元。
大約在2010年,米蘭德開始為AI項(xiàng)目貼標(biāo)簽。她標(biāo)記過各種各樣的數(shù)據(jù),比如Twitter上出現(xiàn)的血淋淋圖片(這有助于建立AI,有助于從社交網(wǎng)絡(luò)上刪除血腥圖片),或者可能是在中東某處拍攝的空中鏡頭,想必是針對軍方及其合作伙伴正在建設(shè)的用于識別無人機(jī)目標(biāo)的AI。
米蘭德說,來自美國科技巨頭的項(xiàng)目通常比普通工作的薪酬高,大約每小時15美元。但這份工作沒有醫(yī)療保健或帶薪假期,可能會讓人麻木或者令人深感不安。她稱其為“可怕的剝削”,亞馬遜拒絕置評。
自2012年以來,現(xiàn)年40歲的米蘭德始終待在名為Turker Nation的組織中,該組織旨在改善數(shù)千名從事這類工作的人的工作條件。今年4月,在工作14年后,她辭職了。
米蘭德在讀法學(xué)院,她丈夫的收入比他們每個月支付的房租少600美元,這還不包括水電費(fèi)。所以,他們正準(zhǔn)備負(fù)債。但她不會回去給數(shù)據(jù)貼標(biāo)簽。她說:“這是一個反烏托邦的未來,我已經(jīng)受夠了!”