最先想要解決這一問題的是雅虎——作為互聯(lián)網(wǎng)時代早期最重要的免費(fèi)郵件提供商,他們一方面要解決用戶們每天遇到的數(shù)以百計的垃圾郵件轟炸,另一方面,他們自己的免費(fèi)郵箱,恰恰又是垃圾郵件的最愛——耗費(fèi)無數(shù)資源所阻止的垃圾郵件,都來自于自己的服務(wù)器。這讓雅虎開始認(rèn)真考慮如何解決人機(jī)辨識問題。
互聯(lián)網(wǎng)最早出現(xiàn)的capthca
他們找到一位當(dāng)時剛剛21歲的天才——Luis von Ahn。 而Luis Von Ahn給出的方案,就是這個讓人民群眾微微皺眉,但是讓計算機(jī)聳肩撓頭的驗證碼 Capcha。計算機(jī)辨識技術(shù)還很落后,對于經(jīng)過扭曲、污染的文字,無法辨識。而人類卻可以輕松認(rèn)出這些文字。這是一個簡單而巧妙的設(shè)計,計算機(jī)先是產(chǎn)生一個隨機(jī)的字符串,然后用程序把這個字符串的圖像進(jìn)行隨機(jī)的污染,扭曲,再顯示給顯示器前的人或者機(jī)器。凡是能夠辨識這些字符的,即為人類。
故事還沒完,Luis Von Ahn是那種追求完美的科學(xué)家。當(dāng)全世界數(shù)以十億計的人每天都會浪費(fèi)幾秒鐘的時間參與辨認(rèn)文字這一簡單活動的時候,他開始思考,其中浪費(fèi)的人腦智力是否能得到更好的應(yīng)用呢?
Luis Von Ahn的最終設(shè)計是,讓人們用這些腦力解決一些計算機(jī)無法解決的圖書數(shù)字化。
在計算機(jī)時代以前,印刷術(shù)已經(jīng)存在了數(shù)百年,但這些印刷術(shù)所產(chǎn)生的書本和報紙等等,對于計算機(jī)來說都是模擬信號,僅以圖像的形式存在,而非以數(shù)字化的形式存在。但是,早期的印刷術(shù)并不精確,文字大小不一,形象有差別。而且因為印刷品年代久遠(yuǎn),擁有各種細(xì)微的缺損和污染。這對人眼來說不是什么大問題,但對計算機(jī)來說就麻煩了。
目前在google、yahoo、youtube等各個網(wǎng)站都能看到的雙capcha,一個是需要辨認(rèn)的文檔圖像,一個是計算機(jī)生成的capcha
因此,2002年,luis Von Ahn開始讓capcha引用各種無法被計算機(jī)辨識的文字圖像,目前,已經(jīng)有上萬網(wǎng)站采用他的新一代capcha。每天幫助辨識數(shù)以百萬計的古老文檔。
問題在于,對于最初的capcha來說,計算機(jī)實際上是知道答案的。而Luis希望人們辨識的文字,計算機(jī)實際上是不知道答案的,那如何能驗證返回的答案到底是不是真的呢?
解決這個問題的方法依然體現(xiàn)了Luis一貫的簡潔和優(yōu)美,他讓人們每次辨識兩個,而非一個capcha,其中一個來自于計算機(jī)隨機(jī)生成的字符串,而另一個則是從文檔中選取的計算機(jī)不認(rèn)識的字符圖像。只要人們對前一個字符串給出的答案是正確的,那么就判定,人們對后一個capcha的辨識是正確的。
用這一方法,luis的capcha2.0 已經(jīng)幫助完成了整個紐約時報130年的報紙存檔數(shù)字化——這一本可能花費(fèi)無數(shù)時間和資源的工程,在幾個月之內(nèi)就由各位網(wǎng)友們完成了。
當(dāng)然,這是美國人在capcha中找到的人肉商機(jī)。而相對的,知道中國人和印度人怎么從capcha中尋找人肉商機(jī)嗎?
簡單來說,通過一系列程序轉(zhuǎn)換,亞洲勞動密集型產(chǎn)業(yè)把各種垃圾郵件注冊、電子游戲金幣農(nóng)民所需要解決的capcha辨認(rèn)問題,集中給幾個專門負(fù)責(zé)辨認(rèn)capcha的人手里,這些人的工作就是,替垃圾郵件注冊軟件辨認(rèn)capcha,一遍他們能冒充人類,每辨認(rèn)一個獲得半個盧比,每天需要辨認(rèn)成千上萬個capcha。
勞動密集型經(jīng)濟(jì)體和資本密集型經(jīng)濟(jì)體對人類腦力就是如此區(qū)別定價的。