如今,這位開(kāi)著保時(shí)捷的卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)終身教授,馮·安,不僅是一位計(jì)算機(jī)科學(xué)家,還是一位教育學(xué)家、企業(yè)家、游戲設(shè)計(jì)者、市場(chǎng)營(yíng)銷(xiāo)人員、媒介組織者及創(chuàng)業(yè)者。他不僅把游戲看作娛樂(lè),更讓其服務(wù)于我們生活的方方面面。而馮·安現(xiàn)在所研究的,可能是他最宏偉的項(xiàng)目,這個(gè)項(xiàng)目源于他向研究生學(xué)生們問(wèn)的一個(gè)問(wèn)題:如何讓1 億人免費(fèi)幫我們?cè)诰€(xiàn)翻譯?
這個(gè)問(wèn)題,讓他想到了自己在大學(xué)時(shí)有一個(gè)叫 “CAPTCHA”的發(fā)明,CAPTCHA 是“全自動(dòng)區(qū)分計(jì)算機(jī)和人類(lèi)的圖靈測(cè)試”的簡(jiǎn)稱(chēng)(Completely Automated Public Turing test to tell Computers and Humans Apart)。(阿蘭·圖靈,計(jì)算機(jī)科學(xué)家,1980 年發(fā)明了一種實(shí)驗(yàn),用于分析機(jī)器是否可以超過(guò)人)。
當(dāng)年,雅虎來(lái)到卡內(nèi)基梅隆大學(xué)尋求馮·安的建議,問(wèn)他是否有什么方法可以阻止網(wǎng)絡(luò)欺詐。詐騙者通常部署海量的垃圾郵件機(jī)器人程序,自動(dòng)注冊(cè)規(guī)模龐大的電子郵件,公司應(yīng)該做點(diǎn)什么來(lái)對(duì)付他們。馮·安的辦法非常簡(jiǎn)單又巧妙。他想出了一套系統(tǒng),這種系統(tǒng)可以創(chuàng)建一個(gè)數(shù)字和字母的組合,組合很模糊,機(jī)器無(wú)法識(shí)別,但人類(lèi)卻可以。盡管人們使用的時(shí)候,也會(huì)因?yàn)槟:磺宥淞R。但無(wú)論如何,CAPTCHA 在數(shù)以百萬(wàn)的網(wǎng)站上都得以運(yùn)用。沒(méi)錯(cuò),它就是今天的“驗(yàn)證碼”。
一天,馮·安發(fā)現(xiàn)這樣一個(gè)事實(shí),現(xiàn)在網(wǎng)絡(luò)上驗(yàn)證碼每天的輸入量大概在2 億次。如果每人輸入一個(gè)驗(yàn)證碼的平均時(shí)間是10 秒,那人類(lèi)每天浪費(fèi)在驗(yàn)證碼上的總時(shí)間就是50 萬(wàn)小時(shí)。于是這個(gè)事實(shí)讓他決定創(chuàng)造一個(gè)進(jìn)化版的驗(yàn)證碼,取名reCAPTCHA。原理跟之前相同,只不過(guò)輸入的來(lái)源是一些舊書(shū)。利用這種方法,我們可以從數(shù)量龐大的非生產(chǎn)力行為中,剝離出有意義的價(jià)值。
掃描一本舊書(shū)再將其內(nèi)容電子化是一項(xiàng)艱苦的過(guò)程,這相當(dāng)于要把書(shū)的每一頁(yè)進(jìn)行拍照,之后利用計(jì)算機(jī)的光學(xué)字符識(shí)別(OCR)技術(shù),對(duì)每個(gè)字一一解碼。而這種技術(shù)的錯(cuò)誤率本身就比較高,對(duì)于舊書(shū)更是如此。這些書(shū)籍的出版年份都超過(guò)50 年,頁(yè)面發(fā)黃、墨水褪色,錯(cuò)誤率高達(dá)30%。
對(duì)此,馮·安的做法是,他首先選出了計(jì)算機(jī)無(wú)法識(shí)別的詞語(yǔ),之后讓人們通過(guò)reCAPTCHA 幫他完成識(shí)別過(guò)程。他給人們提供兩個(gè)詞,一個(gè)是來(lái)自舊書(shū)的計(jì)算機(jī)無(wú)法識(shí)別的詞語(yǔ),另一個(gè)是計(jì)算機(jī)已經(jīng)知道答案的詞語(yǔ)。系統(tǒng)并不告訴用戶(hù)哪個(gè)是那個(gè)。如果用戶(hù)正確地輸入了計(jì)算機(jī)知道答案的那個(gè)詞,那么計(jì)算機(jī)判定用戶(hù)為人類(lèi),于是,而且對(duì)用戶(hù)輸入的另一個(gè)計(jì)算機(jī)無(wú)法辨認(rèn)的詞也應(yīng)該是正確的。如果10 個(gè)用戶(hù)所輸入的詞都一致,那么計(jì)算機(jī)便可成功完成詞語(yǔ)的編輯。