本文摘自《深度學(xué)習(xí)》,Ian Goodfellow ,Yoshua Bengio 著,Aaron Courville 譯,人民郵電出版社, 2017年7月
圖源于網(wǎng)絡(luò)
遠(yuǎn)在古希臘時期,發(fā)明家就夢想著創(chuàng)造能自主思考的機(jī)器。神話人物皮格馬利翁(Pygmalion)、代達(dá)羅斯(Daedalus)和赫淮斯托斯(Hephaestus)可以被看作傳說中的發(fā)明家,而加拉蒂亞(Galatea)、塔洛斯(Talos)和潘多拉(Pandora)則可以被視為人造生命 (Ovid and Martin, 2004; Sparkes,1996; Tandy,1997)。
當(dāng)人類第一次構(gòu)思可編程計算機(jī)時,就已經(jīng)在思考計算機(jī)能否變得智能 (盡管這距造出第一臺計算機(jī)還有一百多年)(Lovelace, 1842)。如今,人工智能(artificial intelligence, AI) 已經(jīng)成為一個具有眾多實際應(yīng)用和活躍研究課題的領(lǐng)域,并且正在蓬勃發(fā)展。我們期望通過智能軟件自動地處理常規(guī)勞動、理解語音或圖像、幫助醫(yī)學(xué)診斷和支持基礎(chǔ)科學(xué)研究。
在人工智能的早期,那些對人類智力來說非常困難、但對計算機(jī)來說相對簡單的問題得到迅速解決,比如,那些可以通過一系列形式化的數(shù)學(xué)規(guī)則來描述的問題。人工智能的真正挑戰(zhàn)在于解決那些對人來說很容易執(zhí)行、但很難形式化描述的任務(wù),如識別人們所說的話或圖像中的臉。對于這些問題,我們?nèi)祟愅梢詰{借直覺輕易地解決。
針對這些比較直觀的問題,大牛們找到一種解決方案。該方案可以讓計算機(jī)從經(jīng)驗中學(xué)習(xí),并根據(jù)層次化的概念體系來理解世界,而每個概念則通過與某些相對簡單的概念之間的關(guān)系來定義。讓計算機(jī)從經(jīng)驗獲取知識,可以避免由人類來給計算機(jī)形式化地指定它需要的所有知識。層次化的概念讓計算機(jī)構(gòu)建較簡單的概念來學(xué)習(xí)復(fù)雜概念。如果繪制出表示這些概念如何建立在彼此之上的圖,我們將得到一張“深”(層次很多) 的圖?;谶@個原因,我們稱這種方法為AI深度學(xué)習(xí)(deep learning)。
AI許多早期的成功發(fā)生在相對樸素且形式化的環(huán)境中,而且不要求計算機(jī)具備很多關(guān)于世界的知識。例如,IBM的深藍(lán) (Deep Blue) 國際象棋系統(tǒng)在 1997 年擊敗了世界冠軍Garry Kasparov(Hsu, 2002)。顯然國際象棋是一個非常簡單的領(lǐng)域,因為它僅含有 64 個位置并只能以嚴(yán)格限制的方式移動 32 個棋子。設(shè)計一種成功的國際象棋策略是巨大的成就,但向計算機(jī)描述棋子及其允許的走法并不是這一挑戰(zhàn)的困難所在。國際象棋完全可以由一個非常簡短的、完全形式化的規(guī)則列表來描述,并可以容易地由程序員事先準(zhǔn)備好。
具有諷刺意義的是,抽象和形式化的任務(wù)對人類而言是最困難的腦力任務(wù)之一,但對計算機(jī)而言卻屬于最容易的。計算機(jī)早就能夠打敗人類最好的國際象棋選手,但直到最近計算機(jī)才在識別對象或語音任務(wù)中達(dá)到人類平均水平。一個人的日常生活需要關(guān)于世界的巨量知識。很多這方面的知識是主觀的、直觀的,因此很難通過形式化的方式表達(dá)清楚。計算機(jī)需要獲取同樣的知識才能表現(xiàn)出智能。人工智能的一個關(guān)鍵挑戰(zhàn)就是如何將這些非形式化的知識傳達(dá)給計算機(jī)。
一些人工智能項目力求將關(guān)于世界的知識用形式化的語言進(jìn)行硬編碼 (hard-code)。計算機(jī)可以使用邏輯推理規(guī)則來自動地理解這些形式化語言中的聲明。這就是眾所周知的人工智能的知識庫(knowledge base) 方法。然而,這些項目最終都沒有取得重大的成功。其中最著名的項目是 Cyc (Lenat and Guha, 1989)。Cyc 包括一個推斷引擎和一個使用 CycL 語言描述的聲明數(shù)據(jù)庫。這些聲明是由人類監(jiān)督者輸入的。這是一個笨拙的過程。人們設(shè)法設(shè)計出足夠復(fù)雜的形式化規(guī)則來精確地描述世界。例如,Cyc 不能理解一個關(guān)于名為 Fred 的人在早上剃須的故事 (Linde, 1992)。它的推理引擎檢測到故事中的不一致性:它知道人體的構(gòu)成不包含電氣零件,但由于 Fred 正拿著一個電動剃須刀,它認(rèn)為實體 ——“正在剃須的 Fred”(“FredWhileShaving”) 含有電氣部件。因此,它產(chǎn)生了這樣的疑問 ——Fred在刮胡子的時候是否仍然是一個人。
依靠硬編碼的知識體系面臨的困難表明,AI系統(tǒng)需要具備自己獲取知識的能力,即從原始數(shù)據(jù)中提取模式的能力。這種能力稱為機(jī)器學(xué)習(xí)(machine learning)。引入機(jī)器學(xué)習(xí)使計算機(jī)能夠解決涉及現(xiàn)實世界知識的問題,并能做出看似主觀的決策。比如,一個稱為邏輯回歸(logistic regression)的簡單機(jī)器學(xué)習(xí)算法可以決定是否建議剖腹產(chǎn)(Mor-Yosef et al.,1990)。而同樣是簡單機(jī)器學(xué)習(xí)算法的樸素貝葉斯(naive Bayes)則可以區(qū)分垃圾電子郵件和合法電子郵件。
這些簡單的機(jī)器學(xué)習(xí)算法的性能在很大程度上依賴于給定數(shù)據(jù)的表示(representation)。例如,當(dāng)邏輯回歸用于判斷產(chǎn)婦是否適合剖腹產(chǎn)時,AI系統(tǒng)不會直接檢查患者。相反,醫(yī)生需要告訴系統(tǒng)幾條相關(guān)的信息,諸如是否存在子宮疤痕。表示患者的每條信息稱為一個特征。邏輯回歸學(xué)習(xí)病人的這些特征如何與各種結(jié)果相關(guān)聯(lián)。然而,它絲毫不能影響該特征定義的方式。如果將病人的MRI(核磁共振) 掃描而不是醫(yī)生正式的報告作為邏輯回歸的輸入,它將無法做出有用的預(yù)測。MRI掃描的單一像素與分娩過程中并發(fā)癥之間的相關(guān)性微乎其微。
在整個計算機(jī)科學(xué)乃至日常生活中,對表示的依賴都是一個普遍現(xiàn)象。在計算機(jī)科學(xué)中,如果數(shù)據(jù)集合被精巧地結(jié)構(gòu)化并被智能地索引,那么諸如搜索之類的操作的處理速度就可以成指數(shù)級地加快。人們可以很容易地在阿拉伯?dāng)?shù)字的表示下進(jìn)行算術(shù)運算,但在羅馬數(shù)字的表示下,運算會比較耗時。因此,毫不奇怪,表示的選擇會對機(jī)器學(xué)習(xí)算法的性能產(chǎn)生巨大的影響。圖 1 展示了一個簡單的可視化例子。
圖1
圖 1 不同表示的例子:假設(shè)我們想在散點圖中畫一條線來分隔兩類數(shù)據(jù)。在左圖中,我們使用笛卡兒坐標(biāo)表示數(shù)據(jù),這個任務(wù)是不可能的。在右圖中,我們用極坐標(biāo)表示數(shù)據(jù),可以用垂直線簡單地解決這個任務(wù)(與David Warde-Farley 合作繪制此圖)許多人工智能任務(wù)都可以通過以下方式解決:先提取一個合適的特征集,然后將這些特征提供給簡單的機(jī)器學(xué)習(xí)算法。例如,對于通過聲音鑒別說話者的任務(wù)來說,一個有用的特征是對其聲道大小的估計。這個特征為判斷說話者是男性、女性還是兒童提供了有力線索。
然而,對于許多任務(wù)來說,我們很難知道應(yīng)該提取哪些特征。例如,假設(shè)我們想編寫一個程序來檢測照片中的車。我們知道,汽車有輪子,所以我們可能會想用車輪的存在與否作為特征。遺憾的是,我們難以準(zhǔn)確地根據(jù)像素值來描述車輪看上去像什么。雖然車輪具有簡單的幾何形狀,但它的圖像可能會因場景而異,如落在車輪上的陰影、太陽照亮的車輪的金屬零件、汽車的擋泥板或者遮擋的車輪一部分的前景物體等。
解決這個問題的途徑之一是使用機(jī)器學(xué)習(xí)來發(fā)掘表示本身,而不僅僅把表示映射到輸出。
這種方法我們稱之為表示學(xué)習(xí)(representation learning)。學(xué)習(xí)到的表示往往比手動設(shè)計的表示表現(xiàn)得更好。并且它們只需最少的人工干預(yù),就能讓AI系統(tǒng)迅速適應(yīng)新的任務(wù)。表示學(xué)習(xí)算法只需幾分鐘就可以為簡單的任務(wù)發(fā)現(xiàn)一個很好的特征集,對于復(fù)雜任務(wù)則需要幾小時到幾個月。手動為一個復(fù)雜的任務(wù)設(shè)計特征需要耗費大量的人工、時間和精力,甚至需要花費整個社群研究人員幾十年的時間。
表示學(xué)習(xí)算法的典型例子是自編碼器(autoencoder)。自編碼器由一個編碼器(encoder)函數(shù)和一個解碼器(decoder)函數(shù)組合而成。編碼器函數(shù)將輸入數(shù)據(jù)轉(zhuǎn)換為一種不同的表示,而解碼器函數(shù)則將這個新的表示轉(zhuǎn)換回原來的形式。我們期望當(dāng)輸入數(shù)據(jù)經(jīng)過編碼器和解碼器之后盡可能多地保留信息,同時希望新的表示有各種好的特性,這也是自編碼器的訓(xùn)練目標(biāo)。為了實現(xiàn)不同的特性,我們可以設(shè)計不同形式的自編碼器。
當(dāng)設(shè)計特征或設(shè)計用于學(xué)習(xí)特征的算法時,我們的目標(biāo)通常是分離出能解釋觀察數(shù)據(jù)的變差因素(factors of variation)。在此背景下,“因素”這個詞僅指代影響的不同來源;因素通常不是乘性組合。這些因素通常是不能被直接觀察到的量。相反,它們可能是現(xiàn)實世界中觀察不到的物體或者不可觀測的力,但會影響可觀測的量。為了對觀察到的數(shù)據(jù)提供有用的簡化解釋或推斷其原因,它們還可能以概念的形式存在于人類的思維中。它們可以被看作數(shù)據(jù)的概念或者抽象,幫助我們了解這些數(shù)據(jù)的豐富多樣性。當(dāng)分析語音記錄時,變差因素包括說話者的年齡、性別、他們的口音和他們正在說的詞語。當(dāng)分析汽車的圖像時,變差因素包括汽車的位置、它的顏色、太陽的角度和亮度。
在許多現(xiàn)實的人工智能應(yīng)用中,困難主要源于多個變差因素同時影響著我們能夠觀察到的每一個數(shù)據(jù)。比如,在一張包含紅色汽車的圖片中,其單個像素在夜間可能會非常接近黑色。汽車輪廓的形狀取決于視角。大多數(shù)應(yīng)用需要我們理清變差因素并忽略我們不關(guān)心的因素。
顯然,從原始數(shù)據(jù)中提取如此高層次、抽象的特征是非常困難的。許多諸如說話口音這樣的變差因素,只能通過對數(shù)據(jù)進(jìn)行復(fù)雜的、接近人類水平的理解來辨識。這幾乎與獲得原問題的表示一樣困難,因此,乍一看,表示學(xué)習(xí)似乎并不能幫助我們。
深度學(xué)習(xí)(deep learning) 通過其他較簡單的表示來表達(dá)復(fù)雜表示,解決了表示學(xué)習(xí)中的核心問題。
……
作品簡介
《深度學(xué)習(xí)》,Ian Goodfellow ,Yoshua Bengio 著,Aaron Courville 譯,人民郵電出版社, 2017年7月
《深度學(xué)習(xí)》由全球知名的三位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學(xué)習(xí)領(lǐng)域奠基性的經(jīng)典教材。全書的內(nèi)容包括3個部分:第1部分介紹基本的數(shù)學(xué)工具和機(jī)器學(xué)習(xí)的概念,它們是深度學(xué)習(xí)的預(yù)備知識;第2部分系統(tǒng)深入地講解現(xiàn)今已成熟的深度學(xué)習(xí)方法和技術(shù);第3部分討論某些具有前瞻性的方向和想法,它們被公認(rèn)為是深度學(xué)習(xí)未來的研究重點。
《深度學(xué)習(xí)》適合各類讀者閱讀,包括相關(guān)專業(yè)的大學(xué)生或研究生,以及不具有機(jī)器學(xué)習(xí)或統(tǒng)計背景、但是想要快速補充深度學(xué)習(xí)知識,以便在實際產(chǎn)品或平臺中應(yīng)用的軟件工程師。