目錄Understanding Machine Learning:From Theory to Algorithms出版者的話譯者序前言致謝第1章引論111什么是學習112什么時候需要機器學習213學習的種類314與其他領域的關系415如何閱讀本書416符號6第一部分理論基礎第2章簡易入門1021一般模型——統(tǒng)計學習理論框架1022經驗風險最小化1123考慮歸納偏置的經驗風險最小化1224練習15第3章一般學習模型1731PAC學習理論1732更常見的學習模型18321放寬可實現假設——不可知PAC學習18322學習問題建模1933小結2134文獻評注2135練習21第4章學習過程的一致收斂性2441一致收斂是可學習的充分條件2442有限類是不可知PAC可學習的2543小結2644文獻評注2745練習27第5章偏差與復雜性權衡2851“沒有免費的午餐”定理2852誤差分解3153小結3154文獻評注3255練習32第6章VC維3361無限的類也可學習3362VC維概述3463實例35631閾值函數35632區(qū)間35633平行于軸的矩形35634有限類36635VC維與參數個數3664PAC學習的基本定理3665定理67的證明37651Sauer引理及生長函數37652有小的有效規(guī)模的類的一致收斂性3966小結4067文獻評注4168練習41第7章不一致可學習4471不一致可學習概述4472結構風險最小化4673最小描述長度和奧卡姆剃刀4874可學習的其他概念——一致收斂性5075探討不同的可學習概念5176小結5377文獻評注5378練習54第8章學習的運行時間5681機器學習的計算復雜度5682ERM規(guī)則的實現58821有限集58822軸對稱矩形59823布爾合取式59824學習三項析取范式6083高效學習,而不通過合適的ERM6084學習的難度*6185小結6286文獻評注6287練習62第二部分從理論到算法第9章線性預測6691半空間66911半空間類線性規(guī)劃67912半空間感知器68913半空間的VC維6992線性回歸70921最小平方70922多項式線性回歸7193邏輯斯諦回歸7294小結7395文獻評注7396練習73第10章boosting75101弱可學習75102AdaBoost78103基礎假設類的線性組合80104AdaBoost用于人臉識別82105小結83106文獻評注83107練習84第11章模型選擇與驗證85111用結構風險最小化進行模型選擇85112驗證法861121留出的樣本集861122模型選擇的驗證法871123模型選擇曲線881124k折交叉驗證881125訓練驗證測試拆分89113如果學習失敗了應該做什么89114小結92115練習92第12章凸學習問題93121凸性、利普希茨性和光滑性931211凸性931212利普希茨性961213光滑性97122凸學習問題概述981221凸學習問題的可學習性991222凸利普希茨/光滑有界學習問題100123替代損失函數101124小結102125文獻評注102126練習102第13章正則化和穩(wěn)定性104131正則損失最小化104132穩(wěn)定規(guī)則不會過擬合105133Tikhonov正則化作為穩(wěn)定劑1061331利普希茨損失1081332光滑和非負損失108134控制適合與穩(wěn)定性的權衡109135小結111136文獻評注111137練習111第14章隨機梯度下降114141梯度下降法114142次梯度1161421計算次梯度1171422利普希茨函數的次梯度1181423次梯度下降118143隨機梯度下降118144SGD的變型1201441增加一個投影步1201442變步長1211443其他平均技巧1211444強凸函數*121145用SGD進行學習1231451SGD求解風險極小化1231452SGD求解凸光滑學習問題的分析1241453SGD求解正則化損失極小化125146小結125147文獻評注125148練習126第15章支持向量機127151間隔與硬SVM1271511齊次情況1291512硬SVM的樣本復雜度129152軟SVM與范數正則化1301521軟SVM的樣本復雜度1311522間隔、基于范數的界與維度1311523斜坡損失*132153最優(yōu)化條件與“支持向量”*133154對偶*133155用隨機梯度下降法實現軟SVM134156小結135157文獻評注135158練習135第16章核方法136161特征空間映射136162核技巧1371621核作為表達先驗的一種形式1401622核函數的特征*141163軟SVM應用核方法141164小結142165文獻評注143166練習143第17章多分類、排序與復雜預測問題145171一對多和一對一145172線性多分類預測1471721如何構建Ψ1471722對損失敏感的分類1481723經驗風險最小化1491724泛化合頁損失1491725多分類SVM和SGD150173結構化輸出預測151174排序153175二分排序以及多變量性能測量157176小結160177文獻評注160178練習161第18章決策樹162181采樣復雜度162182決策樹算法1631821增益測量的實現方式1641822剪枝1651823實值特征基于閾值的拆分規(guī)則165183隨機森林165184小結166185文獻評注166186練習166第19章最近鄰167191k近鄰法167192分析16819211NN準則的泛化界1681922“維數災難”170193效率實施*171194小結171195文獻評注171196練習171第20章神經元網絡174201前饋神經網絡174202神經網絡學習175203神經網絡的表達力176204神經網絡樣本復雜度178205學習神經網絡的運行時179206SGD和反向傳播179207小結182208文獻評注183209練習183第三部分其他學習模型第21章在線學習186211可實現情況下的在線分類186212不可實現情況下的在線識別191213在線凸優(yōu)化195214在線感知器算法197215小結199216文獻評注199217練習199第22章聚類201221基于鏈接的聚類算法203222k均值算法和其他代價最小聚類203223譜聚類2062231圖割2062232圖拉普拉斯與松弛圖割算法2062233非歸一化的譜聚類207224信息瓶頸*208225聚類的進階觀點208226小結209227文獻評注210228練習210第23章維度約簡212231主成分分析2122311當dm時一種更加有效的求解方法2142312應用與說明214232隨機投影216233壓縮感知217234PCA還是壓縮感知223235小結223236文獻評注223237練習223第24章生成模型226241極大似然估計2262411連續(xù)隨機變量的極大似然估計2272412極大似然與經驗風險最小化2282413泛化分析228242樸素貝葉斯229243線性判別分析230244隱變量與EM算法2302441EM是交替最大化算法2322442混合高斯模型參數估計的EM算法233245貝葉斯推理233246小結235247文獻評注235248練習235第25章特征選擇與特征生成237251特征選擇2372511濾波器2382512貪婪選擇方法2392513稀疏誘導范數241252特征操作和歸一化242253特征學習244254小結246255文獻評注246256練習246第四部分高級理論第26章拉德馬赫復雜度250261拉德馬赫復雜度概述250262線性類的拉德馬赫復雜度255263SVM的泛化誤差界256264低1范數預測器的泛化誤差界258265文獻評注259第27章覆蓋數260271覆蓋260272通過鏈式反應從覆蓋到拉德馬赫復雜度261273文獻評注262第28章學習理論基本定理的證明263281不可知情況的上界263282不可知情況的下界2642821證明m(ε,δ)≥05log(1/(4δ))/ε22642822證明m(ε,1/8)≥8d/ε2265283可實現情況的上界267第29章多分類可學習性271291納塔拉詹維271292多分類基本定理271293計算納塔拉詹維2722931基于類的一對多2722932一般的多分類到二分類約簡2732933線性多分類預測器273294好的與壞的ERM274295文獻評注275296練習276第30章壓縮界277301壓縮界概述277302例子2783021平行于軸的矩形2783022半空間2793023可分多項式2793024間隔可分的情況279303文獻評注280第31章PAC貝葉斯281311PAC貝葉斯界281312文獻評注282313練習282附錄A技術性引理284附錄B測度集中度287附錄C線性代數294參考文獻297索引305