第1 章 統計與科學1
1.1 隨機的世界 2
1.1.1 打臺球的物理學家,確定、不確定與隨機2
1.1.2 上帝擲骰子嗎,決定論與隨機性4
1.1.3 連環(huán)殺手的歸案,隨機與均勻 6
1.1.4 扔硬幣的數學家們,大數定律9
1.2 認識概率 11
1.2.1 游戲獎金的分配,概率論的發(fā)展 11
1.2.2 6 連號和14 連號,概率的計算 13
1.2.3 主持人背后的山羊,條件概率 16
1.2.4 尋找失蹤的核潛艇,貝葉斯概率18
1.3 統計思想和模型 20
1.3.1 女士品茶,假設檢驗 20
1.3.2 “渣男”去死,最大似然 23
1.3.3 六西格瑪的奇跡,小概率 25
1.3.4 牛頓的蘋果,模型擬合27
1.4 統計與科學 29
1.4.1 智多星與神機軍師,統計預測29
1.4.2 深藍與阿爾法狗,歸納和演繹 31
1.4.3 中藥與西藥,臨床試驗33
1.4.4 所有模型都是錯的,科學和否定 36
第2 章 數據與數學38
2.1 數據與空間 39
2.1.1 多維世界的蟲子,坐標和向量 39
2.1.2 黑客帝國和變形金剛,矩陣簡介 42
2.1.3 九章算術與線性方程,線性方程組 45
2.1.4 二十八宿與黃道十二宮,線性變換 48
2.2 隨機變量和分布 51
2.2.1 伯努利的硬幣,隨機分布 51
2.2.2 相親多少次與神奇的37,離散型分布 54
2.2.3 棣莫弗的正態(tài),連續(xù)型分布 56
2.2.4 醉鬼的步伐,隨機過程 58
2.3 認識數據 59
2.3.1 忒修斯之船,數據、測量與變量 59
2.3.2 從性別到體重,數據的尺度 61
2.3.3 周歲與虛歲,連續(xù)變量與離散變量 63
2.3.4 一份體檢記錄,數據分析的基本數據結構 65
2.4 數理統計基礎 66
2.4.1 管中窺豹與一葉知秋,總體和樣本 66
2.4.2 惡賭鬼的詭計,數字特征 68
2.4.3 被平均的工資,統計量 70
2.4.4 小李飛刀與孔雀翎,參數估計 72
第3 章 數據可視化76
3.1 歷史上的統計圖形 77
3.1.1 河圖與洛書,可視化簡介 77
3.1.2 倫敦霍亂的防治,空間可視化 78
3.1.3 南丁格爾的玫瑰,玫瑰花瓣圖 79
3.1.4 拿破侖遠征,自定義統計圖形 81
3.2 數據與可視化 83
3.2.1 女王的裙子,數據可視化83
3.2.2 畫布與宣紙,圖形設備 84
3.2.3 深水王子與針眼畫師,繪圖語言的變遷 86
3.2.4 “挑戰(zhàn)者”號航天飛機,直觀的可視化 88
3.3 基礎統計圖形 90
3.3.1 老忠實噴泉的秘密,分布圖 90
3.3.2 統計圖形的奠基人,條形圖和餅圖 91
3.3.3 古老國度的詩云,坐標變換 93
3.3.4 飛翔的動態(tài)氣泡圖,動態(tài)可視化 95
3.4 數據之間的關系 97
3.4.1 東上相的軌道,散點圖 97
3.4.2 五十州的最高峰,箱線圖 99
3.4.3 泰坦尼克號的幸存者,馬賽克圖 100
3.4.4 切爾諾夫的笑臉,樣本關系的可視化 102
第4 章 模型與方法104
4.1 常用統計模型 105
4.1.1 穿楊與射雕,回歸模型 105
4.1.2 降維攻擊,主成分分析 108
4.1.3 顧客就是上帝,路徑模型110
4.1.4 股票的走勢,時間序列114
4.2 機器學習 116
4.2.1 啤酒和尿布的傳說,關聯規(guī)則 116
4.2.2 尋找“白富美” ,聚類分析118
4.2.3 寧可錯殺與絕不放過,分類效果評估121
4.2.4 樹木與森林,常用分類算法124
4.3 人工智能 128
4.3.1 人工智能的三起兩落,AI 發(fā)展史128
4.3.2 深度學習的前生今世,深度學習簡史 130
4.3.3 神秘的神經,神經網絡簡介 132
4.3.4 美麗的濾鏡,卷積神經網絡與深度學習135
4.4 其他分析方法 139
4.4.1 茶、酒與百事可樂,隨機試驗方法 139
4.4.2 蒙特卡羅和原子彈,蒙特卡羅方法142
4.4.3 醫(yī)生的筆跡,文本分析 143
4.4.4 沙漠里的飛碟,最優(yōu)化方法 146
第5 章 大數據時代 149
5.1 技術的變遷 150
5.1.1 統計學的濫觴統計學簡介150
5.1.2 信息時代的來臨計算機科學簡介151
5.1.3 數據挖掘和商業(yè)智能,商業(yè)智能簡介153
5.1.4 大數據時代新紀元,大數據簡介154
5.2 分析工具 156
5.2.1 誰說菜鳥不會數據分析Excel 簡介156
5.2.2 群雄逐鹿的分析軟件統計軟件和BI 系統158
5.2.3 全棧工程師的最愛,Python 簡介160
5.2.4 本書作者最愛的R ,R語言簡介162
5.3 計算框架 164
5.3.1 冰箱里的大象,可擴容的數據分析164
5.3.2 將兵與將將,并行計算 165
5.3.3 電老虎和電螞蟻,大型機和云計算 167
5.3.4 摩爾定律的未來GPU ,計算框架170
5.4 大數據行業(yè)應用 172
5.4.1 互聯網的興起,互聯網概覽 172
5.4.2 流量的起點,搜索引擎173
5.4.3 收入的來源,精準廣告 175
5.4.4 猜你喜歡和投其所好,推薦系統 177
第6 章 數據的陷阱180
6.1 一葉障目 181
6.1.1 神奇的天蝎座,規(guī)律的背后 181
6.1.2 贏家的詛咒,悖論與分布182
6.1.3 打飛機的油價,選擇性關注184
6.1.4 和女神的緣分,頻率與巧合 185
6.2 相關與因果 187
6.2.1 芳華與熱飲,遺漏的關鍵變量187
6.2.2 熱帖的秘密,不存在的相關 188
6.2.3 雪與火的城市,地理決定的因果 189
6.2.4 名字很重要嗎,背后的關鍵因素 190
6.3 樣本和調查192
6.3.1 測不準的美國大選,選擇性抽樣 192
6.3.2 不對稱的杜蕾斯,數據無反應偏差194
6.3.3 幸運兒的傳奇,幸存者偏差195
6.3.4 哈佛校長的辭職,樣本方差的影響197
6.4 圖形的誤導 198
6.4.1 收入的變化,被掩蓋的數據 198
6.4.2 收費站與汽車站,視覺的誤區(qū)200
6.4.3 東莞的逃亡,隱含信息的誤導201
6.4.4 有毒的擬合,圖形與模型203
參考文獻207