注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計Python數(shù)據(jù)科學(xué)項目實戰(zhàn)

Python數(shù)據(jù)科學(xué)項目實戰(zhàn)

Python數(shù)據(jù)科學(xué)項目實戰(zhàn)

定 價:¥139.00

作 者: [美] 倫納德·阿佩爾辛(Leonard Apeltsin)著,殷海英 史躍東 譯
出版社: 清華大學(xué)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787302618140 出版時間: 2022-11-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  ● 網(wǎng)頁抓取● 使用聚類算法組織數(shù)據(jù)集● 可視化復(fù)雜的多變量數(shù)據(jù)集● 訓(xùn)練決策樹機器學(xué)習(xí)算法

作者簡介

  Leonard Apeltsin是Anomaly的數(shù)據(jù)科學(xué)主管。他的團隊?wèi)?yīng)用高級分析來發(fā)現(xiàn)醫(yī)療保健欺詐、浪費和濫用的情況。在加盟Anomaly之前,Leonard領(lǐng)導(dǎo)了Primer AI的機器學(xué)習(xí)開發(fā)工作;Primer AI是一家專門從事自然語言處理的初創(chuàng)公司。作為創(chuàng)始成員,Leonard幫助Primer AI團隊從4名員工發(fā)展到近100名員工。在進入創(chuàng)業(yè)公司之前,Leonard在學(xué)術(shù)界工作,他發(fā)現(xiàn)了遺傳相關(guān)疾病的隱藏模式。他的發(fā)現(xiàn)發(fā)表在《科學(xué)》和《自然》雜志的附屬期刊上。Leonard擁有卡內(nèi)基梅隆大學(xué)的生物學(xué)和計算機科學(xué)學(xué)士學(xué)位,以及加州大學(xué)舊金山分校的生物信息學(xué)博士學(xué)位。

圖書目錄

案例研究1  在紙牌游戲中尋找制勝策略
第1章  使用Python計算概率 3
1.1  樣本空間分析:一種用于測量結(jié)果不確定性的無方程方法 3
1.2  計算非平凡概率 7
1.2.1  問題1:分析一個有4個孩子的家庭 7
1.2.2  問題2:分析擲骰子游戲 9
1.2.3  問題3:使用加權(quán)樣本空間計算擲骰概率 10
1.3  計算區(qū)間范圍內(nèi)的概率 12
1.4  本章小結(jié) 14
第2章  使用Matplotlib繪制概率圖 15
2.1  基本的Matplotlib圖 15
2.2  繪制拋硬幣概率 19
2.3  本章小結(jié) 28
第3章  在NumPy中運行隨機模擬 29
3.1  使用NumPy模擬隨機拋硬幣和擲骰子實驗 29
3.2  使用直方圖和NumPy數(shù)組計算置信區(qū)間 33
3.2.1  通過直方圖合并顯示鄰近值 35
3.2.2  利用直方圖進行概率推導(dǎo) 38
3.2.3  縮小較高置信區(qū)間的范圍 40
3.2.4  在NumPy中計算直方圖 43
3.3  使用置信區(qū)間分析一副有偏紙牌 44
3.4  使用排列來洗牌 47
3.5  本章小結(jié) 49
第4章  案例研究1的解決方案 51
4.1  對紅牌進行預(yù)測 51
4.2  使用10張牌的樣本空間來優(yōu)化策略 57
4.3  本章小結(jié) 61
案例研究2  評估在線廣告點擊的顯著性
第5章  使用SciPy進行基本概率和統(tǒng)計分析 65
5.1  使用SciPy探索數(shù)據(jù)和概率之間的關(guān)系 66
5.2  將均值作為中心性的度量 69
5.3  將方差作為離散性的度量 78
5.4  本章小結(jié) 83
第6章  使用中心極限定理和SciPy進行預(yù)測 85
6.1  使用SciPy處理正態(tài)分布 85
6.2  通過隨機采樣確定總體的均值和方差 92
6.3  使用均值和方差進行預(yù)測 95
6.3.1  計算正態(tài)曲線下方的面積 97
6.3.2  對計算的概率進行解釋 99
6.4  本章小結(jié) 100
第7章  統(tǒng)計假設(shè)檢驗 101
7.1  評估樣本均值和總體均值之間的差異 102
7.2  數(shù)據(jù)捕撈:過采樣將導(dǎo)致錯誤的結(jié)論 106
7.3  有放回的自舉法:當(dāng)總體方差未知時檢驗假設(shè) 109
7.4  置換檢驗:當(dāng)總體參數(shù)未知時比較樣本的均值 115
7.5  本章小結(jié) 118
第8章  使用Pandas分析表格 119
8.1  使用基本Python存儲表格 119
8.2  使用Pandas探索表格 120
8.3  檢索表中的列 122
8.4  檢索表中的行 124
8.5  修改表格行和列 126
8.6  保存和加載表格數(shù)據(jù) 129
8.7  使用Seaborn對表格進行可視化 130
8.8  本章小結(jié) 133
第9章  案例研究2的解決方案 135
9.1  在Pandas中處理廣告點擊數(shù)據(jù)表 135
9.2  根據(jù)均值差異計算p值 138
9.3  確定統(tǒng)計顯著性 140
9.4  一個真實的警世故事 142
9.5  本章小結(jié) 142
案例研究3  利用新聞標(biāo)題跟蹤疾病暴發(fā)
第10章  對數(shù)據(jù)進行聚類 145
10.1  使用中心性發(fā)現(xiàn)聚類 145
10.2  K-means:一種將數(shù)據(jù)分組為K個中心組的聚類算法 151
10.2.1  使用scikit-learn進行K-means聚類 152
10.2.2  使用肘部法選擇最佳K值 154
10.3  使用密度發(fā)現(xiàn)聚類 158
10.4  DBSCAN:一種基于空間密度
對數(shù)據(jù)進行分組的聚類算法 161
10.4.1  比較DBSCAN和K-means 162
10.4.2  基于非歐幾里得距離的聚類方法 163
10.5  使用Pandas分析聚類 166
10.6  本章小結(jié) 168
第11章  對地理位置進行可視化與分析 169
11.1  大圓距離:計算地球上兩點間的距離 170
11.2  使用Cartopy繪制地圖 172
11.2.1  手動安裝GEOS和Cartopy 173
11.2.2  使用Conda包管理器 173
11.2.3  可視化地圖 174
11.3  使用GeoNamesCache進行位置跟蹤 182
11.3.1  獲取國家/地區(qū)信息 184
11.3.2  獲取城市信息 186
11.3.3  GeoNamesCache庫的使用限制 189
11.4  在文本中匹配位置名稱 191
11.5  本章小結(jié) 194
第12章  案例研究3的解決方案 197
12.1  從標(biāo)題數(shù)據(jù)中提取位置信息 197
12.2  對提取的位置信息進行可視化和聚類 203
12.3  對位置聚類進行分析 208
12.4  本章小結(jié) 213
案例研究4  使用在線招聘信息優(yōu)化簡歷
第13章  測量文本相似度 217
13.1  簡單的文本比較 218
13.1.1  探索Jaccard相似度 222
13.1.2  用數(shù)值替換單詞 224
13.2  使用字?jǐn)?shù)對文本進行向量化 228
13.2.1  使用歸一化提高TF向量相似度 230
13.2.2  使用單位向量點積在相關(guān)性指標(biāo)之間進行轉(zhuǎn)換 237
13.3  使用矩陣乘法提高相似度計算的效率 239
13.3.1  基本矩陣運算 241
13.3.2  計算全矩陣相似度 249
13.4  矩陣乘法的計算限制 250
13.5  本章小結(jié) 253
第14章  矩陣數(shù)據(jù)的降維 255
14.1  將二維數(shù)據(jù)聚類到一維中 256
14.2  使用PCA和scikit-learn降維 269
14.3  將四維數(shù)據(jù)在二維中進行聚類 274
14.4  在不旋轉(zhuǎn)的情況下計算主成分 281
14.5  使用SVD和scikit-learn進行高效降維 292
14.6  本章小結(jié) 294
第15章  大型文本數(shù)據(jù)集的NLP分析 295
15.1  使用scikit-learn加載在線論壇討論數(shù)據(jù) 296
15.2  使用scikit-learn對文檔進行向量化 297
15.3  根據(jù)發(fā)布頻率和出現(xiàn)次數(shù)對單詞進行排名 304
15.4  計算大型文檔數(shù)據(jù)集之間的相似度 311
15.5  按主題對文本進行聚類 315
15.6  對文本聚類進行可視化 323
15.7  本章小結(jié) 333
第16章  從網(wǎng)頁中提取文本 335
16.1  HTML文檔的結(jié)構(gòu) 335
16.2  使用Beautiful Soup解析HTML 342
16.3  下載和解析在線數(shù)據(jù) 349
16.4  本章小結(jié) 351
第17章  案例研究4的解決方案 353
17.1  從職位發(fā)布數(shù)據(jù)中提取技能要求 353
17.2  根據(jù)相關(guān)性對工作進行過濾 360
17.3  在相關(guān)職位發(fā)布中對技能進行聚類 369
17.3.1  將工作技能分成15個聚類 372
17.3.2  詳細(xì)分析技術(shù)技能聚類 377
17.3.3  詳細(xì)分析軟技能聚類 380
17.3.4  使用不同的K值來探索聚類 381
17.3.5  分析700個最相關(guān)的職位發(fā)布信息 385
17.4  結(jié)論 388
17.5  本章小結(jié) 388
案例研究5  利用社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)現(xiàn)新朋友
第18章  圖論和網(wǎng)絡(luò)分析 393
18.1  使用基本圖論按受歡迎程度對網(wǎng)站進行排名 393
18.2  利用無向圖優(yōu)化城鎮(zhèn)之間的旅行時間 404
18.2.1  建立一個復(fù)雜的城鎮(zhèn)交通網(wǎng)絡(luò)模型 406
18.2.2  計算節(jié)點之間的最快旅行時間 411
18.3  本章小結(jié) 418
第19章  用于節(jié)點排名和社交網(wǎng)絡(luò)分析的動態(tài)圖論技術(shù) 419
19.1  根據(jù)網(wǎng)絡(luò)中的預(yù)期流量發(fā)現(xiàn)中心節(jié)點 419
19.2  使用矩陣乘法計算交通概率 424
19.2.1  從概率論推導(dǎo)PageRank中心性 427
19.2.2  使用NetworkX計算PageRank中心性 431
19.3  使用馬爾可夫聚類進行社區(qū)檢測 433
19.4  在社交網(wǎng)絡(luò)中發(fā)現(xiàn)朋友群 445
19.5  本章小結(jié) 448
第20章  網(wǎng)絡(luò)驅(qū)動的監(jiān)督機器學(xué)習(xí) 451
20.1  監(jiān)督機器學(xué)習(xí)的基礎(chǔ) 451
20.2  測量預(yù)測的標(biāo)簽的準(zhǔn)確度 459
20.3  優(yōu)化KNN性能 468
20.4  使用scikit-learn進行網(wǎng)格搜索 469
20.5  KNN算法的局限性 474
20.6  本章小結(jié) 475
第21章  使用邏輯回歸訓(xùn)練線性分類器 477
21.1  根據(jù)身材尺寸對客戶進行線性劃分 477
21.2  訓(xùn)練線性分類器 482
21.3  使用邏輯回歸改進線性分類 492
21.4  使用scikit-learn訓(xùn)練線性分類器 499
21.5  通過系數(shù)測量特征的重要性 504
21.6  線性分類器的限制 507
21.7  本章小結(jié) 508
第22章  通過決策樹技術(shù)訓(xùn)練非線性分類器 511
22.1  邏輯規(guī)則的自動學(xué)習(xí) 511
22.1.1  使用兩個特征訓(xùn)練一個嵌套的if/else模型 517
22.1.2  決定拆分哪個特征 523
22.1.3  訓(xùn)練具有兩個以上特征的if/else模型 530
22.2  使用scikit-learn訓(xùn)練決策樹分類器 536
22.3  決策樹分類器的局限性 545
22.4  使用隨機森林分類提高模型性能 546
22.5  使用scikit-learn訓(xùn)練隨機森林分類器 550
22.6  本章小結(jié) 551
第23章  案例研究5的解決方案 553
23.1  探索數(shù)據(jù) 553
23.1.1  檢查Profiles表 554
23.1.2  探索Observations表 556
23.1.3  探索Friendships表 559
23.2  使用網(wǎng)絡(luò)特征訓(xùn)練預(yù)測模型 562
23.3  向模型中添加個人資料特征 568
23.4  通過一組穩(wěn)定的特征優(yōu)化模型性能 572
23.5  解釋訓(xùn)練模型 574
23.6  本章小結(jié) 578
 
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號