數(shù)據(jù)分析原理與實(shí)踐：基于經(jīng)典算法及Python編程實(shí)現(xiàn)

定　價(jià)：￥89.90

作　者：	朝樂門主編
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787111710820	出版時(shí)間：	2022-07-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：	264	字?jǐn)?shù)：

內(nèi)容簡介

　　本書主要采用理論學(xué)習(xí)與實(shí)踐操作并重、上層應(yīng)用與底層原理相結(jié)合的方式講解數(shù)據(jù)分析師需要掌握的數(shù)據(jù)分析基礎(chǔ)知識(shí)，包括基礎(chǔ)理論、關(guān)聯(lián)規(guī)則分析、回歸分析、分類分析、聚類分析、集成學(xué)習(xí)、自然語言處理、圖像處理和深度學(xué)習(xí)。每章內(nèi)容從7個(gè)方面展開講解：包括應(yīng)用場景、算法原理、核心術(shù)語、Python編程實(shí)踐、重點(diǎn)與難點(diǎn)解讀、習(xí)題和主要參考文獻(xiàn)及推薦閱讀書目。本書在編寫過程中不僅充分借鑒了國內(nèi)外著名大學(xué)設(shè)立的相關(guān)課程、專家學(xué)者的代表性成果，以及近幾年的熱門暢銷書，而且也考慮到了國內(nèi)相關(guān)課程的教學(xué)以及相關(guān)從業(yè)人員自學(xué)的需求。本書可以滿足數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、大數(shù)據(jù)管理與應(yīng)用、計(jì)算機(jī)科學(xué)與技術(shù)、管理工程、工商管理、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析、信息管理與信息系統(tǒng)、商業(yè)分析等多個(gè)專業(yè)的教師、學(xué)生的教學(xué)和學(xué)習(xí)需要，也適合廣大從事數(shù)據(jù)分析工作的人員學(xué)習(xí)參考。

作者簡介

　　朝樂門，一流本科課程“數(shù)據(jù)科學(xué)導(dǎo)論”負(fù)責(zé)人，數(shù)據(jù)科學(xué)50人，中國人民大學(xué)青年杰出學(xué)者；中國計(jì)算機(jī)學(xué)會(huì)信息系統(tǒng)專委員會(huì)執(zhí)行委員、全國高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟專家委員會(huì)副主任；核心期刊《計(jì)算機(jī)科學(xué)》執(zhí)行編委、英文期刊Data Scienceand Informatics副主編；榮獲高等學(xué)?？茖W(xué)研究優(yōu)秀成果獎(jiǎng)、IBM全球卓越教師獎(jiǎng)、留學(xué)基金委-IBM中國優(yōu)秀教師獎(jiǎng)教金等多種獎(jiǎng)勵(lì)30余項(xiàng)；曾出版我國*早系統(tǒng)闡述數(shù)據(jù)科學(xué)的重要專著之一《數(shù)據(jù)科學(xué)》。

圖書目錄

第1章數(shù)據(jù)分析概述
1.1數(shù)據(jù)分析的基本類型
1.2數(shù)據(jù)分析與機(jī)器學(xué)習(xí)
1.2.1統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)
1.2.2機(jī)器學(xué)習(xí)算法的類型
1.2.3機(jī)器學(xué)習(xí)中的算法、模型、
參數(shù)和超參數(shù)
1.2.4數(shù)據(jù)分析中的基礎(chǔ)算法
1.2.5數(shù)據(jù)分析中的高級算法
1.3數(shù)據(jù)分析的主要流程
1.4數(shù)據(jù)分析中的算法選擇
1.5數(shù)據(jù)分析中常用的Python包
1.5.1NumPy
1.5.2Pandas
1.5.3Matplotlib
1.5.4Seaborn
1.5.5statsmodels
1.5.6scikitlearn
1.5.7jieba
1.5.8OpenCV
1.5.9TensorFlow和PyTorch
1.6數(shù)據(jù)分析的注意事項(xiàng)
1.7數(shù)據(jù)分析的現(xiàn)狀與趨勢
1.8習(xí)題
1.9主要參考文獻(xiàn)及推薦閱讀書目
第2章關(guān)聯(lián)規(guī)則分析
2.1應(yīng)用場景
2.2算法原理
2.2.1Apriori算法的假設(shè)
2.2.2Apriori算法的流程
2.3核心術(shù)語
2.3.1事務(wù)型數(shù)據(jù)
2.3.2項(xiàng)集
2.3.3支持度
2.3.4置信度
2.3.5提升度
2.3.6關(guān)聯(lián)規(guī)則
2.4Python編程實(shí)踐——購物車分析
2.4.1業(yè)務(wù)理解
2.4.2數(shù)據(jù)讀入
2.4.3數(shù)據(jù)理解
2.4.4數(shù)據(jù)預(yù)處理
2.4.5生成頻繁項(xiàng)集
2.4.6計(jì)算關(guān)聯(lián)度
2.4.7可視化
2.5重點(diǎn)與難點(diǎn)解讀
2.6習(xí)題
2.7主要參考文獻(xiàn)及推薦閱讀書目
第3章回歸分析
3.1應(yīng)用場景
3.2算法原理
3.2.1基本思路
3.2.2評價(jià)方法
3.3核心術(shù)語
3.3.1回歸分析中常用的統(tǒng)計(jì)量
3.3.2特征矩陣與目標(biāo)向量
3.3.3過擬合與欠擬合
3.3.4高杠桿點(diǎn)、離群點(diǎn)和強(qiáng)影響點(diǎn)
3.4Python編程實(shí)踐
3.4.1線性回歸——女性身高與體重
數(shù)據(jù)分析
3.4.2多元回歸——廣告收入數(shù)據(jù)分析
3.4.3泊松回歸——航班數(shù)據(jù)分析
3.5重點(diǎn)與難點(diǎn)解讀
3.5.1參數(shù)解讀——線性回歸算法
3.5.2ZScore標(biāo)準(zhǔn)化
3.5.3方差
3.5.4相關(guān)系數(shù)
3.5.5泊松分布
3.5.6L1和L2正則化
3.5.7閔氏距離、歐氏距離、曼哈頓距離
和切比雪夫距離
3.6習(xí)題
3.7主要參考文獻(xiàn)及推薦閱讀書目
第4章分類分析
4.1應(yīng)用場景
4.2算法原理
4.1.1KNN
4.1.2貝葉斯分類
4.1.3支持向量機(jī)
4.1.4邏輯回歸
4.3核心術(shù)語
4.3.1偏差和方差之間的權(quán)衡
4.3.2學(xué)習(xí)曲線
4.3.3混淆矩陣
4.3.4ROC曲線與AUC面積
4.3.5貝葉斯理論
4.3.6核函數(shù)及核技巧
4.4Python編程實(shí)踐——病例自動(dòng)診斷
分析
4.4.1使用KNN算法實(shí)現(xiàn)
4.4.2使用貝葉斯分類算法實(shí)現(xiàn)
4.4.3使用SVM算法實(shí)現(xiàn)
4.4.4使用邏輯回歸算法實(shí)現(xiàn)
4.5重點(diǎn)與難點(diǎn)解讀
4.5.1參數(shù)解讀——KNN、貝葉斯分類、
SVM和邏輯回歸算法
4.5.2數(shù)據(jù)標(biāo)準(zhǔn)化處理
4.5.3混淆矩陣及分類算法的評價(jià)指標(biāo)
4.5.4最大似然估計(jì)
4.5.5判別模型與生成模型
4.5.6類別不平衡問題
4.5.7KD Tree與Ball Tree
4.5.8GridSearchCV及其原理
4.5.9GaussianNB、MultinomialNB和
BernoulliNB的區(qū)別
4.5.10LabelEncoder及其原理
4.6習(xí)題
4.7主要參考文獻(xiàn)及推薦閱讀書目
第5章聚類分析
5.1應(yīng)用場景
5.2算法原理
5.2.1kmeans算法
5.2.2聚類效果的評價(jià)
5.3核心術(shù)語
5.4Python編程實(shí)踐——蛋白質(zhì)消費(fèi)特征
分析
5.4.1業(yè)務(wù)理解
5.4.2數(shù)據(jù)讀入
5.4.3數(shù)據(jù)理解
5.4.4數(shù)據(jù)準(zhǔn)備
5.4.5模型訓(xùn)練
5.4.6模型評價(jià)
5.4.7模型調(diào)參
5.4.8模型預(yù)測
5.5重點(diǎn)與難點(diǎn)解讀
5.5.1參數(shù)解讀——kmeans算法
5.5.2kmeans 方法
5.5.3elkan方法
5.6習(xí)題
5.7主要參考文獻(xiàn)及推薦閱讀書目
第6章集成學(xué)習(xí)
6.1應(yīng)用場景
6.2算法原理
6.2.1隨機(jī)森林
6.2.2XGBoost
6.3核心術(shù)語
6.4Python編程實(shí)踐——房屋價(jià)格預(yù)測
分析
6.4.1使用隨機(jī)森林算法實(shí)現(xiàn)
6.4.2使用XGBoost實(shí)現(xiàn)
6.5重點(diǎn)與難點(diǎn)解讀
6.5.1參數(shù)解讀——隨機(jī)森林和
XGBoost
6.5.2純度最大化
6.5.3數(shù)據(jù)標(biāo)準(zhǔn)化
6.5.4泰勒展開式
6.5.5集成學(xué)習(xí)中幾個(gè)注意事項(xiàng)
6.6習(xí)題
6.7主要參考文獻(xiàn)及推薦閱讀書目
第7章自然語言處理
7.1應(yīng)用場景
7.2算法原理
7.2.1中文分詞
7.2.2詞袋模型
7.2.3Ngrams模型
7.2.4TFIDF算法
7.2.5文本規(guī)范化
7.2.6詞性標(biāo)注
7.3核心術(shù)語
7.4Python編程實(shí)踐——2021年政府工作
報(bào)告分析
7.4.1業(yè)務(wù)理解
7.4.2數(shù)據(jù)讀入
7.4.3分詞處理
7.4.4添加自定義詞匯
7.4.5詞性標(biāo)注
7.4.6停用詞處理
7.4.7詞性分布分析
7.4.8高頻詞分析
7.4.9關(guān)鍵詞抽取
7.4.10繪制詞云圖
7.5重點(diǎn)與難點(diǎn)解讀
7.5.1NLTK的詞性標(biāo)注
7.5.2NLTK的功能模塊
7.6習(xí)題
7.7主要參考文獻(xiàn)及推薦閱讀書目
第8章圖像處理
8.1應(yīng)用場景
8.2算法原理
8.2.1建模階段
8.2.2檢測階段
8.3核心術(shù)語
8.4Python編程實(shí)踐——人臉檢測分析
8.4.1安裝并導(dǎo)入OpenCVpython包
8.4.2讀取圖像文件
8.4.3將RGB圖像轉(zhuǎn)換為灰度圖
8.4.4人臉檢測與矩陣標(biāo)識(shí)
8.4.5圖像顯示
8.4.6圖像保存
8.5重點(diǎn)與難點(diǎn)解讀
8.5.1參數(shù)解讀——OpenCV
8.5.2AdaBoost算法
8.5.3基于OpenCV和CNN的圖像處理
的對比
8.5.4Haar特征和LBP特征的
對比分析
8.5.5AdaBoost算法和XGboost算法的
主要區(qū)別
8.6習(xí)題
8.7主要參考文獻(xiàn)及推薦閱讀書目
第9章深度學(xué)習(xí)
9.1應(yīng)用場景
9.2算法原理
9.2.1全連接神經(jīng)網(wǎng)絡(luò)及其缺點(diǎn)
9.2.2全連接神經(jīng)網(wǎng)絡(luò)的改進(jìn)及卷積
神經(jīng)網(wǎng)絡(luò)的提出
9.2.3卷積神經(jīng)網(wǎng)絡(luò)的基本思路
9.2.4CNN的整體流程
9.3核心術(shù)語
9.4Python編程實(shí)踐——手寫數(shù)字識(shí)別
分析
9.4.1業(yè)務(wù)理解
9.4.2數(shù)據(jù)讀入及理解
9.4.3數(shù)據(jù)準(zhǔn)備
9.4.4數(shù)據(jù)理解
9.4.5定義CNN的學(xué)習(xí)框架
9.4.6執(zhí)行CNN學(xué)習(xí)及模型訓(xùn)練
9.4.7模型評價(jià)
9.4.8模型預(yù)測
9.5重點(diǎn)與難點(diǎn)解讀
9.5.1參數(shù)解讀——CNN算法
9.5.2機(jī)器學(xué)習(xí)中的性能與可解釋性
的矛盾
9.5.3隨機(jī)梯度下降及學(xué)習(xí)率
9.5.4Onehot encoding
9.5.5端到端的學(xué)習(xí)
9.5.6CNN與其他深度學(xué)習(xí)方法的區(qū)別
及聯(lián)系
9.5.7CNN算法設(shè)置超參數(shù)的
經(jīng)驗(yàn)法則
9.6習(xí)題
9.7主要參考文獻(xiàn)及推薦閱讀書目
附錄習(xí)題參考答案