注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)挖掘/數(shù)據(jù)倉(cāng)庫(kù)智能Web算法

智能Web算法

智能Web算法

定 價(jià):¥65.00

作 者: 阿穩(wěn) 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

ISBN: 9787121139192 出版時(shí)間: 2011-07-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 400 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《智能Web算法》涵蓋了五類重要的智能算法:搜索、推薦、聚類、分類和分類器組合,并結(jié)合具體的案例討論了它們?cè)赪eb應(yīng)用中的角色及要注意的問(wèn)題。除了第1章的概要性介紹以及第7章對(duì)所有技術(shù)的整合應(yīng)用外,第2~6章以代碼示例的形式分別對(duì)這五類算法進(jìn)行了介紹。

作者簡(jiǎn)介

  Haralambos(Babis)Marmanis博士是一位把機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于工業(yè)界的先行者,也是供應(yīng)管理的*專家。Dmitry Baberiko曾經(jīng)為銀行、保險(xiǎn)、供應(yīng)鏈管理與商務(wù)智能公司設(shè)計(jì)過(guò)應(yīng)用與基礎(chǔ)架構(gòu)。

圖書(shū)目錄

1  什么是智能Web? 1
1.1  智能Web應(yīng)用實(shí)例 3
1.2  智能應(yīng)用的基本要素 4
1.3  什么應(yīng)用會(huì)受益于智能? 5
1.3.1  社交網(wǎng)絡(luò) 6
1.3.2  Mashup 7
1.3.3  門戶網(wǎng)站 8
1.3.4  維基 9
1.3.5  文件分享網(wǎng)站 9
1.3.6  網(wǎng)絡(luò)游戲 11
1.4  如何構(gòu)建智能應(yīng)用? 11
1.4.1  檢查功能和數(shù)據(jù) 12
1.4.2  獲取更多的數(shù)據(jù) 12
1.5  機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘及其他 16
1.6  智能應(yīng)用中八個(gè)常見(jiàn)的誤區(qū) 17
1.6.1  誤區(qū)1:數(shù)據(jù)是可靠的 18
1.6.2  誤區(qū)2:計(jì)算能馬上完成 19
1.6.3  誤區(qū)3:不用考慮數(shù)據(jù)規(guī)模 19
1.6.4  誤區(qū)4:不考慮解決方案的可擴(kuò)展性 19
1.6.5  誤區(qū)5:隨處使用同樣的方法 19
1.6.6  誤區(qū)6:總是能知道計(jì)算時(shí)間 20
1.6.7  誤區(qū)7:復(fù)雜的模型更好 20
1.6.8  誤區(qū)8:存在無(wú)偏見(jiàn)的模型 20
1.7  小結(jié) 20
1.8  參考資料 21 
2  搜索 22
2.1  用Lucene實(shí)現(xiàn)搜索 23
2.1.1  理解Lucene代碼 24
2.1.2  搜索的基本步驟 31
2.2  為什么搜索不僅僅是索引? 33
2.3  用鏈接分析改進(jìn)搜索結(jié)果 35
2.3.1  PageRank簡(jiǎn)介 35
2.3.2  計(jì)算PageRank向量 37
2.3.3  alpha:網(wǎng)頁(yè)間跳轉(zhuǎn)的影響 38
2.3.4  理解冪方法 40
2.3.5  結(jié)合索引分值和PageRank分值 45
2.4  根據(jù)用戶點(diǎn)擊改進(jìn)搜索結(jié)果 47
2.4.1  用戶點(diǎn)擊初探 48
2.4.2  樸素貝葉斯分類器的使用 50
2.4.3  整合Lucene索引、PageRank和用戶點(diǎn)擊 54
2.5  Word、PDF等無(wú)鏈接文檔的排序 58
2.5.1  DocRank算法簡(jiǎn)介 58
2.5.2  DocRank的原理 60
2.6  大規(guī)模實(shí)現(xiàn)的有關(guān)問(wèn)題 65
2.7  用戶得到了想要的結(jié)果嗎?精確度和查全率 67
2.8  總結(jié) 69
2.9  To Do 70
2.10  參考資料 72
3  推薦系統(tǒng) 73
3.1  一個(gè)在線音樂(lè)商店:基本概念 74
3.1.1  距離與相似度的概念 75
3.1.2  走近相似度的計(jì)算 80
3.1.3  什么才是最好的相似度計(jì)算公式? 83
3.2  推薦引擎是怎么工作的 84
3.2.1  基于相似用戶的推薦 85
3.2.2  基于相似條目的推薦 94
3.2.3  基于內(nèi)容的推薦 98
3.3  推薦朋友、文章與新聞報(bào)道 104
3.3.1  MyDiggSpace.com簡(jiǎn)介 105
3.3.2  發(fā)現(xiàn)朋友 106
3.3.3  DiggDelphi的內(nèi)部工作機(jī)制 108
3.4  像Netflix.com那樣推薦電影 114
3.4.1  電影數(shù)據(jù)集的介紹及推薦器 114
3.4.2  數(shù)據(jù)標(biāo)準(zhǔn)化與相關(guān)系數(shù) 117
3.5  大規(guī)模的實(shí)現(xiàn)與評(píng)估 123
3.6  總結(jié) 124
3.7  To Do 125
3.8  參考資料 127
4  聚類:事物的分組 128
4.1  聚類的需求 129
4.1.1  網(wǎng)站中的用戶組:案例研究 129
4.1.2  用SQL order by子句分組 131
4.1.3  用數(shù)組排序分組 132
4.2  聚類算法概述 135
4.2.1  基于分組結(jié)構(gòu)的聚類算法分類 136
4.2.2  基于數(shù)據(jù)類型和結(jié)構(gòu)的聚類算法分類 137
4.2.3  根據(jù)數(shù)據(jù)規(guī)模的聚類算法分類 137
4.3  基于鏈接的算法 138
4.3.1  樹(shù)狀圖:基本的聚類數(shù)據(jù)結(jié)構(gòu) 139
4.3.2  基于鏈接的算法概況 141
4.3.3  單鏈接算法 142
4.3.4  平均鏈接算法 144
4.3.5  最小生成樹(shù)算法 147
4.4  k-means算法 149
4.4.1  初識(shí)k-means算法 150
4.4.2  k-means的內(nèi)部原理 151
4.5  魯棒的鏈接型聚類(ROCK) 153
4.5.1  ROCK簡(jiǎn)介 154
4.5.2  為什么ROCK這么強(qiáng)大? 154
4.6  DBSCAN 159
4.6.1  基于密度的算法簡(jiǎn)介 159
4.6.2  DBSCAN的原理 162
4.7  超大規(guī)模數(shù)據(jù)聚類 165
4.7.1  計(jì)算復(fù)雜性 166
4.7.2  高維度 167
4.8  總結(jié) 168
4.9  To Do 169
4.10  參考資料 171
5  分類:把事物放到它該在的地方 172
5.1  對(duì)分類的需求 173
5.2  分類器的概述 177
5.2.1  結(jié)構(gòu)分類算法 178
5.2.2  統(tǒng)計(jì)分類算法 180
5.2.3  分類器的生命周期 181
5.3  郵件的自動(dòng)歸類與垃圾郵件過(guò)濾 182
5.3.1  樸素貝葉斯分類 184
5.3.2  基于規(guī)則的分類 197
5.4  用神經(jīng)網(wǎng)絡(luò)做欺詐檢測(cè) 210
5.4.1  交易數(shù)據(jù)中關(guān)于欺詐檢測(cè)的一個(gè)用例 210
5.4.2  神經(jīng)網(wǎng)絡(luò)概覽 212
5.4.3  一個(gè)可用的神經(jīng)網(wǎng)絡(luò)欺詐檢測(cè)器 214
5.4.4  神經(jīng)網(wǎng)絡(luò)欺詐檢測(cè)器剖析 218
5.4.5  創(chuàng)建通用神經(jīng)網(wǎng)絡(luò)的基類 226
5.5  你的結(jié)果可信嗎? 232
5.6  大數(shù)據(jù)集的分類 235
5.7  總結(jié) 237
5.8  To Do 239
5.9  參考資料 242
6  分類器組合 244
6.1  信貸價(jià)值:分類器組合案例研究 246
6.1.1  數(shù)據(jù)的簡(jiǎn)要說(shuō)明 247
6.1.2  為真實(shí)問(wèn)題生成人工數(shù)據(jù) 250
6.2  用單分類器做信用評(píng)估 255
6.2.1  樸素貝葉斯的基準(zhǔn)線 255
6.2.2  決策樹(shù)基準(zhǔn)線 258
6.2.3  神經(jīng)網(wǎng)絡(luò)基線 260
6.3  在同一個(gè)數(shù)據(jù)集中比較多個(gè)分類器 263
6.3.1  McNemar檢驗(yàn) 264
6.3.2  差額比例檢驗(yàn) 266
6.3.3  Cochran Q檢驗(yàn)與F檢驗(yàn) 268
6.4  Bagging: bootstrap聚合(bootstrapaggregating) 270
6.4.1  bagging實(shí)例 272
6.4.2  bagging分類器底層細(xì)節(jié) 274
6.4.3  分類器集成 276
6.5  Boosting:一種迭代提高的方法 279
6.5.1  boosting分類器實(shí)例 280
6.5.2  boosting分類器底層細(xì)節(jié) 282
6.6  總結(jié) 286
6.7  To Do 288
6.8  參考資料 292
7  智能技術(shù)大匯集:一個(gè)智能新聞門戶 293
7.1  功能概覽 295
7.2  獲取并清洗內(nèi)容 296
7.2.1  各就位、預(yù)備、開(kāi)抓! 296
7.2.2  搜索預(yù)備知識(shí)回顧 298
7.2.3  一個(gè)抓取并處理好的新聞數(shù)據(jù)集 299
7.3  搜索新聞 301
7.4  分配新聞?lì)悇e 304
7.4.1  順序問(wèn)題 304
7.4.2  使用NewsProcessor類進(jìn)行分類 309
7.4.3  分類器 310
7.4.4  分類策略:超越底層的分類 313
7.5  用NewsProcessor類創(chuàng)建新聞分組 316
7.5.1  聚類全部文章 317
7.5.2  在一個(gè)新聞?lì)悇e中聚類文章 321
7.6  基于用戶評(píng)分的動(dòng)態(tài)內(nèi)容展示 325
7.7  總結(jié) 328
7.8  To Do 329
7.9  參考資料 333
附錄A  BeanShell簡(jiǎn)介 334
A.1  什么是BeanShell? 334
A.2  為什么使用BeanShell? 335
A.3  運(yùn)行BeanShell 335
A.4  參考資料 336
附錄B  網(wǎng)絡(luò)采集 337
B.1  爬蟲(chóng)組件概況 337
B.1.1  采集的步驟 338
B.1.2  我們的簡(jiǎn)單爬蟲(chóng) 338
B.1.3  開(kāi)源Web爬蟲(chóng) 339
B.2  參考資料 340
附錄C  數(shù)學(xué)知識(shí)回顧 341
C.1  向量和矩陣 341
C.2  距離的度量 342
C.3  高級(jí)矩陣方法 344
C.4  參考資料 344
附錄D  自然語(yǔ)言處理 345
D.1  參考資料 347
附錄E  神經(jīng)網(wǎng)絡(luò) 348
E.1  參考資料 349
索引 350

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)