注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)

網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)

網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)

定 價(jià):¥79.00

作 者: 錢(qián)洋,姜元春 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787121376078 出版時(shí)間: 2020-01-01 包裝: 平裝
開(kāi)本: 16 頁(yè)數(shù): 380 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)》以Java為開(kāi)發(fā)語(yǔ)言,系統(tǒng)地介紹了網(wǎng)絡(luò)爬蟲(chóng)的理論知識(shí)和基礎(chǔ)工具,包括網(wǎng)絡(luò)爬蟲(chóng)涉及的Java基礎(chǔ)知識(shí)、HTTP協(xié)議基礎(chǔ)與網(wǎng)絡(luò)抓包、網(wǎng)頁(yè)內(nèi)容獲取、網(wǎng)頁(yè)內(nèi)容解析和網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)存儲(chǔ)等。本書(shū)選取典型網(wǎng)站,采用案例講解的方式介紹網(wǎng)絡(luò)爬蟲(chóng)中涉及的問(wèn)題,以增強(qiáng)讀者的動(dòng)手實(shí)踐能力。同時(shí),本書(shū)還介紹了3種Java網(wǎng)絡(luò)爬蟲(chóng)開(kāi)源框架,即Crawler4j、WebCollector和WebMagic。 《網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)》適用于Java網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)的初學(xué)者和進(jìn)階者;也可作為網(wǎng)絡(luò)爬蟲(chóng)課程教學(xué)的參考書(shū),供高等院校文本挖掘、自然語(yǔ)言處理、大數(shù)據(jù)商務(wù)分析等相關(guān)學(xué)科的本科生和研究生參考使用;也可供企業(yè)網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)人員參考使用。

作者簡(jiǎn)介

  錢(qián)洋 合肥工業(yè)大學(xué)管理科學(xué)與工程系博士、CSDN博客專家。作為技術(shù)人員參與過(guò)多個(gè)橫向、縱向?qū)W術(shù)課題,負(fù)責(zé)數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)工作。在CSDN(博客名稱:HFUT_qianyang)上撰寫(xiě)了多篇關(guān)于數(shù)據(jù)采集、自然語(yǔ)言處理、編程語(yǔ)言等領(lǐng)域的原創(chuàng)博客。 姜元春 合肥工業(yè)大學(xué)教授、博士生導(dǎo)師。長(zhǎng)期從事電子商務(wù)、商務(wù)智能、數(shù)據(jù)采集與挖掘等方面的理論研究與教學(xué)工作。先后主持過(guò)國(guó)家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目、國(guó)家自然科學(xué)基金重大研究計(jì)劃培育項(xiàng)目、國(guó)家自然科學(xué)基金青年科學(xué)基金項(xiàng)目、教育部人文社科青年基金項(xiàng)目、阿里巴巴青年學(xué)者支持計(jì)劃、CCF-騰訊犀牛鳥(niǎo)基金項(xiàng)目等課題的研究工作。

圖書(shū)目錄

第1 章 網(wǎng)絡(luò)爬蟲(chóng)概述與原理 1
1.1 網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介 1
1.2 網(wǎng)絡(luò)爬蟲(chóng)分類 2
1.3 網(wǎng)絡(luò)爬蟲(chóng)流程 4
1.4 網(wǎng)絡(luò)爬蟲(chóng)的采集策略 5
1.5 學(xué)習(xí)網(wǎng)絡(luò)爬蟲(chóng)的建議 5
1.6 本章小結(jié) 6
第2 章 網(wǎng)絡(luò)爬蟲(chóng)涉及的Java 基礎(chǔ)知識(shí) 7
2.1 開(kāi)發(fā)環(huán)境的搭建 7
2.1.1 JDK 的安裝及環(huán)境變量配置 7
2.1.2 Eclipse 的下載 9
2.2 基本數(shù)據(jù)類型 10
2.3 數(shù)組 11
2.4 條件判斷與循環(huán) 12
2.5 集合 15
2.5.1 List 和Set 集合 15
2.5.2 Map 集合 16
2.5.3 Queue 集合 17
2.6 對(duì)象與類 19
2.7 String 類 21
2.8 日期和時(shí)間處理 23
2.9 正則表達(dá)式 26
2.10 Maven 工程的創(chuàng)建 29
2.11 log4j 的使用 33
2.12 本章小結(jié) 40
第3 章 HTTP 協(xié)議基礎(chǔ)與網(wǎng)絡(luò)抓包 41
3.1 HTTP 協(xié)議簡(jiǎn)介 41
3.2 URL 42
3.3 報(bào)文 44
3.4 HTTP 請(qǐng)求方法 46
3.5 HTTP 狀態(tài)碼 46
3.5.1 狀態(tài)碼2XX 47
3.5.2 狀態(tài)碼3XX 47
3.5.3 狀態(tài)碼4XX 48
3.5.4 狀態(tài)碼5XX 48
3.6 HTTP 信息頭 48
3.6.1 通用頭 49
3.6.2 請(qǐng)求頭 52
3.6.3 響應(yīng)頭 55
3.6.4 實(shí)體頭 56
3.7 HTTP 響應(yīng)正文 57
3.7.1 HTML 58
3.7.2 XML 60
3.7.3 JSON 61
3.8 網(wǎng)絡(luò)抓包 64
3.8.1 簡(jiǎn)介 64
3.8.2 使用情境 65
3.8.3 瀏覽器實(shí)現(xiàn)網(wǎng)絡(luò)抓包 65
3.8.4 其他網(wǎng)絡(luò)抓包工具推薦 70
3.9 本章小結(jié) 70
第4 章 網(wǎng)頁(yè)內(nèi)容獲取 71
4.1 Jsoup 的使用 71
4.1.1 jar 包的下載 71
4.1.2 請(qǐng)求URL 72
4.1.3 設(shè)置頭信息 75
4.1.4 提交請(qǐng)求參數(shù) 78
4.1.5 超時(shí)設(shè)置 80
4.1.6 代理服務(wù)器的使用 81
4.1.7 響應(yīng)轉(zhuǎn)輸出流(圖片、PDF 等的下載) 83
4.1.8 HTTPS 請(qǐng)求認(rèn)證 85
4.1.9 大文件內(nèi)容獲取問(wèn)題 89
4.2 HttpClient 的使用 91
4.2.1 jar 包的下載 91
4.2.2 請(qǐng)求URL 92
4.2.3 EntityUtils 類 97
4.2.4 設(shè)置頭信息 98
4.2.5 POST 提交表單 100
4.2.6 超時(shí)設(shè)置 103
4.2.7 代理服務(wù)器的使用 105
4.2.8 文件下載 106
4.2.9 HTTPS 請(qǐng)求認(rèn)證 108
4.2.10 請(qǐng)求重試 111
4.2.11 多線程執(zhí)行請(qǐng)求 114
4.3 URLConnection 與HttpURLConnection 117
4.3.1 實(shí)例化 117
4.3.2 獲取網(wǎng)頁(yè)內(nèi)容 118
4.3.3 GET 請(qǐng)求 118
4.3.4 模擬提交表單(POST 請(qǐng)求) 119
4.3.5 設(shè)置頭信息 120
4.3.6 連接超時(shí)設(shè)置 121
4.3.7 代理服務(wù)器的使用 122
4.3.8 HTTPS 請(qǐng)求認(rèn)證 122
4.4 本章小結(jié) 124
第5 章 網(wǎng)頁(yè)內(nèi)容解析 125
5.1 HTML 解析 125
5.1.1 CSS 選擇器 125
5.1.2 Xpath 語(yǔ)法 127
5.1.3 Jsoup 解析HTML 128
5.1.4 HtmlCleaner 解析HTML 135
5.1.5 HTMLParser 解析HTML 139
5.2 XML 解析 144
5.3 JSON 解析 145
5.3.1 JSON 校正 145
5.3.2 org.json 解析JSON 147
5.3.3 Gson 解析JSON 152
5.3.4 Fastjson 解析JSON 157
5.3.5 網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)演練 159
5.4 本章小結(jié) 165
第6 章 網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)存儲(chǔ) 166
6.1 輸入流與輸出流 166
6.1.1 簡(jiǎn)介 166
6.1.2 File 類 166
6.1.3 文件字節(jié)流 169
6.1.4 文件字符流 172
6.1.5 緩沖流 176
6.1.6 網(wǎng)絡(luò)爬蟲(chóng)下載圖片實(shí)戰(zhàn) 180
6.1.7 網(wǎng)絡(luò)爬蟲(chóng)文本存儲(chǔ)實(shí)戰(zhàn) 184
6.2 Excel 存儲(chǔ) 188
6.2.1 Jxl 的使用 188
6.2.2 POI 的使用 191
6.2.3 爬蟲(chóng)案例 198
6.3 MySQL 數(shù)據(jù)存儲(chǔ) 202
6.3.1 數(shù)據(jù)庫(kù)的基本概念 203
6.3.2 SQL 語(yǔ)句基礎(chǔ) 203
6.3.3 Java 操作數(shù)據(jù)庫(kù) 207
6.3.4 爬蟲(chóng)案例 217
6.4 本章小結(jié) 219
第7 章 網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)項(xiàng)目 220
7.1 新聞數(shù)據(jù)采集 220
7.1.1 采集的網(wǎng)頁(yè) 220
7.1.2 框架介紹 222
7.1.3 程序編寫(xiě) 223
7.2 企業(yè)信息采集 235
7.2.1 采集的網(wǎng)頁(yè) 235
7.2.2 框架介紹 238
7.2.3 第一層信息采集 239
7.2.4 第二層信息采集 248
7.3 股票信息采集 256
7.3.1 采集的網(wǎng)頁(yè) 256
7.3.2 框架介紹 257
7.3.3 程序設(shè)計(jì) 258
7.3.4 Quartz 實(shí)現(xiàn)定時(shí)調(diào)度任務(wù) 267
7.4 本章小結(jié) 271
第8 章 Selenium 的使用 272
8.1 Selenium 簡(jiǎn)介 272
8.2 Java Selenium 環(huán)境搭建 272
8.3 瀏覽器的操控 274
8.4 元素定位 276
8.4.1 id 定位 276
8.4.2 name 定位 277
8.4.3 class 定位 278
8.4.4 tag name 定位 278
8.4.5 link text 定位 278
8.4.6 Xpath 定位 279
8.4.7 CSS 選擇器定位 279
8.5 模擬登錄 280
8.6 動(dòng)態(tài)加載JavaScript 數(shù)據(jù)(操作滾動(dòng)條) 283
8.7 隱藏瀏覽器 285
8.8 截取驗(yàn)證碼 287
8.9 本章小結(jié) 291
第9 章 網(wǎng)絡(luò)爬蟲(chóng)開(kāi)源框架 292
9.1 Crawler4j 的使用 292
9.1.1 Crawler4j 簡(jiǎn)介 292
9.1.2 jar 包的下載 292
9.1.3 入門(mén)案例 293
9.1.4 相關(guān)配置 297
9.1.5 圖片的采集 300
9.1.6 數(shù)據(jù)采集入庫(kù) 304
9.2 WebCollector 的使用 312
9.2.1 WebCollector 簡(jiǎn)介 312
9.2.2 jar 包的下載 313
9.2.3 入門(mén)案例 313
9.2.4 相關(guān)配置 318
9.2.5 HTTP 請(qǐng)求擴(kuò)展 319
9.2.6 翻頁(yè)數(shù)據(jù)采集 327
9.2.7 圖片的采集 331
9.2.8 數(shù)據(jù)采集入庫(kù) 334
9.3 WebMagic 的使用 347
9.3.1 WebMagic 簡(jiǎn)介 347
9.3.2 jar 包的下載 347
9.3.3 入門(mén)案例(翻頁(yè)數(shù)據(jù)采集) 347
9.3.4 相關(guān)配置 351
9.3.5 數(shù)據(jù)存儲(chǔ)方式 352
9.3.6 數(shù)據(jù)采集入庫(kù) 355
9.3.7 圖片的采集 365
9.4 本章小結(jié) 368

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)