注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡軟件與程序設計其他編程語言/工具Webbots、Spiders和Screen Scrapers:技術解析與應用實踐

Webbots、Spiders和Screen Scrapers:技術解析與應用實踐

Webbots、Spiders和Screen Scrapers:技術解析與應用實踐

定 價:¥69.00

作 者: (美)Michael Schrenk 著
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 程序設計 計算機/網絡

購買這本書可以去


ISBN: 9787111417682 出版時間: 2013-04-01 包裝: 平裝
開本: 16開 頁數: 282 字數:  

內容簡介

  《Webbots、Spiders和Screen Scrapers:技術解析與應用實踐》是Webbots(網絡機器人)、Spiders(蜘蛛)、Screen Scrapers(抓屏器)領域的權威著作,在國際安全領域被廣泛認可,是資深網絡安全專家15年工作經驗的結晶。不僅全面而詳細地解析了Webbots、Spiders和Screen Scrapers的技術原理和高級技巧,而且以案例的方式講解了9種常用網絡機器人的設計和開發(fā)方法,可操作性極強。除了有豐富的理論和實踐內容外,《Webbots、Spiders和Screen Scrapers:技術解析與應用實踐》還介紹了商業(yè)用途的思路,不厭其煩地告誡開發(fā)者如何開發(fā)出遵紀守法且不干擾網絡的具有建設性的網絡機器人?!禬ebbots、Spiders和Screen Scrapers:技術解析與應用實踐》31章,分為4個部分:第一部分(1~7章),系統(tǒng)全面地介紹了與Webbots、Spiders、Screen Scrapers相關的各種概念和技術原理,是了解和使用它們必須掌握的基礎知識;第二部分(8~16章),以案例的形式仔細地講解了價格監(jiān)控、圖片抓取、搜索排名檢測、信息聚合、FTP信息、閱讀與發(fā)送電子郵件等9類常見機器人的設計與開發(fā)方法,非常具備實戰(zhàn)指導意義;第三部分(17~25章),總結和歸納了大量的高級技巧,包括蜘蛛程序的設計方法、采購機器人和秒殺器、相關的密碼學、認證方法、高級cookie管理、如何計劃運行網絡機器人和蜘蛛、使用瀏覽器宏抓取怪異的網站、修改iMacros,等等;第四部分(26~31章)是拓展知識,包含如何設計隱蔽的網絡機器人和蜘蛛、編寫容錯的網絡機器人、設計網絡機器人青睞的網站、消滅蜘蛛、相關的法律知識等。

作者簡介

暫缺《Webbots、Spiders和Screen Scrapers:技術解析與應用實踐》作者簡介

圖書目錄

譯者序
前言
第一部分 基礎概念和技術
第1章 本書主要內容
1.1 發(fā)現互聯網的真正潛力
1.2 對開發(fā)者來說
1.2.1 網絡機器人開發(fā)者是緊缺人才
1.2.2 編寫網絡機器人是有趣的
1.2.3 網絡機器人利用了“建設性黑客”技術
1.3 對企業(yè)管理者來說
1.3.1 為業(yè)務定制互聯網
1.3.2 充分利用公眾對網絡機器人的經驗不足
1.3.3 事半功倍
1.4 結論

第2章 網絡機器人項目創(chuàng)意
2.1 瀏覽器局限性的啟發(fā)
2.1.1 聚合并過濾相關信息的網絡機器人
2.1.2 解釋在線信息的網絡機器人
2.1.3 個人代理網絡機器人
2.2 從瘋狂的創(chuàng)意開始
2.2.1 幫助繁忙的人解脫
2.2.2 自動執(zhí)行,節(jié)省開支
2.2.3 保護知識產權
2.2.4 監(jiān)視機會
2.2.5 在網站上驗證訪問權限
2.2.6 創(chuàng)建網上剪報服務
2.2.7 尋找未授權的Wi-Fi網絡
2.2.8 跟蹤網站技術
2.2.9 讓互不兼容的系統(tǒng)通信
2.3 結論

第3章 下載網頁
3.1 當它們是文件,而不是網頁
3.2 用PHP的內置函數下載文件
3.2.1 用fopen()和fgets()下載文件
3.2.2 用file()函數下載文件
3.3 PHP/CURL庫介紹
3.3.1 多種傳輸協(xié)議
3.3.2 表單提交
3.3.3 基本認證技術
3.3.4 cookie
3.3.5 重定向
3.3.6 代理名稱欺詐
3.3.7 上鏈管理
3.3.8 套接字管理
3.4 安裝PHP/CURL
3.5 LIB_http庫
3.5.1 熟悉默認值
3.5.2 使用LIB_http
3.5.3 了解更多HTTP標頭信息
3.5.4 檢查LIB_http的源代碼
3.6 結論

第4章 基本解析技術
4.1 內容與標簽相混合
4.2 解析格式混亂的HTML文件
4.3 標準解析過程
4.4 使用LIB_parse庫
4.4.1 用分隔符分解字符串:split_string()函數
4.4.2 提取分隔符之間的部分:return_between()函數
4.4.3 將數據集解析到數組之中:parse_array()函數
4.4.4 提取屬性值:get_attribute()函數
4.4.5 移除無用文本:remove()函數
4.5 有用的PHP函數
4.5.1 判斷一個字符串是否在另一個字符串里面
4.5.2 用一個字符串替換另一個字符串中的一部分
4.5.3 解析無格式文本
4.5.4 衡量字符串的相似度
4.6 結論
4.6.1 別相信編碼混亂的網頁
4.6.2 小步解析
4.6.3 不要在調試的時候渲染解析結果
4.6.4 少用正則表達式

第5章 使用正則表達式的高級解析技術
5.1 模式匹配——正則表達式的關鍵
5.2 PHP的正則表達式類型
5.2.1 PHP正則表達式函數
5.2.2 與PHP內置函數的相似之處
5.3 從例子中學習模式匹配
5.3.1 提取數字
5.3.2 探測字符串序列
5.3.3 字母字符匹配
5.3.4 通配符匹配
5.3.5 選擇匹配
5.3.6 分組和范圍匹配的正則表達式
5.4 與網絡機器人開發(fā)者相關的正則表達式
5.4.1 提取電話號碼
5.4.2 下一步學習什么
5.5 何時使用正則表達式
5.5.1 正則表達式的長處
5.5.2 模式匹配用于解析網頁的劣勢
5.5.3 哪個更快,正則表達式還是PHP的內置函數
5.6 結論

第6章 自動表單提交
6.1 表單接口的反向工程
6.2 表單處理器、數據域、表單方法和事件觸發(fā)器
6.2.1 表單處理器
6.2.2 數據域
6.2.3 表單方法
6.2.4 多組件編碼
6.2.5 事件觸發(fā)器
6.3 無法預測的表單
6.3.1 JavaScript能在提交之前修改表單
6.3.2 表單HTML代碼通常無法閱讀
6.3.3 cookie在表單里不存在,卻會影響其操作
6.4 分析表單
6.5 結論
6.5.1 不要暴露身份
6.5.2 正確模擬瀏覽器
6.5.3 避免表單錯誤

第7章 處理大規(guī)模數據
7.1 組織數據
7.1.1 命名規(guī)范
7.1.2 在結構化文件里存儲數據
7.1.3 在數據庫里存儲文本數據
7.1.4 在數據庫里存儲圖片
7.1.5 用數據庫,還是用文件系統(tǒng)
7.2 減小數據規(guī)模
7.2.1 保存圖片文件的地址
7.2.2 壓縮數據
7.2.3 移除格式信息
7.3 生成圖片的縮略圖
7.4 結論

第二部分 網絡機器人項目
第8章 價格監(jiān)控網絡機器人
8.1 目標網站
8.2 設計解析腳本
8.3 初始化以及下載目標網頁
8.4 進一步探討

第9章 圖片抓取網絡機器人
9.1 圖片抓取網絡機器人例子
9.2 創(chuàng)建圖片抓取網絡機器人
9.2.1 二進制安全下載過程
9.2.2 目錄結構
9.2.3 主腳本
9.3 進一步探討
9.4 結論

第10章 鏈接校驗網絡機器人
10.1 創(chuàng)建鏈接校驗網絡機器人
10.1.1 初始化網絡機器人并下載目標網頁
10.1.2 設置頁面基準
10.1.3 提取鏈接
10.1.4 運行校驗循環(huán)
10.1.5 生成URL完整路徑
10.1.6 下載全鏈接路徑
10.1.7 展示頁面狀態(tài)
10.2 運行網絡機器人
10.2.1 LIB_http_codes
10.2.2 LIB_resolve_addresses
10.3 進一步探討

第11章 搜索排名檢測網絡機器人
11.1 搜索結果頁介紹
11.2 搜索排名檢測網絡機器人做什么工作
11.3 運行搜索排名檢測網絡機器人
11.4 搜索排名檢測網絡機器人的工作原理
11.5 搜索排名檢測網絡機器人腳本
11.5.1 初始化變量
11.5.2 開始循環(huán)
11.5.3 獲取搜索結果
11.5.4 解析搜索結果
11.6 結論
11.6.1 對數據源要厚道
11.6.2 搜索網站對待網絡機器人可能會不同于瀏覽器
11.6.3 爬取搜索引擎不是好主意
11.6.4 熟悉Google API
11.7 進一步探討

第12章 信息聚合網絡機器人
12.1 給網絡機器人選擇數據源
12.2 信息聚合網絡機器人舉例
12.2.1 熟悉RSS源
12.2.2 編寫信息聚合網絡機器人
12.3 給信息聚合網絡機器人添加過濾機制
12.4 進一步探討

第13章 FTP網絡機器人
13.1 FTP網絡機器人舉例
13.2 PHP和FTP
13.3 進一步探討

第14章 閱讀電子郵件的網絡機器人
14.1 POP3協(xié)議
14.1.1 登錄到POP3郵件服務器
14.1.2 從POP3郵件服務器上讀取郵件
14.2 用網絡機器人執(zhí)行POP3命令
14.3 進一步探討
14.3.1 電子郵件控制的網絡機器人
14.3.2 電子郵件接口

第15章 發(fā)送電子郵件的網絡機器人
15.1 電子郵件、網絡機器人以及垃圾郵件
15.2 使用SMTP和PHP發(fā)送郵件
15.2.1 配置PHP發(fā)送郵件
15.2.2 使用mail()函數發(fā)送電子郵件
15.3 編寫發(fā)送電子郵件通知的網絡機器人
15.3.1 讓合法的郵件不被過濾掉
15.3.2 發(fā)送HTML格式的電子郵件
15.4 進一步探討
15.4.1 使用回復郵件剪裁訪問列表
15.4.2 使用電子郵件作為你的網絡機器人運行的通知
15.4.3 利用無線技術
15.4.4 編寫發(fā)送短信的網絡機器人

第16章 將一個網站轉變成一個函數
16.1 編寫一個函數接口
16.1.1 定義函數接口
16.1.2 分析目標網頁
16.1.3 使用describe_zipcode()函數
16.2 結論
16.2.1 資源分發(fā)
16.2.2 使用標準接口
16.2.3 設計定制的輕量級“Web服務”

第三部分 高級設計技巧
第17章 蜘蛛
17.1 蜘蛛的工作原理
17.2 蜘蛛腳本示例
17.3 LIB_simple_spider
17.3.1 harvest_links()
17.3.2 archive_links()
17.3.3 get_domain()
17.3.4 exclude_link()
17.4 使用蜘蛛進行實驗
17.5 添加載荷
17.6 進一步探討
17.6.1 在數據庫中保存鏈接
17.6.2 分離鏈接和載荷
17.6.3 在多臺計算機上分配任務
17.6.4 管理頁面請求

第18章 采購機器人和秒殺器
18.1 采購機器人的原理
18.1.1 獲取采購標準
18.1.2 認證買家
18.1.3 核對商品
18.1.4 評估購物觸發(fā)條件
18.1.5 執(zhí)行購買
18.1.6 評估結果
18.2 秒殺器的原理
18.2.1 獲取采購標準
18.2.2 認證競拍者
18.2.3 核對拍賣商品
18.2.4 同步時鐘
18.2.5 競價時間
18.2.6 提交競價
18.2.7 評估結果
18.3 測試自己的網絡機器人和秒殺器
18.4 進一步探討
18.5 結論

第19章 網絡機器人和密碼學
19.1 設計使用加密的網絡機器人
19.1.1 SSL和PHP內置函數
19.1.2 加密和PHP/CURL
19.2 網頁加密的簡要概述
19.3 結論

第20章 認證
20.1 認證的概念
20.1.1 在線認證的類型
20.1.2 用多種方式加強認證
20.1.3 認證和網絡機器人
20.2 示例腳本和實踐頁面
20.3 基本認證
20.4 會話認證
20.4.1 使用cookie會話的認證
20.4.2 使用查詢會話進行認證
20.5 結論

第21章 高級cookie管理
21.1 cookie的工作原理
21.2 PHP/CURL和cookie
21.3 網絡機器人設計中面臨的cookie難題
21.3.1 擦除臨時性cookie
21.3.2 管理多用戶的cookie
21.4 進一步探討

第22章 計劃運行網絡機器人和蜘蛛
22.1 為網絡機器人配置計劃任務
22.2 Windows XP任務調度程序
22.2.1 計劃網絡機器人按日運行
22.2.2 復雜的計劃
22.3 Windows 7任務調度程序
22.4 非日歷事件觸發(fā)器
22.5 結論
22.5.1 如何決定網絡機器人的最佳運行周期
22.5.2 避免單點故障
22.5.3 在計劃中加入變化性

第23章 使用瀏覽器宏抓取怪異的網站
23.1 高效網頁抓取的阻礙
23.1.1 AJAX
23.1.2 怪異的JavaScript和cookie行為
23.1.3 Flash
23.2 使用瀏覽器宏解決網頁抓取難題
23.2.1 瀏覽器宏的定義
23.2.2 模擬瀏覽器的終極網絡機器人
23.2.3 安裝和使用iMacros
23.2.4 創(chuàng)建第一個宏
23.3 結論
23.3.1 宏的必要性
23.3.2 其他用途

第24章 修改iMacros
24.1 增強iMacros的功能
24.1.1 不使用iMacros腳本引擎的原因
24.1.2 創(chuàng)建動態(tài)宏
24.1.3 自動裝載iMacros
24.2 進一步探討

第25章 部署和擴展
25.1 一對多環(huán)境
25.2 一對一環(huán)境
25.3 多對多環(huán)境
25.4 多對一環(huán)境
25.5 擴展和拒絕服務攻擊
25.5.1 簡易的網絡機器人也會產生大量數據
25.5.2 目標的低效
25.5.3 過度擴展的弊端
25.6 創(chuàng)建多個網絡機器人的實例
25.6.1 創(chuàng)建進程
25.6.2 利用操作系統(tǒng)
25.6.3 在多臺計算機上分發(fā)任務
25.7 管理僵尸網絡
25.8 進一步探討

第四部分 拓展知識
第26章 設計隱蔽的網絡機器人和蜘蛛
26.1 設計隱蔽網絡機器人的原因
26.1.1 日志文件
26.1.2 日志監(jiān)控軟件
26.2 模擬人類行為實現隱蔽
26.2.1 善待資源
26.2.2 在繁忙的時刻運行網絡機器人
26.2.3 在每天不同時刻運行網絡機器人
26.2.4 不要在假期和周末運行網絡機器人
26.2.5 使用隨機的延遲時間
26.3 結論

第27章 代理
27.1 代理的概念
27.2 虛擬世界中的代理
27.3 網絡機器人開發(fā)者使用代理的原因
27.3.1 使用代理實現匿名
27.3.2 使用代理改變位置
27.4 使用代理服務器
27.4.1 在瀏覽器中使用代理
27.4.2 通過PHP/CURL使用代理
27.5 代理服務器的類型
27.5.1 公共代理
27.5.2 Tor
27.5.3 商業(yè)代理
27.6 結論
27.6.1 匿名是過程,不是特性
27.6.2 創(chuàng)建自己的代理服務

第28章 編寫容錯的網絡機器人
28.1 網絡機器人容錯的類型
28.1.1 適應URL變化
28.1.2 適應頁面內容的變化
28.1.3 適應表單的變化
28.1.4 適應cookie管理的變化
28.1.5 適應網絡中斷和網絡擁堵
28.2 錯誤處理器
28.3 進一步探討

第29章 設計受網絡機器人青睞的網站
29.1 針對搜索引擎蜘蛛優(yōu)化網頁
29.1.1 定義明確的鏈接
29.1.2 谷歌轟炸和垃圾索引
29.1.3 標題標簽
29.1.4 元標簽
29.1.5 標頭標簽
29.1.6 圖片的alt屬性
29.2 阻礙搜索引擎蜘蛛的網頁設計技巧
29.2.1 JavaScript
29.2.2 非ASCII內容
29.3 設計純數據接口
29.3.1 XML
29.3.2 輕量級數據交換
29.3.3 簡單對象訪問協(xié)議
29.3.4 表征狀態(tài)轉移
29.4 結論

第30章 消滅蜘蛛
30.1 合理地請求
30.1.1 創(chuàng)建服務協(xié)議條款
30.1.2 使用robots.txt文件
30.1.3 使用robots元標簽
30.2 創(chuàng)造障礙
30.2.1 選擇性地允許特定的網頁代理
30.2.2 使用混淆
30.2.3 使用cookie、加密、JavaScript和重定向
30.2.4 認證用戶
30.2.5 頻繁升級網站
30.2.6 在其他媒體中嵌入文本
30.3 設置陷阱
30.3.1 創(chuàng)建蜘蛛陷阱
30.3.2 處理不速之客的方法
30.4 結論

第31章 遠離麻煩
31.1 尊重
31.2 版權
31.2.1 請善用資源
31.2.2 不要紙上談兵
31.3 侵犯動產
31.4 互聯網法律
31.5 結論

附錄A PHP/CURL參考
附錄B 狀態(tài)碼
附錄C 短信網關

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號