注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫設計/管理社交網(wǎng)站的數(shù)據(jù)挖掘與分析(原書第2版)

社交網(wǎng)站的數(shù)據(jù)挖掘與分析(原書第2版)

社交網(wǎng)站的數(shù)據(jù)挖掘與分析(原書第2版)

定 價:¥79.00

作 者: (美)Matthew A. Russell
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 計算機/網(wǎng)絡 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787111486992 出版時間: 2015-04-01 包裝:
開本: 頁數(shù): 字數(shù):  

內(nèi)容簡介

  社交網(wǎng)站數(shù)據(jù)如同深埋地下的“金礦”,如何利用這些數(shù)據(jù)來發(fā)現(xiàn)哪些人正通過社交媒介進行聯(lián)系?他們正在談論什么?或者他們在哪兒?《社交網(wǎng)站的數(shù)據(jù)挖掘與分析(原書第2版)》第2版對上一版內(nèi)容進行了全面更新和修訂,它將揭示回答這些問題的方法與技巧。你將學到如何獲取、分析和匯總散落于社交網(wǎng)站(包括Facebook、Twitter、LinkedIn、Google+、 GitHub、郵件、網(wǎng)站和博客等)的數(shù)據(jù),以及如何通過可視化找到你一直在社交世界中尋找的內(nèi)容和你聞所未聞的有用信息?!?借助IPython Notebook、自然語言工具包、NetworkX和其他科學計算工具挖掘主流社交網(wǎng)站■ 使用高級文本挖掘技術(如聚類和TF-IDF)來提取人類語言數(shù)據(jù)中有價值的知識■ 通過發(fā)現(xiàn)GitHub上人、編程語言和代碼工程間的親密性,構建興趣圖譜■ 利用D3.js進行交互式可視化,充分發(fā)揮HTML5和JavaScript工具包的靈活特性■ 以“問題-解決方案-討論”的方式詳細講解深入挖掘Twitter數(shù)據(jù)的實用技術,并提供代碼示例《社交網(wǎng)站的數(shù)據(jù)挖掘與分析(原書第2版)》的配套代碼在公開的GitHub代碼庫中進行維護,可以通過一站式虛擬機來訪問,你只需要使用方便易用的IPython Notebook,即可進入愉快的交互式學習情景。

作者簡介

  Matthew A. Russell Digital Reasoning Systems公司首席技術官(CTO)、Zaffra公司負責人。作為一名計算機科學家,他熱衷于數(shù)據(jù)挖掘、開源軟件開發(fā)和創(chuàng)造技術以擴展人類智能。 譯者簡介蘇統(tǒng)華 博士,碩士生導師,CUDA研究中心以及教學中心負責人。主要研究方向包括:物聯(lián)網(wǎng)大數(shù)據(jù)智能信息處理、大規(guī)模并行計算、模式識別、智能媒體交互與計算等。作為自然手寫中文文本識別的開拓者,四年內(nèi)代表工作被同行大篇幅他引約300次;他所建立的HIT-MW庫為全世界100多家科研院所采用;目前負責國家自然科學基金項目2項。2013年,他領導的研究組在文檔分析和識別國際會議(ICDAR’2013)上獲得手寫漢字識別競賽的雙料冠軍;2014年,兩項手寫文字識別核心技術授權給某高新技術公司,正在為超過200萬終端用戶提供技術服務。著有英文專著《Chinese Handwriting Recognition: An Algorithmic Perspective》(德國施普林格出版社),出版5本大數(shù)據(jù)分析方面的譯作(機械工業(yè)出版社)。

圖書目錄

前言 1
第一部分 社交網(wǎng)絡導引
序幕 13
第1章 挖掘Twitter:探索熱門話題、發(fā)現(xiàn)人們的談論內(nèi)容等 15
1.1 概述 15
1.2 Twitter風靡一時的原因 16
1.3 探索Twitter API 18
1.4 分析140字的推文 33
1.5 本章小結(jié) 47
1.6 推薦練習 48
1.7 在線資源 48
第2章 挖掘Facebook:分析粉絲頁面、查看好友關系等 50
2.1 概述 51
2.2 探索Facebook的社交圖譜API 51
2.3 分析社交圖譜聯(lián)系 62
2.4 本章小結(jié) 85
2.5 推薦練習 86
2.6 在線資源 86
第3章 挖掘LinkedIn:分組職位、聚類同行等 88
3.1 概述 89
3.2 探索LinkedIn API 89
3.3 數(shù)據(jù)聚類速成 94
3.4 本章小結(jié) 124
3.5 推薦練習 125
3.6 在線資源 126
第4章 挖掘Google+:計算文檔相似度、提取搭配等 127
4.1 概述 128
4.2 探索Google+ API 128
4.3 TF-IDF簡介 138
4.4 用TF-IDF查詢?nèi)祟愓Z言數(shù)據(jù) 145
4.5 本章小結(jié) 164
4.6 推薦練習 165
4.7 在線資源 165
第5章 挖掘網(wǎng)頁:使用自然語言處理理解人類語言、總結(jié)博客內(nèi)容等 167
5.1 概述 168
5.2 抓取、解析、爬取網(wǎng)頁 168
5.3 通過解碼語法來探索語義 174
5.4 以實體為中心的分析:范式轉(zhuǎn)換 192
5.5 人類語言數(shù)據(jù)處理分析的質(zhì)量 200
5.6 本章小結(jié) 203
5.7 推薦練習 203
5.8 在線資源 204
第6章 挖掘郵箱:分析誰和誰說什么以及說的頻率等 206
6.1 概述 207
6.2 獲取和處理郵件語料庫 207
6.3 分析Enron語料庫 225
6.4 探索和可視化時序趨勢 241
6.5 分析你自己的郵件數(shù)據(jù) 244
6.6 本章小結(jié) 250
6.7 推薦練習 251
6.8 在線資源 251
第7章 挖掘GitHub:檢查軟件協(xié)同習慣、構建興趣圖譜等 253
7.1 概述 254
7.2 探索GitHub的API 254
7.3 使用屬性圖為數(shù)據(jù)建模 260
7.4 分析GitHub興趣圖譜 264
7.5 本章小結(jié) 286
7.6 推薦練習 287
7.7 在線資源 287
第8章 挖掘帶標記語義網(wǎng):提取微格式、推斷資源描述框架等 289
8.1 概述 290
8.2 微格式:易于實現(xiàn)的元數(shù)據(jù) 290
8.3 從語義標記過渡到語義網(wǎng):一個小插曲 304
8.4 語義網(wǎng):發(fā)展中的變革 304
8.5 本章小結(jié) 310
8.6 推薦的練習 311
8.7 在線資源 311
第二部分 Twitter實用指南
第9章 Twitter實用指南 317
9.1 訪問Twitter的API(開發(fā)目的) 318
9.2 使用OAuth訪問Twitter的API(產(chǎn)品目的) 319
9.3 探索流行話題 323
9.4 查找推文 324
9.5 構造方便的函數(shù)調(diào)用 325
9.6 使用文本文件存儲JSON數(shù)據(jù) 326
9.7 使用MongoDB存儲和訪問JSON數(shù)據(jù) 327
9.8 使用信息流API對Twitter數(shù)據(jù)管道抽樣 329
9.9 采集時序數(shù)據(jù) 330
9.10 提取推文實體 332
9.11 特定的推文范圍內(nèi)查找最流行的推文 333
9.12 特定的推文范圍內(nèi)查找最流行的推文實體 335
9.13 對頻率分析制表 336
9.14 查找轉(zhuǎn)推了狀態(tài)的用戶 337
9.15 提取轉(zhuǎn)推的屬性 339
9.16 創(chuàng)建健壯的Twitter請求 340
9.17 獲取用戶個人資料信息 343
9.18 從任意的文本中提取推文實體 344
9.19 獲得用戶所有的好友和關注者 345
9.20 分析用戶的好友和關注者 347
9.21 獲取用戶的推文 348
9.22 爬取好友關系圖 350
9.23 分析推文內(nèi)容 351
9.24 提取鏈接目標摘要 353
9.25 分析用戶收藏的推文 356
9.26 本章小結(jié) 357
9.27 推薦練習 358
9.28 在線資源 359
第三部分 附錄
附錄A 關于本書虛擬機體驗的信息 363
附錄B OAuth入門 364
附錄C Python和IPython Notebook的使用技巧 368

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號