注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件大數(shù)據(jù)集成

大數(shù)據(jù)集成

大數(shù)據(jù)集成

定 價:¥79.00

作 者: 董欣 著;王秋月 譯
出版社: 機械工業(yè)出版社
叢編項: 大數(shù)據(jù)管理叢書
標 簽: 計算機?網(wǎng)絡 計算機期刊雜志

ISBN: 9787111559863 出版時間: 2017-05-01 包裝: 平裝
開本: 16開 頁數(shù): 186 字數(shù):  

內容簡介

  本書作者在多年研究傳統(tǒng)數(shù)據(jù)集成的基礎上,著重分析了大數(shù)據(jù)背景下的大數(shù)據(jù)集成。和傳統(tǒng)的數(shù)據(jù)集成相比,大數(shù)據(jù)集成具有一些新的挑戰(zhàn),例如數(shù)據(jù)和數(shù)據(jù)源的海量性、數(shù)據(jù)的多樣性和數(shù)據(jù)的動態(tài)性等。本書共分6章,包括大數(shù)據(jù)集成的挑戰(zhàn)和機遇、模式對齊、記錄鏈接、數(shù)據(jù)融合、出現(xiàn)的新問題和結論,系統(tǒng)地討論了解決大數(shù)據(jù)集成中關鍵問題的一些重要研究成果和方法,對大數(shù)據(jù)集成的研究者和實踐者都很有幫助。另外本書也可以作為學生學習該領域的入門讀物。

作者簡介

  Xin Luna Dong(董欣), 2013年加入谷歌公司擔任高級研究員,研究興趣包括數(shù)據(jù)集成、數(shù)據(jù)清洗和知識管理。在加入谷歌之前,她是AT&T實驗室的研究員。董欣博士碩士畢業(yè)于北京大學,本科畢業(yè)于南開大學。Divesh Srivastava AT&T實驗室數(shù)據(jù)庫領域首席科學家.

圖書目錄


叢書前言
譯者序
前言
第1章 大數(shù)據(jù)集成的挑戰(zhàn)和機遇1
1.1 傳統(tǒng)數(shù)據(jù)集成2
1.1.1 航班示例:數(shù)據(jù)源2
1.1.2 航班示例:數(shù)據(jù)集成7
1.1.3 數(shù)據(jù)集成:體系結構和三個主要步驟10
1.2 大數(shù)據(jù)集成:挑戰(zhàn)12
1.2.1 “V”維度13
1.2.2 案例研究:深網(wǎng)數(shù)據(jù)量15
1.2.3 案例研究:抽取的領域數(shù)據(jù)18
1.2.4 案例研究:深網(wǎng)數(shù)據(jù)的質量22
1.2.5 案例研究:淺網(wǎng)結構化數(shù)據(jù)25
1.2.6 案例研究:抽取的知識三元組28
1.3 大數(shù)據(jù)集成:機遇30
1.3.1 數(shù)據(jù)冗余性31
1.3.2 長數(shù)據(jù)32
1.3.3 大數(shù)據(jù)平臺33
1.4 章節(jié)安排33
第2章 模式對齊34
2.1 傳統(tǒng)模式對齊:快速導覽35
2.1.1 中間模式35
2.1.2 屬性匹配36
2.1.3 模式映射37
2.1.4 查詢問答38
2.2 應對多樣性和高速性的挑戰(zhàn)39
2.2.1 概率模式對齊39
2.2.2 按需集成用戶反饋52
2.3 應對多樣性和海量性的挑戰(zhàn)54
2.3.1 集成深網(wǎng)數(shù)據(jù)55
2.3.2 集成Web表格59
第3章 記錄鏈接68
3.1 傳統(tǒng)記錄鏈接:快速導覽69
3.1.1 兩兩匹配71
3.1.2 聚類72
3.1.3 分塊74
3.2 應對海量性挑戰(zhàn)76
3.2.1 使用MapReduce并行分塊77
3.2.2 meta-blocking:修剪兩兩匹配83
3.3 應對高速性挑戰(zhàn)88
3.4 應對多樣性挑戰(zhàn)95
3.5 應對真實性挑戰(zhàn)100
3.5.1 時態(tài)記錄鏈接100
3.5.2 具有唯一性約束的記錄鏈接107
第4章 大數(shù)據(jù)集成:數(shù)據(jù)融合113
4.1 傳統(tǒng)數(shù)據(jù)融合:快速導覽114
4.2 應對真實性挑戰(zhàn)116
4.2.1 數(shù)據(jù)源的準確度117
4.2.2 值為真的概率118
4.2.3 數(shù)據(jù)源之間的復制關系121
4.2.4 端到端的解決方案128
4.2.5 擴展性和適應性131
4.3 應對海量性挑戰(zhàn)134
4.3.1 基于MapReduce框架做離線融合135
4.3.2 在線數(shù)據(jù)融合136
4.4 應對高速性挑戰(zhàn)142
4.5 應對多樣性挑戰(zhàn)146
第5章 大數(shù)據(jù)集成:出現(xiàn)的新問題149
5.1 眾包的角色149
5.1.1 利用傳遞關系150
5.1.2 眾包端到端的工作流155
5.1.3 未來的工作158
5.2 數(shù)據(jù)源選擇158
5.2.1 靜態(tài)數(shù)據(jù)源160
5.2.2 動態(tài)數(shù)據(jù)源162
5.2.3 未來的工作166
5.3 數(shù)據(jù)源分析166
5.3.1 Bellman系統(tǒng)167
5.3.2 概述數(shù)據(jù)源170
5.3.3 未來的工作174
第6章 結論175
參考文獻177
索引184

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號