注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用

互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用

互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用

定 價(jià):¥49.00

作 者: 曾劍平 著
出版社: 清華大學(xué)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)規(guī)劃教材
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù)

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302463719 出版時(shí)間: 2017-03-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 290 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)內(nèi)容分為三個(gè)部分,第一部分為互聯(lián)網(wǎng)大數(shù)據(jù)的概述;第二部分為互聯(lián)網(wǎng)大數(shù)據(jù)的獲取與存儲(chǔ),包括了靜態(tài)或動(dòng)態(tài)WEB頁(yè)面內(nèi)容獲取技術(shù)、結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、常見(jiàn)的開(kāi)源系統(tǒng)等;第二部分為處理與分析技術(shù),包括了文本數(shù)據(jù)預(yù)處理、數(shù)據(jù)內(nèi)容的語(yǔ)義分析技術(shù)、文本內(nèi)容分類(lèi)技術(shù)、聚類(lèi)分析、大數(shù)據(jù)中的隱私保護(hù)、大數(shù)據(jù)可視化等內(nèi)容;第三部分為綜合應(yīng)用。

作者簡(jiǎn)介

暫缺《互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用》作者簡(jiǎn)介

圖書(shū)目錄

第1部分概述
第1章互聯(lián)網(wǎng)大數(shù)據(jù)
1.1從IT走向DT
1.1.1信息化與Web時(shí)代
1.1.2大數(shù)據(jù)時(shí)代
1.2互聯(lián)網(wǎng)大數(shù)據(jù)及其特點(diǎn)
1.3互聯(lián)網(wǎng)大數(shù)據(jù)處理的相關(guān)技術(shù)
1.3.1技術(shù)體系構(gòu)成
1.3.2相關(guān)技術(shù)研究
1.4互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)的發(fā)展
1.5本書(shū)內(nèi)容安排
思考題
第2部分互聯(lián)網(wǎng)大數(shù)據(jù)的獲取
第2章Web頁(yè)面數(shù)據(jù)獲取
2.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)概述
2.2爬蟲(chóng)的內(nèi)核技術(shù)
2.2.1Web服務(wù)器連接器
2.2.2頁(yè)面解析器
2.2.3爬行策略搜索
2.3主題爬蟲(chóng)技術(shù)
2.3.1主題爬蟲(chóng)模塊構(gòu)成
2.3.2主題定義
2.3.3鏈接相關(guān)度估算
2.3.4內(nèi)容相關(guān)度計(jì)算
2.4動(dòng)態(tài)Web頁(yè)面獲取技術(shù)
2.4.1動(dòng)態(tài)頁(yè)面的分類(lèi)
2.4.2動(dòng)態(tài)頁(yè)面的獲取方法
2.4.3模擬瀏覽器的實(shí)現(xiàn)
2.4.4基于腳本解析的實(shí)現(xiàn)
2.5微博信息內(nèi)容獲取技術(shù)
2.6DeepWeb數(shù)據(jù)獲取技術(shù)
2.6.1相關(guān)概念
2.6.2DeepWeb數(shù)據(jù)獲取方法
2.7反爬蟲(chóng)技術(shù)與反反爬蟲(chóng)技術(shù)
2.7.1反爬蟲(chóng)技術(shù)
2.7.2反反爬蟲(chóng)技術(shù)
2.7.3爬蟲(chóng)技術(shù)的展望
思考題
第3章互聯(lián)網(wǎng)大數(shù)據(jù)的提取技術(shù)
3.1Web頁(yè)面內(nèi)容提取技術(shù)
3.1.1Web頁(yè)面內(nèi)容提取的基本任務(wù)
3.1.2Web頁(yè)面解析方法概述
3.1.3基于HTMLParser的頁(yè)面解析
3.1.4基于Jsoup的頁(yè)面解析
3.2基于統(tǒng)計(jì)的Web信息抽取方法
3.3其他互聯(lián)網(wǎng)大數(shù)據(jù)的提取
3.4阿里云公眾趨勢(shì)分析中的信息提取應(yīng)用
3.5互聯(lián)網(wǎng)大數(shù)據(jù)提取的挑戰(zhàn)性問(wèn)題
思考題
第3部分互聯(lián)網(wǎng)大數(shù)據(jù)的結(jié)構(gòu)化處理與分析技術(shù)
第4章結(jié)構(gòu)化處理技術(shù)
4.1互聯(lián)網(wǎng)大數(shù)據(jù)中的文本信息特征
4.2中文文本的詞匯切分
4.2.1詞匯切分的一般流程
4.2.2基于詞典的分詞方法
4.2.3基于統(tǒng)計(jì)的分詞方法
4.2.4歧義處理
4.3詞性識(shí)別
4.3.1詞性標(biāo)注的難點(diǎn)
4.3.2基于規(guī)則的方法
4.3.3基于統(tǒng)計(jì)的方法
4.4新詞識(shí)別
4.5停用詞的處理
4.6英文中的詞形規(guī)范化
4.7開(kāi)源工具與平臺(tái)
4.7.1開(kāi)源工具及應(yīng)用
4.7.2阿里分詞器
思考題
第5章大數(shù)據(jù)語(yǔ)義分析技術(shù)
5.1語(yǔ)義及語(yǔ)義分析
5.2詞匯級(jí)別的語(yǔ)義技術(shù)
5.2.1詞匯的語(yǔ)義關(guān)系
5.2.2知識(shí)庫(kù)資源
5.2.3詞向量
5.2.4詞匯的語(yǔ)義相關(guān)度計(jì)算
5.3句子級(jí)別的語(yǔ)義分析技術(shù)
5.4命名實(shí)體識(shí)別技術(shù)
5.4.1命名實(shí)體識(shí)別的研究?jī)?nèi)容
5.4.2人名識(shí)別方法
5.4.3地名識(shí)別方法
5.4.4時(shí)間識(shí)別方法
5.4.5基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別
5.5大數(shù)據(jù)語(yǔ)義分析技術(shù)的發(fā)展
思考題
第6章大數(shù)據(jù)分析的模型與算法
6.1大數(shù)據(jù)分析技術(shù)概述
6.2特征選擇與特征提取
6.2.1特征選擇
6.2.2特征提取
6.2.3基于深度學(xué)習(xí)的特征提取
6.3文本的向量空間模型
6.3.1向量空間模型的維
6.3.2向量空間模型的坐標(biāo)
6.3.3向量空間模型中的運(yùn)算
6.3.4文本型數(shù)據(jù)的邏輯存儲(chǔ)結(jié)構(gòu)
6.4文本的概率模型
6.4.1Ngram模型
6.4.2概率主題模型
6.5分類(lèi)技術(shù)
6.5.1分類(lèi)技術(shù)概要
6.5.2經(jīng)典的分類(lèi)技術(shù)
6.6聚類(lèi)技術(shù)
6.7回歸分析
6.7.1回歸分析的基本思路
6.7.2線性回歸
6.7.3加權(quán)線性回歸
6.7.4邏輯回歸
6.8大數(shù)據(jù)分析算法的并行化
6.8.1并行化框架
6.8.2矩陣相乘的并行化
6.8.3經(jīng)典分析算法的并行化
6.9基于阿里云大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘?qū)嵗?br />6.9.1網(wǎng)絡(luò)數(shù)據(jù)流量分析
6.9.2網(wǎng)絡(luò)論壇話題分析
思考題
第7章大數(shù)據(jù)隱私保護(hù)
7.1隱私保護(hù)概述
7.2隱私保護(hù)模型
7.2.1隱私泄露場(chǎng)景
7.2.2k匿名及其演化
7.2.31多元化
7.3位置隱私保護(hù)
7.4社會(huì)網(wǎng)絡(luò)隱私保護(hù)
思考題
第8章大數(shù)據(jù)技術(shù)平臺(tái)
8.1概述
8.2大數(shù)據(jù)技術(shù)平臺(tái)的分類(lèi)
8.3大數(shù)據(jù)存儲(chǔ)平臺(tái)
8.3.1大數(shù)據(jù)存儲(chǔ)需要考慮的因素
8.3.2HBase
8.3.3MongoDB
8.3.4Neo4j
8.3.5云數(shù)據(jù)庫(kù)
8.3.6其他
8.4大數(shù)據(jù)可視化
8.4.1大數(shù)據(jù)可視化的挑戰(zhàn)
8.4.2大數(shù)據(jù)可視化方法
8.4.3大數(shù)據(jù)可視化工具
8.5Hadoop
8.5.1Hadoop概述
8.5.2Hadoop生態(tài)圈及關(guān)鍵技術(shù)
8.5.3Hadoop的版本
8.6Spark
8.6.1Spark的概述
8.6.2Spark的生態(tài)圈
8.6.3SparkSQL
8.6.4Spark Streaming
8.6.5Spark機(jī)器學(xué)習(xí)
8.7阿里云大數(shù)據(jù)平臺(tái)
8.7.1飛天系統(tǒng)
8.7.2大數(shù)據(jù)集成平臺(tái)
思考題
第4部分綜 合 應(yīng) 用
第9章基于阿里云大數(shù)據(jù)技術(shù)的個(gè)性化新聞推薦
9.1目的與任務(wù)
9.2系統(tǒng)架構(gòu)
9.3存儲(chǔ)設(shè)計(jì)
9.3.1RDS
9.3.2OSS
9.3.3OTS
9.3.4MaxCompute
9.4軟件架構(gòu)
9.4.1ECS
9.4.2爬蟲(chóng)
9.4.3模型訓(xùn)練
9.4.4分類(lèi)過(guò)程
9.4.5開(kāi)源代碼
9.5阿里云大數(shù)據(jù)的應(yīng)用開(kāi)發(fā)
9.5.1開(kāi)發(fā)環(huán)境
9.5.2部署
9.5.3運(yùn)行與測(cè)試
思考題
參考文獻(xiàn)

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)