注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)挖掘/數(shù)據(jù)倉(cāng)庫(kù)管理海量數(shù)據(jù):壓縮、索引和查詢(第2版 經(jīng)典再現(xiàn)全新修訂版)

管理海量數(shù)據(jù):壓縮、索引和查詢(第2版 經(jīng)典再現(xiàn)全新修訂版)

管理海量數(shù)據(jù):壓縮、索引和查詢(第2版 經(jīng)典再現(xiàn)全新修訂版)

定 價(jià):¥108.00

作 者: (美)Ian H.Witten ,(美)Alistair Moffat,(美)Timothy C.Bell 著,梁斌,楊青 譯
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)與互聯(lián)網(wǎng) 數(shù)據(jù)庫(kù)

ISBN: 9787121219337 出版時(shí)間: 2014-01-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《管理海量數(shù)據(jù):壓縮、索引和查詢(第2版)(經(jīng)典再現(xiàn)全新修訂版)》是斯坦福大學(xué)信息檢索和挖掘課程的首選教材之一,并已成為全球主要大學(xué)信息檢索的主要教材?!豆芾砗A繑?shù)據(jù):壓縮、索引和查詢(第2版)》理論和實(shí)踐并重,深入淺出地給出了海量信息數(shù)據(jù)處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在于不僅僅滿足信息檢索理論學(xué)習(xí)的需要,更重要的是給出了實(shí)踐中可能面對(duì)的各種問(wèn)題及其解決方法。《管理海量數(shù)據(jù):壓縮、索引和查詢(第2版)(經(jīng)典再現(xiàn)全新修訂版)》作為斯坦福大學(xué)信息檢索課程的教材之一,具有一定的閱讀難度,主要面向信息檢索專業(yè)高年級(jí)本科生和研究生、搜索引擎業(yè)界的專業(yè)技術(shù)人員和從事海量數(shù)據(jù)處理相關(guān)專業(yè)的技術(shù)人員。

作者簡(jiǎn)介

  作者是南半球院校當(dāng)中最權(quán)威最重要的專家,本書當(dāng)中闡釋了他們多項(xiàng)創(chuàng)新性研究。他們寫過(guò)8本書,300多篇研究論文 ,也在許多國(guó)際性程序協(xié)會(huì)當(dāng)中做過(guò)研究,包括 IEEE數(shù)據(jù)壓縮協(xié)會(huì),ACM數(shù)字圖書館,以及信息檢索協(xié)會(huì)。譯者楊青,畢業(yè)于清華大學(xué)計(jì)算機(jī)系,原人民搜索技術(shù)總監(jiān),參與網(wǎng)頁(yè)搜索、新聞搜索等多個(gè)產(chǎn)品項(xiàng)目的研發(fā)工作,在搜索引擎上面有多年的實(shí)踐經(jīng)驗(yàn)。梁斌,清華大學(xué)計(jì)算機(jī)系博士研究生在讀,在搜狗和金山軟件等多個(gè)公司從事搜索引擎和內(nèi)容推薦的研發(fā)工作,曾編著《走進(jìn)搜索引擎》。

圖書目錄

第1章 概覽
1.1 文檔數(shù)據(jù)庫(kù)(document databases)
1.2 壓縮(compression)
1.3 索引(indexes)
1.4 文檔索引
1.5 MG海量文檔管理系統(tǒng)
第2章 文本壓縮
2.1 模型
2.2 自適應(yīng)模型
2.3 哈夫曼編碼
范式哈夫曼編碼
計(jì)算哈夫曼編碼長(zhǎng)度
總結(jié)
2.4 算術(shù)編碼
算術(shù)編碼是如何工作的
實(shí)現(xiàn)算術(shù)編碼
保存累積計(jì)數(shù)
2.5 符號(hào)模型
部分匹配預(yù)測(cè)
塊排序壓縮
動(dòng)態(tài)馬爾科夫壓縮
基于單字的壓縮
2.6 字典模型
自適應(yīng)字典編碼器的LZ77系列
LZ77的Gzip變體
自適應(yīng)字典編碼器的LZ78系列
LZ78的LZW變體
2.7 同步
創(chuàng)造同步點(diǎn)
自同步編碼
2.8 性能比較
壓縮性能
壓縮速度
其他性能方面的考慮
第3章 索引
3.1 樣本文檔集合
3.2 倒排文件索引
3.3 壓縮倒排文件
無(wú)參模型(Nonparameterized models)
全局貝努里模型
全局觀測(cè)頻率模型(Global observed frequency model)
局部貝努里模型(Local Bernoulli model)
有偏貝努里模型(Skewed Bernoulli model)
局部雙曲模型(Local hyperbolic model)
局部觀測(cè)頻率模型(Local observed frequency model)
上下文相關(guān)壓縮(Context-sensitive compression)
3.4 索引壓縮方法的效果
3.5 簽名文件和位圖
簽名文件
位片簽名文件(Bitsliced signature files)
簽名文件分析
位圖
簽名文件和位圖的壓縮
3.6 索引方法的比較
3.7 大小寫折疊、詞根化和停用詞
大小寫折疊
詞根化
影響索引長(zhǎng)度的因素
停用詞(stop word)
第4章 查詢
4.1 訪問(wèn)字典的方法
訪問(wèn)數(shù)據(jù)結(jié)構(gòu)
前端編碼(Front coding)
最小完美哈希函數(shù)
完美哈希函數(shù)的設(shè)計(jì)
基于磁盤的字典存儲(chǔ)
4.2 部分指定的查詢術(shù)語(yǔ)
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循環(huán)字典(Rotated lexicon)
4.3 布爾查詢(BOOLEAN QUERY)
合取查詢(conjunctive query)
術(shù)語(yǔ)處理順序
隨機(jī)訪問(wèn)和快速查找
分塊倒排索引
非合取查詢(Nonconjunctive Query)
4.4 信息檢索和排名
坐標(biāo)匹配(Coordinate matching)
內(nèi)積相似度
向量空間模型
4.5 檢索效果評(píng)價(jià)
召回率和精確率
召回率精確率曲線
TREC項(xiàng)目
萬(wàn)維網(wǎng)搜索(World Wide Web Searching)
其他有效性評(píng)價(jià)方法
4.6 余弦法實(shí)現(xiàn)
文檔內(nèi)頻率
余弦值的計(jì)算方法
文檔權(quán)重所需的內(nèi)存
累加器內(nèi)存
快速查詢處理
按頻率排序的索引
排序
4.7 交互式檢索
相關(guān)性反饋
概率模型
4.8 分布式檢索
第5章 索引構(gòu)造
計(jì)算模型
索引構(gòu)造方法概覽
5.1 基于內(nèi)存的倒排
5.2 基于排序的倒排
5.3 索引壓縮
壓縮臨時(shí)文件
多路歸并
原地多路歸并
5.4 壓縮的內(nèi)存內(nèi)倒排
大內(nèi)存倒排
基于字典的切分(Lexicon-based partitioning)
基于文本的切分
5.5 倒排方法的比較
5.6 構(gòu)造簽名文件和位圖
5.7 動(dòng)態(tài)文檔集合
擴(kuò)展文本(Expanding the text)
索引擴(kuò)展(Expanding the index)
第6章 圖像壓縮
6.1 圖像類型
6.2 CCITT二值圖像的傳真標(biāo)準(zhǔn)
6.3 二值圖像的上下文壓縮
上下文模型
二值上下文模型
“超視力”壓縮(Clairvoyant compression)
6.4 JBIG:二值圖像標(biāo)準(zhǔn)
分辨率降低(Resolution reduction)
模板和自適應(yīng)模板
編碼及概率估計(jì)
6.5 連續(xù)色調(diào)圖像的無(wú)損壓縮
GIF和PNG無(wú)損圖像格式
FELICS:快速、有效且無(wú)損圖像壓縮系統(tǒng)
CALIC:基于上下文自適應(yīng)無(wú)損圖像解碼器
JPEG-LS:無(wú)損圖像壓縮新標(biāo)準(zhǔn)
6.6 JPEG:連續(xù)色調(diào)圖像標(biāo)準(zhǔn)
6.7 圖像的遞增傳輸
金字塔編碼
金字塔編碼的壓縮
中位數(shù)聚合
誤差模型
6.8 圖像壓縮技術(shù)總結(jié)
第7章 文本圖像
7.1 文本圖像壓縮概念
7.2 有損壓縮和無(wú)損壓縮
7.3 標(biāo)記抽取
跟蹤標(biāo)記的邊界
清除圖像中的標(biāo)記
按自然閱讀順序排序標(biāo)記
7.4 模板匹配
全局模板匹配
局部模板匹配
基于壓縮的模板匹配
庫(kù)模板篩法
評(píng)價(jià)模板匹配方法
7.5 從標(biāo)記到符號(hào)
庫(kù)構(gòu)造
符號(hào)及其偏移量
7.6 編碼文本圖像分量
庫(kù)
符號(hào)數(shù)
符號(hào)偏移
原始圖像
7.7 效果:有損和無(wú)損的模式
7.8 系統(tǒng)考慮
7.9 JBIG2:圖像文本壓縮標(biāo)準(zhǔn)
第8章 混合圖文
8.1 方向
用Hough變換檢測(cè)直線
左側(cè)留白查找
投影輪廓
從斜率直方圖到文本譜
8.2 切分
自下向上的切分方法
自上向下的組合的切分方法
基于標(biāo)記的切分
使用短文本字符串切分
利用文本句法切分
8.3 分類
第9章 系統(tǒng)實(shí)現(xiàn)
9.1 文本壓縮
選擇壓縮模型
選擇編碼器
哈夫曼編碼的限制
長(zhǎng)度限制的編碼
9.2 文本壓縮效果
壓縮有效性
解壓速度
解壓內(nèi)存
動(dòng)態(tài)文檔集合
9.3 圖像和文本圖像
壓縮二值圖像
壓縮灰度圖像
壓縮文本圖像
9.4 構(gòu)造索引
9.5 索引壓縮
9.6 查詢處理
布爾查詢
排名查詢
附錄A mg系統(tǒng)指南
A.1 安裝MG系統(tǒng)
A.2 一個(gè)簡(jiǎn)單的存儲(chǔ)和檢索例子
A.3 數(shù)據(jù)庫(kù)創(chuàng)建
A.4 對(duì)一個(gè)索引文檔集合進(jìn)行查詢
A.5 非文本文件
A.6 圖像壓縮程序
附錄B 新西蘭圖書館
B.1 什么是NZDL
計(jì)算機(jī)科學(xué)報(bào)告(Computer Science Technical Reports)
其他文檔集合
文檔集合的發(fā)展
音頻集合(audio collections)
音調(diào)索引(Melody Index)
B.2 NZDL是如何工作的
原始文檔
搜索和索引
B.3 影響
參考文獻(xiàn)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)