注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)程序設(shè)計(jì)綜合大規(guī)模并行處理器編程實(shí)戰(zhàn)(第2版)

大規(guī)模并行處理器編程實(shí)戰(zhàn)(第2版)

大規(guī)模并行處理器編程實(shí)戰(zhàn)(第2版)

定 價(jià):¥59.80

作 者: (美)柯克(David B.Kirk),(美)胡(Wen-mei W.Hwu)著 趙開(kāi)勇,汪朝輝,程亦超 譯
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 編程語(yǔ)言與程序設(shè)計(jì) 計(jì)算機(jī)與互聯(lián)網(wǎng)

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302342724 出版時(shí)間: 2013-11-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 412 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  在上一版十分暢銷(xiāo)的基礎(chǔ)上,《安全技術(shù)經(jīng)典譯叢:大規(guī)模并行處理器編程實(shí)戰(zhàn)(第2版)》全面更新了并行編程方法和技術(shù)的內(nèi)容。《安全技術(shù)經(jīng)典譯叢:大規(guī)模并行處理器編程實(shí)戰(zhàn)(第2版)》旨在綜述并行編程,展示了專(zhuān)業(yè)人士和學(xué)生都可以使用的一種編程思維,以此來(lái)指導(dǎo)并行編程和優(yōu)化應(yīng)用程序,從而使性能得到顯著提升?!栋踩夹g(shù)經(jīng)典譯叢:大規(guī)模并行處理器編程實(shí)戰(zhàn)(第2版)》作者David B. Kirk和Wen-mei W. Hwu所采用的簡(jiǎn)潔、直觀(guān)、實(shí)用的方法基于他們多年的并行計(jì)算課程實(shí)踐。《安全技術(shù)經(jīng)典譯叢:大規(guī)模并行處理器編程實(shí)戰(zhàn)(第2版)》新增的內(nèi)容:并行模式:包括多章并行模式內(nèi)容,是并行編程應(yīng)用中使用的很多并行算法的基礎(chǔ)。CUDA Fortran:新增的這一章介紹CUDA Fortran編程如何使用CUDA架構(gòu),其中講解了幾個(gè)CUDA Fortran編程的實(shí)用示例。OpenACC:新增的這一章介紹一個(gè)開(kāi)放的并行編程預(yù)編譯指令,以實(shí)現(xiàn)并行編程簡(jiǎn)潔化的目的。Thrust:Thrust庫(kù)是CUDA C/C++的抽象層函數(shù)庫(kù)。新增的這一章介紹了如何通過(guò)使用Thrust并行編程模板,對(duì)源程序只做簡(jiǎn)單的修改就可以使程序?qū)崿F(xiàn)高性能。C++ AMP:簡(jiǎn)單介紹了C++ AMP,它是由微軟提出來(lái)的Windows環(huán)境下一套簡(jiǎn)化大規(guī)模并行處理器的編程接口。NVIDIA的Kepler架構(gòu):探討NVIDIA的高性能、低功耗的GPU架構(gòu)的編程特性。

作者簡(jiǎn)介

  David B. Kirk院士,美國(guó)國(guó)家工程院院士,NVIDIA院士、前首席科學(xué)家,也是CUDA技術(shù)的創(chuàng)始人之一,2002年曾榮獲ACM SIGGRAPH計(jì)算機(jī)圖形成就獎(jiǎng)。他擁有麻省理工學(xué)院的機(jī)械工程學(xué)學(xué)士和碩士學(xué)位,加州理工學(xué)院的計(jì)算機(jī)科學(xué)博士學(xué)位。Kirk是50項(xiàng)與圖形芯片設(shè)計(jì)相關(guān)的專(zhuān)利和專(zhuān)利申請(qǐng)的發(fā)明者,發(fā)表了50多篇關(guān)于圖形處理技術(shù)的論文,是可視化計(jì)算技術(shù)方面的權(quán)威。胡文美(Wen-mei W. Hwu)教授,擁有美國(guó)加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)博士學(xué)位,擔(dān)任美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)協(xié)調(diào)科學(xué)實(shí)驗(yàn)室電氣與計(jì)算機(jī)工程AMD創(chuàng)始人Jerry Sanders講席教授(Walter J. SandersⅢAdvanced Micro Devices Endowed Chair)。胡文美教授還是IEEE(國(guó)際電氣電子工程師學(xué)會(huì))院士,ACM(美國(guó)計(jì)算機(jī)學(xué)會(huì))院士。

圖書(shū)目錄

第1章 引言 
1.1 異構(gòu)并行計(jì)算 
1.2 現(xiàn)代GPU的體系結(jié)構(gòu) 
1.3 為什么需要更高的速度和并行化 
1.4 應(yīng)用程序的加速 
1.5 并行編程語(yǔ)言和模型 
1.6 本書(shū)的總體目標(biāo) 
1.7 本書(shū)的組織結(jié)構(gòu) 
參考文獻(xiàn) 
第2章 GPU計(jì)算的發(fā)展歷程 
2.1 圖形流水線(xiàn)的發(fā)展 
2.1.1 固定功能的圖形流水線(xiàn)時(shí)代
2.1.2 可編程實(shí)時(shí)圖形流水線(xiàn)的發(fā)展 
2.1.3 圖形與計(jì)算結(jié)合的處理器 
2.2 GPGPU:一個(gè)中間步驟 
2.3 GPU計(jì)算
2.3.1 可擴(kuò)展的GPU
2.3.2 發(fā)展近況 
2.3.3 未來(lái)發(fā)展趨勢(shì) 
參考文獻(xiàn)與課外閱讀 
第3章 CUDA簡(jiǎn)介 
3.1 數(shù)據(jù)并行性 
3.2 CUDA的程序結(jié)構(gòu) 
3.3 向量加法kernel函數(shù) 
3.4 設(shè)備全局存儲(chǔ)器與數(shù)據(jù)傳輸 
3.6 小結(jié)
3.6.1 函數(shù)聲明
3.6.2 啟動(dòng)kernel函數(shù) 
3.6.3 預(yù)定義變量
3.6.4 運(yùn)行時(shí)API 
3.7 習(xí)題
參考文獻(xiàn) 
第4章 數(shù)據(jù)并行執(zhí)行模型 
4.1 CUDA的線(xiàn)程組織 
4.2 線(xiàn)程與多維數(shù)據(jù)的映射
4.3 矩陣乘法——一個(gè)更加復(fù)雜的kernel函數(shù) 
4.4 線(xiàn)程同步和透明的可擴(kuò)展性
4.5 線(xiàn)程塊的資源分配 
4.6 查詢(xún)?cè)O(shè)備屬性 
4.7 線(xiàn)程調(diào)度和容許時(shí)延
4.8 小結(jié) 
4.9 習(xí)題 
第5章 CUDA存儲(chǔ)器 
5.1 存儲(chǔ)器訪(fǎng)問(wèn)效率的重要性 
5.2 CUDA設(shè)備存儲(chǔ)器的類(lèi)型
5.3 減少全局存儲(chǔ)器流量的一種策略 
5.4 分塊矩陣乘法的kernel函數(shù) 
5.5 存儲(chǔ)器——限制并行性的一個(gè)因素
5.6 小結(jié)
5.7 習(xí)題 
第6章 性能優(yōu)化
6.1 WARP和線(xiàn)程執(zhí)行 
6.2 全局存儲(chǔ)器的帶寬 
6.3 執(zhí)行資源的動(dòng)態(tài)劃分 
6.4 指令混合和線(xiàn)程粒度 
6.5 小結(jié)
6.6 習(xí)題 
參考文獻(xiàn) 
第7章 浮點(diǎn)運(yùn)算 
7.1 浮點(diǎn)格
7.1.1 M的規(guī)范化表示 
7.1.2 E的余碼表示
7.2 能表示的數(shù)
7.3 特殊的位模式與IEEE格式中的精度 
7.4 算術(shù)運(yùn)算的準(zhǔn)確度和舍入 
7.5 算法的優(yōu)化 
7.6 數(shù)值穩(wěn)定性 
7.7 小結(jié) 
7.8 習(xí)題 
參考文獻(xiàn) 
第8章 并行模式:卷積 
8.1 背景
8.2 一個(gè)基本算法:一維并行卷積 
8.3 常數(shù)存儲(chǔ)器和高速緩存
8.4 使用光環(huán)元素的分塊一維卷積 
8.5 一個(gè)更簡(jiǎn)單的分塊一維卷積——通用高速緩存 
8.6 小結(jié)
8.7 習(xí)題 
第9章 并行模式:前綴和 
9.1 背景 
9.2 簡(jiǎn)單并行掃描 
9.3 考慮工作效率 
9.4 工作高效的并行掃描 
9.5 任意輸入長(zhǎng)度的并行掃描 
9.6 小結(jié) 
9.7 習(xí)題 
參考文獻(xiàn) 
第10章 并行模式:稀疏矩陣-向量乘法
10.1 背景 
10.2 使用CSR格式的并行SpMV 
10.3 填充與轉(zhuǎn)置 
10.4 用混合方法來(lái)控制填充
10.5 通過(guò)排序和劃分來(lái)規(guī)則化 
10.6 小結(jié)
10.7 習(xí)題 
參考文獻(xiàn) 
第11章 應(yīng)用案例研究:高級(jí)MRI重構(gòu) 
11.1 應(yīng)用背景 
11.2 迭代重構(gòu) 
11.3 計(jì)算FHD 
11.4 最終評(píng)估 
11.5 習(xí)題 
參考文獻(xiàn)
第12章 應(yīng)用案例研究:分子可視化和分析 
12.1 應(yīng)用背景 
12.2 kernel函數(shù)簡(jiǎn)單的實(shí)現(xiàn)方案
12.3 線(xiàn)程粒度調(diào)節(jié) 
12.4 存儲(chǔ)器合并 
12.5 小結(jié) 
12.6 習(xí)題 
參考文獻(xiàn) 
第13章 并行編程和計(jì)算思想 
13.1 并行計(jì)算的目標(biāo) 
13.2 問(wèn)題分解 
13.3 算法選擇 
13.4 計(jì)算思想 
13.5 小結(jié) 
13.6 習(xí)題 
參考文獻(xiàn) 
第14章 OpenCL簡(jiǎn)介 
14.1 背景 
14.2 數(shù)據(jù)并行性模型 
14.3 設(shè)備的體系結(jié)構(gòu) 
14.4 kernel函數(shù) 
14.5 設(shè)備管理和啟動(dòng)kernel 
14.6 OpenCL中的靜電勢(shì)圖譜 
14.7 小結(jié) 
14.8 習(xí)題 
參考文獻(xiàn) 
第15章 OpenACC并行編程 
15.1 OpenACC與CUDA C的比較 
15.2 執(zhí)行模型 
15.3 存儲(chǔ)器模型 
15.4 基本的OpenACC程序 
15.4.1 并行構(gòu)造 
15.4.2 循環(huán)構(gòu)造 
15.4.3 kernels構(gòu)造 
15.4.4 數(shù)據(jù)管理 
15.4.5 數(shù)據(jù)構(gòu)造 
15.4.6 異步計(jì)算和數(shù)據(jù)傳輸 
15.5 OpenACC的發(fā)展方向 
15.6 習(xí)題
第16章 Thrust:一個(gè)面向效率的CUDA編程庫(kù) 
16.1 背景簡(jiǎn)介 
16.2 動(dòng)機(jī) 
16.3 Thrust的基本特性
16.3.1 迭代器和內(nèi)存空間 
16.3.2 互操作性 
16.4 泛型編程 
16.5 抽象的益處 
16.5.1 編程效率 
16.5.2 魯棒性 
16.5.3 真實(shí)性能 
16.6 最佳范例 
16.6.1 融合 
16.6.2 數(shù)組結(jié)構(gòu)體
16.6.3 隱式范圍 
16.7 習(xí)題 
參考文獻(xiàn) 298
第17章 CUDA FORTRAN 
17.1 CUDA FORTRAN和CUDA C的區(qū)別 
17.2 第一個(gè)CUDA FORTRAN程序
17.3 CUDA FORTRAN中的多維數(shù)組 
17.4 用通用接口重載主機(jī)/設(shè)備端例程 
17.5 通過(guò)iso_c_binding調(diào)用CUDA C 
17.6 kernel循環(huán)指令和歸約操作
17.7 動(dòng)態(tài)共享存儲(chǔ)器 
17.8 異步數(shù)據(jù)傳輸 
17.9 編譯和性能剖析 
17.10 在CUDA FORTRAN中調(diào)用Thrust 
17.11 習(xí)題 
第18章 C++ AMP簡(jiǎn)介 
18.1 C++ AMP核心特性 
18.2 C++ AMP執(zhí)行模式詳解 
18.2.1 顯式和隱式的數(shù)據(jù)復(fù)制
18.2.2 異步操作 
18.2.3 本節(jié)小結(jié) 
18.3 加速器管理 
18.4 分塊執(zhí)行
18.5 C++ AMP圖形特性 
18.6 小結(jié) 
18.7 習(xí)題 
第19章 異構(gòu)集群編程 
19.1 背景簡(jiǎn)介 
19.2 運(yùn)行示例 
19.3 MPI基礎(chǔ) 
19.4 MPI點(diǎn)對(duì)點(diǎn)通信模型 
19.5 重疊計(jì)算和通信 
19.6 MPI集合通信模型 
19.7 小結(jié) 
19.8 習(xí)題 
參考文獻(xiàn) 
第20章 CUDA動(dòng)態(tài)并行 
20.1 背景 
20.2 動(dòng)態(tài)并行簡(jiǎn)介 
20.3 重要細(xì)節(jié)
20.3.1 啟動(dòng)環(huán)境變量設(shè)置 
20.3.2 API錯(cuò)誤和啟動(dòng)失敗
20.3.3 事件 
20.3.4 流 
20.3.5 同步范圍
20.4 內(nèi)存可見(jiàn)性
20.4.1 全局內(nèi)存 
20.4.2 零拷貝內(nèi)存
20.4.3 常量?jī)?nèi)存 
20.4.4 局部?jī)?nèi)存 
20.4.5 共享內(nèi)存 
20.4.6 紋理內(nèi)存 
20.5 一個(gè)簡(jiǎn)單示例 
20.6 運(yùn)行時(shí)限制 
20.6.1 內(nèi)存占用 
20.6.2 嵌套深度 
20.6.3 內(nèi)存分配和生存周期 
20.6.4 ECC錯(cuò)誤 
20.6.5 流 
20.6.6 事件 
20.6.7 啟動(dòng)池 
20.7 一個(gè)更復(fù)雜的示例 
20.7.1 線(xiàn)性貝塞爾曲線(xiàn) 
20.7.2 二次貝塞爾曲線(xiàn) 
20.7.3 貝塞爾曲線(xiàn)計(jì)算(非動(dòng)態(tài)并行版本) 
20.7.4 貝塞爾曲線(xiàn)計(jì)算(使用動(dòng)態(tài)并行) 
20.8 小結(jié) 
參考文獻(xiàn) 
第21章 結(jié)論與展望 
21.1 重點(diǎn)回顧 
21.2 存儲(chǔ)器模型的演變
21.2.1 大型虛擬和物理地址空間 
21.2.2 統(tǒng)一的設(shè)備存儲(chǔ)空間
21.2.3 可配置的緩存和暫時(shí)存儲(chǔ)器 
21.2.4 提高原子操作的速度
21.2.5 提高全局內(nèi)存的訪(fǎng)問(wèn)速度 
21.3 kernel函數(shù)執(zhí)行控制過(guò)程的演變 
21.3.1 kernel函數(shù)內(nèi)部的函數(shù)調(diào)用 
21.3.2 kernel函數(shù)中的異常處理 
21.3.3 多個(gè)kernel函數(shù)的同步執(zhí)行
21.3.4 可中斷的kernel函數(shù)
21.4 內(nèi)核的性能 
21.4.1 雙精度的速度 
21.4.2 更好的控制流效率 
21.5 編程環(huán)境 
21.6 美好前景 
參考文獻(xiàn) 
附錄A 矩陣乘法主機(jī)版的源代碼 
附錄B GPU的計(jì)算能力 

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)