大規(guī)模并行處理器編程實戰(zhàn)

定　價：￥39.00

作　者：	（美）科克，胡文美著，陳曙輝，熊淑華譯
出版社：	清華大學(xué)出版社
叢編項：
標(biāo)　簽：	程序設(shè)計

購買這本書可以去

ISBN：	9787302237006	出版時間：	2010-09-01	包裝：	平裝
開本：	16開	頁數(shù)：	211	字?jǐn)?shù)：

內(nèi)容簡介

　　《大規(guī)模并行處理器編程實戰(zhàn)》介紹了學(xué)生和專業(yè)人員都適合的并行編程與gpu體系結(jié)構(gòu)的基本概念，詳細(xì)剖析了編寫并行程序所需的各種技術(shù)，用案例研究說明了并行程序設(shè)計的整個開發(fā)過程，即從計算思想開始，直到最終實現(xiàn)高效可行的并行程序?！洞笠?guī)模并行處理器編程實戰(zhàn)》特色：介紹了計算思想，可以使讀者能夠在實現(xiàn)高性能并行計算的基礎(chǔ)上來考慮和解決問題。如何使用cuda（統(tǒng)一計算設(shè)備架構(gòu)），cuda是nvidia公司專門為大規(guī)模并行環(huán)境創(chuàng)建的軟件開發(fā)工具。如何使用cuda編程模型和opencl同時實現(xiàn)高性能和高可靠性。

作者簡介

　　科克（David B. Kirk），博士：美國國家工程院院士，NVIDIA公司首席科學(xué)家，擁有麻省琿工學(xué)院的機械工程學(xué)學(xué)士和碩十學(xué)位，加州理工學(xué)院的計算機科學(xué)博士學(xué)位。Kirk博士是50項與圖形芯片設(shè)計相關(guān)的專利和專利申請的發(fā)明者，發(fā)表了50多篇關(guān)于圖形處理技術(shù)的論文，是可視化計算技術(shù)方面的權(quán)威。胡文美（Wen－mei W. Hwu），教授：擁有美國加州大學(xué)伯克利分校計算機科學(xué)博士學(xué)位，擔(dān)任伊利諾伊大學(xué)厄巴納一香檳分校協(xié)調(diào)科學(xué)實驗室的電氣和計算機工程主席，領(lǐng)導(dǎo)IMPACT研究中心并負(fù)責(zé)Open IMPACT項目，該項目為計算機行業(yè)提供編譯器和計算機架構(gòu)新技術(shù)。Hwu教授還擔(dān)任通用并行計算研究中心聯(lián)合主任，是全球首個ACUDA卓越中心首席研究員。

圖書目錄

第1章引言 1
1.1 gpu與并行計算機 2
1.2 現(xiàn)代gpu的體系結(jié)構(gòu) 7
1.3 為什么需要更高的速度和并行化 8
1.4 并行編程語言與模型 11
1.5 綜合目標(biāo) 12
1.6 本書的組織結(jié)構(gòu) 13
第2章 gpu計算的發(fā)展歷程 17
2.1 圖形流水線的發(fā)展 18
2.1.1 固定功能的圖形流水線時代 18
2.1.2 可編程實時圖形流水線的發(fā)展 21
2.1.3 圖形與計算結(jié)合的處理器 23
2.1.4 gpu：一個中間步驟 25
2.2 gpu計算 26
2.2.1 可擴展的gpu 27
2.2.2 發(fā)展近況 27
2.3 未來發(fā)展趨勢 28
第3章 cuda簡介 31
3.1 數(shù)據(jù)并行性 32
3.2 cuda的程序結(jié)構(gòu) 33
.3.3 矩陣乘法示例 34
3.4 設(shè)備存儲器與數(shù)據(jù)傳輸 37
3.5 kernel函數(shù)與線程 41
3.6 小結(jié) 45
3.6.1 函數(shù)聲明 45
3.6.2 啟動kernel函數(shù) 46
3.6.3 預(yù)定義變量 46
3.6.4 運行時api 46
第4章 cuda線程 49
4.1 cuda線程組織結(jié)構(gòu) 50
4.2 使用blockidx和threadidx 54
4.3 同步與透明可擴展性 58
4.4 線程分配 59
4.5 線程調(diào)度和容許延時 60
4.6 小結(jié) 62
4.7 習(xí)題 63
第5章 cuda存儲器模型 65
5.1 存儲器訪問效率的重要性 66
5.2 cuda設(shè)備存儲器的類型 67
5.3 減少全局存儲器流量的策略 70
5.4 存儲器——限制并行性的一個因素 76
5.5 小結(jié) 77
5.6 習(xí)題 78
第6章性能優(yōu)化 79
6.1 更多關(guān)于線程執(zhí)行的問題 80
6.2 全局存儲器的帶寬 86
6.3 sm資源的動態(tài)劃分 93
6.4 數(shù)據(jù)預(yù)取 95
6.5 指令混合 97
6.6 線程粒度 98
6.7 可度量的性能和小結(jié) 99
6.8 習(xí)題 100
第7章浮點運算 105
7.1 浮點格式 106
7.1.1 m的規(guī)范化表示 106
7.1.2 e的余碼表示 107
7.2 能表示的數(shù) 109
7.3 特殊的位模式與精度 113
7.4 算術(shù)運算的準(zhǔn)確度和舍入 114
7.5 算法的優(yōu)化 114
7.6 小結(jié) 115
7.7 習(xí)題 116
第8章應(yīng)用案例研究：高級mri重構(gòu) 117
8.1 應(yīng)用背景 118
8.2 迭代重構(gòu) 120
8.3 計算fhd 123
8.4 最終評估 139
8.5 習(xí)題 142
第9章應(yīng)用案例研究：分子可視化和分析 143
9.1 應(yīng)用背景 144
9.2 kernel函數(shù)簡單的實現(xiàn)方案 145
9.3 指令執(zhí)行效率 149
9.4 存儲器合并 151
9.5 附加性能比較 154
9.6 采用多gpu 156
9.7 習(xí)題 157
第10章并行編程和計算思想 159
10.1 并行編程的目標(biāo) 160
10.2 問題分解 161
10.3 算法選擇 163
10.4 計算思想 168
10.5 習(xí)題 169
第11章 opencl簡介 171
11.1 背景 172
11.2 數(shù)據(jù)并行性模型 173
11.3 設(shè)備的體系結(jié)構(gòu) 175
11.4 kernel函數(shù) 176
11.5 設(shè)備管理和啟動kernel 177
11.6 opencl中的靜電勢圖譜 179
11.7 小結(jié) 183
11.8 習(xí)題 184
第12章結(jié)論與展望 185
12.1 重申目標(biāo) 186
12.2 存儲器體系結(jié)構(gòu)的演變 187
12.2.1 大型虛擬和物理地址空間 187
12.2.2 統(tǒng)一的設(shè)備存儲空間 188
12.2.3 可配置的緩存和暫時存儲器 188
12.2.4 提高原子操作的速度 189
12.2.5 提高全局存儲器的訪問速度 189
12.3 kernel函數(shù)執(zhí)行控制過程的演變 190
12.3.1 kernel函數(shù)內(nèi)部的函數(shù)調(diào)用 190
12.3.2 kernel函數(shù)中的異常處理 190
12.3.3 多個kernel函數(shù)的同步執(zhí)行 191
12.3.4 可中斷的kernel函數(shù) 191
12.4 內(nèi)核的性能 191
12.4.1 雙精度的速度 191
12.4.2 提高控制流的效率 192
12.5 編程環(huán)境 192
12.6 美好前景 193
附錄a 矩陣乘法主機版的源代碼 195
附錄b gpu的計算能力 207