注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)網(wǎng)絡(luò)與數(shù)據(jù)通信網(wǎng)絡(luò)服務(wù)科學(xué)計算與企業(yè)級應(yīng)用的并行優(yōu)化

科學(xué)計算與企業(yè)級應(yīng)用的并行優(yōu)化

科學(xué)計算與企業(yè)級應(yīng)用的并行優(yōu)化

定 價:¥49.00

作 者: 劉文志
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 計算機/網(wǎng)絡(luò) 企業(yè)軟件開發(fā)與實施

ISBN: 9787111506287 出版時間: 2015-07-01 包裝:
開本: 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書系統(tǒng)、深入講解了科學(xué)計算及企業(yè)級應(yīng)用的并行優(yōu)化方法與最佳實踐。第1章介紹了常見的并行編程基于的多核/眾核向量處理器架構(gòu)。第2章介紹了如何在X86、ARM和GPU上優(yōu)化常見的線性代數(shù)運算。第3章介紹了如何在X86和GPU處理器上優(yōu)化偏微分方程的求解。第4章介紹了如何在X86處理器和GPU上優(yōu)化常見的分子動力學(xué)算法。第5章詳細介紹了如何在X86、ARM和GPU上優(yōu)化常見的機器學(xué)習(xí)算法。

作者簡介

暫缺《科學(xué)計算與企業(yè)級應(yīng)用的并行優(yōu)化》作者簡介

圖書目錄


前言
第1章 多核向量處理器架構(gòu) 1
1.1 眾核系統(tǒng)結(jié)構(gòu) 2
1.2 眾核架構(gòu)的一致性 3
1.3 多核向量處理器架構(gòu) 5
1.3.1 Intel Haswell CPU架構(gòu) 6
1.3.2 ARM A15多核向量處理器架構(gòu) 10
1.3.3 AMD GCN GPU架構(gòu) 12
1.3.4 NVIDIA Kepler和Maxwell GPU架構(gòu) 15
1.4 Intel MIC架構(gòu) 21
1.4.1 整體架構(gòu) 22
1.4.2 計算單元 22
1.4.3 存儲器單元 24
1.4.4 MIC架構(gòu)上一些容易成為瓶頸的設(shè)計 25
1.5 OpenCL程序在多核向量處理器上的映射 26
1.5.1 OpenCL程序在多核向量CPU上的映射 26
1.5.2 OpenCL程序在NVIDIA GPU上的映射 28
1.5.3 OpenCL程序在AMD GCN上的映射 34
1.6 OpenCL程序在各眾核硬件上執(zhí)行的區(qū)別 39
1.7 眾核編程模式 42
1.8 眾核性能優(yōu)化 42
1.9 MIC和GPU編程比較 43
1.10 本章小結(jié) 43
第2章 常見線性代數(shù)算法優(yōu)化 44
2.1 稀疏矩陣與向量乘法 44
2.1.1 稀疏矩陣的存儲格式 45
2.1.2 CSR 格式稀疏矩陣與向量乘法 46
2.1.3 ELL格式稀疏矩陣與向量乘 56
2.2 對稱矩陣與向量乘積 58
2.2.1 串行代碼 59
2.2.2 向量化對稱矩陣與向量乘積 60
2.2.3 OpenMP 并行化 60
2.2.4 CUDA 代碼 60
2.3 三角線性方程組的解法 63
2.3.1 串行算法 64
2.3.2 串行算法優(yōu)化 65
2.3.3 AVX 優(yōu)化實現(xiàn) 65
2.3.4 NEON 優(yōu)化實現(xiàn) 66
2.3.5 如何提高并行度 67
2.3.6 CUDA 算法實現(xiàn) 68
2.4 矩陣乘法 71
2.4.1 AVX指令計算矩陣乘法 72
2.4.2 NEON指令計算矩陣乘法 75
2.4.3 GPU計算矩陣乘法 77
2.5 本章小結(jié) 81
第3章 優(yōu)化偏微分方程的數(shù)值解法 82
3.1 熱傳遞問題 83
3.1.1 C代碼及性能 84
3.1.2 OpenMP代碼及性能 85
3.1.3 OpenACC代碼及性能 87
3.1.4 CUDA代碼 88
3.2 簡單三維Stencil 91
3.2.1 串行實現(xiàn) 92
3.2.2 Stencil在X86處理器上實現(xiàn)的困境 93
3.2.3 CUDA實現(xiàn) 93
3.3 本章小結(jié) 96
第4章 優(yōu)化分子動力學(xué)算法 97
4.1 簡單搜索的實現(xiàn) 98
4.1.1 串行代碼 99
4.1.2 向量化實現(xiàn)分析 100
4.1.3 OpenMP實現(xiàn) 101
4.1.4 CUDA實現(xiàn) 102
4.2 范德華力計算 104
4.2.1 串行實現(xiàn) 104
4.2.2 向量化實現(xiàn)分析 105
4.2.3 OpenMP實現(xiàn) 106
4.2.4 CUDA實現(xiàn) 106
4.2.5 如何提高緩存的利用 108
4.3 鍵長伸縮力計算 108
4.3.1 串行實現(xiàn) 109
4.3.2 向量化實現(xiàn) 111
4.3.3 OpenMP實現(xiàn) 111
4.3.4 CUDA實現(xiàn) 114
4.4 徑向分布函數(shù)計算 116
4.4.1 串行實現(xiàn) 117
4.4.2 向量化實現(xiàn) 118
4.4.3 OpenMP實現(xiàn) 118
4.4.4 CUDA實現(xiàn) 121
4.5 本章小結(jié) 126
第5章 機器學(xué)習(xí)算法 127
5.1 kmeans算法 128
5.1.1 計算流程 128
5.1.2 計算元素所屬分類 129
5.1.3 更新分類中心 136
5.1.4 入口函數(shù) 140
5.2 KNN算法 142
5.2.1 計算步驟 142
5.2.2 相似度計算 143
5.2.3 求前k個相似度最大元素 144
5.2.4 統(tǒng)計所屬分類 145
5.3 二維卷積 146
5.3.1 X86實現(xiàn) 147
5.3.2 ARM實現(xiàn) 152
5.3.3 CUDA實現(xiàn) 155
5.4 四維卷積 162
5.4.1 X86實現(xiàn) 163
5.4.2 ARM 實現(xiàn) 169
5.4.3 CUDA實現(xiàn) 172
5.5 多GPU并行優(yōu)化深度學(xué)習(xí)軟件Caffe 176
5.5.1 為什么要使用多GPU并行Caffe 177
5.5.2 AlexNet示例 177
5.5.3 Caffe的主要計算流程 180
5.5.4 多GPU并行卷積神經(jīng)網(wǎng)絡(luò)的方式 185
5.5.5 多GPU并行Caffe實踐 187
5.6 本章小結(jié) 190

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號