注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件工程及軟件方法學(xué)大模型測(cè)試技術(shù)與實(shí)踐

大模型測(cè)試技術(shù)與實(shí)踐

大模型測(cè)試技術(shù)與實(shí)踐

定 價(jià):¥79.80

作 者: 陳磊
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787115652867 出版時(shí)間: 2025-02-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書共8章,第1章概述AI(Artificial Intelligence,人工智能)系統(tǒng),介紹機(jī)器學(xué)習(xí)的模型和分類,以及AI系統(tǒng)對(duì)測(cè)試工程師“提出”的新問(wèn)題等;第2章介紹數(shù)據(jù)的處理過(guò)程,以及數(shù)據(jù)的分組方法,詳細(xì)介紹依托測(cè)試數(shù)據(jù)的測(cè)試評(píng)價(jià)方法;第3章講解模型中超參數(shù)相關(guān)的概念,以及關(guān)于模型性能的評(píng)估指標(biāo),并介紹了較為主流的模型的基準(zhǔn)測(cè)試;第4章重點(diǎn)介紹AI系統(tǒng)的測(cè)試用例設(shè)計(jì)方法,以及傳統(tǒng)軟件測(cè)試方法在AI系統(tǒng)測(cè)試中的應(yīng)用,同時(shí)也介紹ChatGPT類應(yīng)用中SSE(Server-Sent Events)協(xié)議的接口測(cè)試和LangSmith在測(cè)試過(guò)程中的使用方法;第5章介紹AI道德的驗(yàn)證,這也是大模型涌現(xiàn)后絕大多數(shù)大模型專家所關(guān)注的內(nèi)容,該章重點(diǎn)介紹大模型的“道德”內(nèi)容及驗(yàn)證方法;第6章介紹提示詞工程和軟件測(cè)試,我們既要能夠測(cè)試大模型的應(yīng)用,也要能夠充分利用大模型完成測(cè)試工作,該章重點(diǎn)介紹通過(guò)提示詞工程利用大模型完成測(cè)試工作的方法;第7章介紹智能化測(cè)試,通過(guò)學(xué)習(xí)開源的智能化測(cè)試工具及實(shí)踐,讀者可親身體驗(yàn)智能化測(cè)試的好處;第8章介紹了從AI算法的智能化測(cè)試到大模型的智能化測(cè)試的轉(zhuǎn)變的知識(shí)。本書內(nèi)容通俗易懂、實(shí)例豐富,適合大模型開發(fā)者、軟件測(cè)試人員,以及大模型愛好者閱讀和學(xué)習(xí)。

作者簡(jiǎn)介

  陳磊,曾任職京東測(cè)試架構(gòu)師,阿里云有價(jià)值專家,華為云有價(jià)值專家,中國(guó)商業(yè)聯(lián)合會(huì)互聯(lián)網(wǎng)應(yīng)用工作委員會(huì)智庫(kù)專家,中關(guān)村智聯(lián)軟件服務(wù)業(yè)質(zhì)量創(chuàng)新聯(lián)盟軟件測(cè)試標(biāo)準(zhǔn)化技術(shù)委員會(huì)委員,中移聯(lián)合智庫(kù)專家, Asian Journal of Physical Education & Computer Science in Sports 編委會(huì)委員、 EXIN DOM ?!督涌跍y(cè)試方法論》、《持續(xù)測(cè)試》、《軟件研發(fā)效能權(quán)威指南》《京東質(zhì)量團(tuán)隊(duì)轉(zhuǎn)型實(shí)踐:從測(cè)試到測(cè)試開發(fā)的蛻變》、《軟件研發(fā)行業(yè)創(chuàng)新實(shí)戰(zhàn)案例解析》、《信創(chuàng)產(chǎn)品測(cè)試》作者,在極客時(shí)間開設(shè)過(guò)專欄“接口測(cè)試入門課”,在拉勾教育開設(shè)過(guò)“軟件測(cè)試第一課”,擔(dān)任過(guò)《軟件研發(fā)質(zhì)量管理體系白皮書》、《測(cè)試敏捷化白皮書》編委。具有多年質(zhì)量工程技術(shù)實(shí)踐經(jīng)驗(yàn),精通研發(fā)效能提升、手工測(cè)試團(tuán)隊(duì)自動(dòng)化測(cè)試轉(zhuǎn)型實(shí)踐、智能化測(cè)試等,公開發(fā)表學(xué)術(shù)論文近 30 篇,專利 20 余篇,并且是國(guó)內(nèi) TID 、 NCTS 、 MAD 、 MPD 、 TICA 、China DevOpsdays 、 QECon、GOPS、GTest等技術(shù)峰會(huì)的演講嘉賓或出品人。

圖書目錄

第 1 章 AI 系統(tǒng)概述 001
1.1 AI 簡(jiǎn)介 001
1.2 AI 系統(tǒng)的分類 003
1.3 機(jī)器學(xué)習(xí)的模型和分類 006
1.4 AIGC 是新趨勢(shì) 009
1.5 AI 系統(tǒng)對(duì)測(cè)試工程師提出的新問(wèn)題 010
1.5.1 測(cè)試徹底變成黑盒測(cè)試 010
1.5.2 數(shù)據(jù)集劃分困難 011
1.5.3 測(cè)試預(yù)期變得模糊 011
1.5.4 偏見識(shí)別要求高 012
1.5.5 多種可能性導(dǎo)致需要重定判斷標(biāo)準(zhǔn) 013
1.6 小結(jié) 014
第 2 章 數(shù)據(jù)和測(cè)試評(píng)價(jià) 015
2.1 數(shù)據(jù)收集和清洗 015
2.2 數(shù)據(jù)標(biāo)注 018
2.3 數(shù)據(jù)集劃分 021
2.3.1 留出法 023
2.3.2 自助法 023
2.3.3 交叉驗(yàn)證法 024
2.4 依托測(cè)試數(shù)據(jù)的測(cè)試評(píng)價(jià)方法 026
2.5 小結(jié) 029
第 3 章 AI 模型評(píng)估 031
3.1 大模型中常用參數(shù)的含義 031
3.2 模型的性能度量 035
3.3 大模型的基準(zhǔn)測(cè)試 038
3.3.1 面向自然語(yǔ)言處理能力的基準(zhǔn)測(cè)試:GLUE 和 SuperGLUE 038
3.3.2 模型知識(shí)獲取能力的基準(zhǔn)測(cè)試:MMLU、C-Eval 041
3.3.3 多指標(biāo)綜合基準(zhǔn)測(cè)試:HELM 043
002 大模型測(cè)試技術(shù)與實(shí)踐
3.4 小結(jié) 044
第 4 章 AI 系統(tǒng)測(cè)試的關(guān)鍵技術(shù)和實(shí)踐 045
4.1 功能測(cè)試和 AI 系統(tǒng)測(cè)試?yán)Ь?045
4.2 蛻變測(cè)試 047
4.3 傳統(tǒng)軟件的測(cè)試實(shí)踐仍然有效 053
4.3.1 測(cè)試用例設(shè)計(jì)方法同樣有效 053
4.3.2 分層測(cè)試還會(huì)發(fā)揮作用 058
4.3.3 兼容性測(cè)試設(shè)計(jì)方法更加重要 059
4.3.4 性能測(cè)試仍然有效 063
4.4 ChatGPT 類應(yīng)用中 SSE 協(xié)議的接口測(cè)試 067
4.4.1 SSE 協(xié)議簡(jiǎn)介 067
4.4.2 SSE 服務(wù)端代碼 069
4.4.3 SSE 客戶端代碼 070
4.4.4 SSE 接口的測(cè)試腳本 072
4.5 LangSmith 幫助測(cè)試大模型系統(tǒng)的能力和效果 072
4.6 AI 系統(tǒng)的測(cè)試評(píng)估方法 078
4.7 小結(jié) 079
4.7.1 代碼自動(dòng)化法 079
4.7.2 人工法 081
4.7.3 模型法 082
第 5 章 AI 道德的驗(yàn)證和實(shí)踐方法 085
5.1 AI 道德 085
5.1.1 歧視 089
5.1.2 偏見 091
5.1.3 道德判斷 095
5.1.4 透明度 097
5.1.5 可信度 100
5.1.6 權(quán)利謀取 101
5.2 AI 道德的好幫手:Model Card 102
5.3 AI 道德的其他驗(yàn)證和實(shí)踐方法 106
5.4 小結(jié) 109
第6章 提示詞工程和軟件測(cè)試 111
6.1 提示詞工程 111
6.1.1 提示詞 112
003 目 錄
6.1.2 提示詞的設(shè)計(jì)方法 116
6.2 大模型的思維鏈提示詞系統(tǒng)集成 127
6.2.1 通過(guò)思維鏈實(shí)現(xiàn)測(cè)試用例設(shè)計(jì)方法中的等價(jià)類劃分法 128
6.2.2 通過(guò)思維鏈實(shí)現(xiàn)測(cè)試用例設(shè)計(jì)方法中的因果圖法 138
6.3 通過(guò)LangChain封裝訊飛星火大模型的調(diào)用類 146
6.4 利用大模型生成數(shù)據(jù) 155
6.5 小結(jié) 157
第7章 智能化測(cè)試 159
7.1 智能化測(cè)試是發(fā)展的必然 159
7.2 分層測(cè)試中的智能化測(cè)試 163
7.2.1 開源的智能化單元測(cè)試 164
7.2.2 智能化接口測(cè)試設(shè)計(jì)思路 165
7.2.3 開源的智能化UI測(cè)試 171
7.3 小結(jié) 174
第8章 大模型下的智能化測(cè)試 175
8.1 大模型和測(cè)試技術(shù) 175
8.2 RAG 176
8.3 Embedding模型 178
8.4 SQLAlchemy實(shí)現(xiàn)數(shù)據(jù)庫(kù)的交互 179
8.4.1 使用filter_by()方法 179
8.4.2 使用filter()方法 180
8.4.3 使用join()方法 181
8.4.4 使用distinct()方法 182
8.4.5 使用order_by()方法 182
8.4.6 使用group_by()方法和having子句 182
8.5 通過(guò)LlamaIndex實(shí)現(xiàn)大模型SQL語(yǔ)句生成的3種方法詳解 183
8.5.1 查詢引擎 184
8.5.2 查詢時(shí)表提取 186
8.5.3 Retriever 187
8.6 LlamaIndex的NodeParser 188
8.6.1 文檔的NodeParser 189
8.6.2 HTML的NodeParser 190
8.6.3 JSON的NodeParser 190
8.6.4 Markdown的NodeParser 192
004 大模型測(cè)試技術(shù)與實(shí)踐
8.6.5 文檔分割 193
8.7 大模型云服務(wù)生成接口測(cè)試腳本實(shí)戰(zhàn) 195
8.7.1 大模型云服務(wù)的調(diào)用 195
8.7.2 接口測(cè)試腳本生成 201
8.7.3 接口測(cè)試的解決方案 207
8.8 本地大模型生成接口測(cè)試腳本實(shí)戰(zhàn) 212
8.8.1 Ollama在本地部署大模型 213
8.8.2 Ollama在局域網(wǎng)內(nèi)部署訪問(wèn) 214
8.8.3 Ollama常用命令 218
8.8.4 本地大模型驅(qū)動(dòng)的接口測(cè)試實(shí)踐 219
8.9 基于大模型的Web自動(dòng)化框架LaVague 221
8.10 小結(jié) 223
附錄A 225
附錄B 227
B.1 系統(tǒng)層指標(biāo) 227
B.1.1 CPU指標(biāo) 227
B.1.2 內(nèi)存指標(biāo) 228
B.1.3 磁盤指標(biāo) 229
B.1.4 網(wǎng)絡(luò)指標(biāo) 231
B.2 中間件層指標(biāo) 232
B.2.1 網(wǎng)關(guān) 232
B.2.2 數(shù)據(jù)庫(kù) 233
B.2.3 緩存 234
B.2.4 MQ 235
B.2.5 分布式存儲(chǔ)系統(tǒng) 236
B.3 應(yīng)用層指標(biāo) 236
B.3.1 響應(yīng)時(shí)間 236
B.3.2 吞吐量 237
B.3.3 應(yīng)用資源 238
B.3.4 線程池 239
B.3.5 垃圾回收 239
B.3.6 錯(cuò)誤信息 241
B.4 業(yè)務(wù)層指標(biāo) 242
B.5 壓力機(jī)指標(biāo) 242

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)