內容簡介這是一本深入闡述ChatGPT等大模型的工作原理、運行機制、架構設計和底層技術,以及預訓練、遷移、微調和中間件編程的著作。它將幫助我們從理論角度全面理解大模型,從實踐角度 好地應用大模型,是作者成功訓練并部署大模型的過程復盤和經驗總結。第1章介紹了ChatGPT等大模型的發(fā)展歷程、技術演化和技術棧等基礎知識;第2~5章深入講解了Transformer的架構原理,并從GPT-1的生成式預訓練到GPT-3的稀疏注意力機制詳細描述了GPT系列的架構演進;6~8章從底層技術實現(xiàn)的角度講解了大語言模型的訓練策略、數(shù)據(jù)處理方法,以及如何利用策略優(yōu)化和人類反饋來進一步提升模型的表現(xiàn);第9~10章首先詳細講解了大語言模型在垂直領域的低算力遷移方法,并給出了醫(yī)療和司法領域的遷移案例,然后講解了大模型的中間件編程; 1章對GPT的未來發(fā)展趨勢進行預測,探討數(shù)據(jù)資源、自回歸模型的局限性,以及大語言模型時代具身智能的可行路線。