本書基于Spark 2.3.x、Spark 2.4.x系列版本,采用“理論+實踐”的形式編寫。全書共有90個實例,1個完整項目。 第1篇“準備”,包括認識大數(shù)據(jù)和Spark、安裝與配置Spark集群、第1個Spark程序; 第2篇“入門”,包括讀寫分布式數(shù)據(jù)、處理分布式數(shù)據(jù); 第3篇“進階”,包括RDD的高級操作、用SQL語法分析結構化數(shù)據(jù)、實時處理流式數(shù)據(jù); 第4篇“高階”,包括實時處理流式數(shù)據(jù)、Spark的相關優(yōu)化; 第5篇“商業(yè)項目實戰(zhàn)”,用Spark的各種組件實現(xiàn)一個學生學情分析商業(yè)項目。 本書結構清晰、實例豐富、通俗易懂、實用性強,特別適合Spark的初學者和進階讀者作為自學用書。另外,本書也適合社會培訓學校作為培訓教材,還適合大中專院校的相關專業(yè)作為教學參考書。