本書系統(tǒng)講述Apache Spark大數(shù)據計算平臺的原理,以及如果將Apache Spark應用于大數(shù)據的實時流處理、批處理、圖計算等各個場景。通過原理深入學習和實踐示例、案例的學習應用,使讀者了解并掌握Apache Spark大數(shù)據計算平臺的基本原理和技能,接近理論與實踐的距離。 全書共分為13章,主要內容包括Spark架構原理與集群搭建、開發(fā)和部署Spark應用程序、Spark核心編程、Spark SQL、Spark SQL高級分析、Spark Streaming流處理、Spark結構化流、Spark結構化流高級處理、下一代Spark圖處理庫GraphFrames、下一代大數(shù)據技術(Delta Lake數(shù)據湖、Iceberg數(shù)據湖和Hudi數(shù)據湖)、Spark大數(shù)據處理綜合案例。本書源碼全部在Apache Spark 3.1.2上調試成功,所有示例和案例均基于Scala語言。 為降低讀者學習大數(shù)據技術的門檻,本書除了提供了豐富的上機實踐操作和范例程序詳細講解之外,本書作者還為購買和使用本書的讀者提供了搭建好的Hadoop、Hive數(shù)倉和Spark大數(shù)據開發(fā)和學習環(huán)境。讀者既可以參照本書的講解自行搭建Hadoop和Spark環(huán)境,也可直接使用作者提供的開始和學習環(huán)境,快速開始大數(shù)據和Spark、數(shù)據湖的學習。 本書系統(tǒng)講解了Apache Spark大數(shù)據計算平臺的原理和流、批處理的開發(fā)實踐,內容全面、實例豐富、可操作性強,做到了理論與實踐相結合。本書適合大數(shù)據學習愛好者、想要入門Apache Spark的讀者作為入門和提高的技術參考書,也適合用作大中專院校大數(shù)據專業(yè)相關的學生和老師的教材或教學參考書。