内容
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API,利用Spark SQL进行交互式查询,掌握Spark应用的优化之道,用Spark和Delta Lake等开源工具构建可靠的数据湖,并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本,本书第2版做了全面的更新,以体现Spark生态系统在机器学习、流处理技术等方面的发展,另新增一章详解Spark 3.0引入的新特性。
目录
译者序 xiii
对本书的赞誉 xv
序 .xvii
前言 xix
第 1 章 Apache Spark简介:一站式分析引擎 1
1.1 Spark的起源 1
1.2 什么是Spar 3
1.3 一站式数据分析 5
1.4 开发者体验 12
第
2 章 下载并开始使用Apache Spark 16
2.1 第 1 步:下载Spark 16
2.2 第 2 步:使用Scala shell 或PySpark shell 18
2.3 第3 步:理解Spark 应用的相关概念 22
2.4 转化操作、行动操作以及惰性求值 24
2.5 Spark UI 26
2.6 第 一个独立应用 29
2.7 小结 36
第 3 章 Apache Spark 的结构化数据API 37
3.1 RDD 的背后是什么 37
3.2 Spark 支持结构化数据 38
3.3 DataFrame API 41
3.4 Dataset API 60
3.5 对比DataFrame 和Dataset 65
3.6 Spark SQL 及其底层引擎 66
3.7 小结 71
第 4 章 Spark SQL 与DataFrame:内建数据源概览 73
4.1 在Spark 应用中使用Spark SQL 74
4.2 SQL 表和视图 79
4.3 DataFrame 和SQL 表的数据源 83
4.4 小结 98
第 5 章 Spark SQL 与DataFrame:读写外部数据源 100
5.1 Spark SQL 与Apache Hive 100
5.2 用Spark SQL shell、Beeline 和Tableau 查询 106
5.3 外部数据源 114
5.4 DataFrame 和Spark SQL 的高阶函数 121
5.5 常用的DataFrame 操作和Spark SQL 操作 127
5.6 小结 137
第 6 章 Spark SQL 与Dataset 138
6.1 Java 与Scala 共用一套API 138
6.2 操作Dataset 140
6.3 Dataset 与DataFrame 的内存管理 147
6.4 Dataset 编码器 147
6.5 使用Dataset 的开销 149
6.6 小结 151
第 7 章 Spark 应用的优化与调优 152
7.1 为效率而优化与调优 152
7.2 数据的缓存与持久化 160
7.3 Spark 的各种连接算法 164
7.4 查看Spark UI 173
7.5 小结 180
第 8 章 结构化流处理 181
8.1 Spark 流处理引擎的演进过程 181
8.2 Structured Streaming 的编程模型 184
8.3 Structured Streaming 查询 186
8.4 流式数据源与数据池 196
8.5 数据转化 204
8.6 有状态的流式聚合 207
8.7 流式连接 214
8.8 任意的有状态计算 220
8.9 性能调优 227
8.10 小结 229
第 9 章 用Apache Spark 构建可靠的数据湖 230
9.1 最佳存储解决方案的重要特点 230
9.2 数据库 231
9.3 数据湖 233
9.4 湖仓一体:下一代存储解决方案 235
9.5 用Spark 与Delta Lake 构建湖仓一体的系统 237
9.6 小结 246
第 10 章 用MLlib 实现机器学习 247
10.1 什么是机器学习 247
10.2 设计机器学习流水线 251
10.3 超参数调优 266
10.4 小结 279
第 11 章 用Apache Spark管理、部署与伸缩机器学习流水线 280
11.1 模型管理 280
11.2 用MLlib 部署模型所用的选项 286
11.3 利用Spark 使用非MLlib 模型 291
11.4 小结 295
第 12 章 尾声:Apache Spark 3.0 296
12.1 Spark 内核与Spark SQL 296
12.2 Structured Streaming 304
12.3 PySpark、Pandas UDF 和Pandas 函数API 306
12.4 有改动的功能 308
12.5 小结 311
作者简介 313
封面简介 313