大数据自学教程Spark从零到精通完整版

课程亮点：

1，课程由浅到深，由原理到实践，既适合零基础也适合深入学习。

2，涵盖了Spark一站式解决方案，包括：SparkCore、SparkSQL、SparkStreaming、StructuredStreaming等技术。

3，结合实际案例，培养解决实际问题的能力。

课程内容：

1、SparkCore

2、SparkSQL

3、SparkStreaming

4、StructuredStreaming

5、Spark案例

适用人群：

1、对大数据感兴趣的在校生及应届毕业生。

2、对目前职业有进一步提升要求，希望从事大数据行业工作的在职人员。

3、对大数据行业感兴趣的相关人员。

第一章 Spark概述和入门

01_Spark概述_目标

02_Spark概述_Spark是什么

03_Spark概述_Spark的特点

04_Spark概述_Spark的组成

05_Spark集群搭建_Spark集群结构

06_Spark集群搭建_Spark集群结构_扩展

07_Spark环境搭建_下载和解压Spark安装包

08_Spark环境搭建_配置HistoryServer

09_Spark集群搭建_分发和启动

10_Spark集群搭建_高可用配置

11_Spark集群搭建_第一个案例

12_Spark入门_代码编写方式

13_Spark入门_SparkShell本地文件读取

14_Spark入门_执行过程

15_Spark入门_读取HDFS上的文件

16_Spark入门_独立应用编写

17_Spark入门_独立应用的运行方式

18_RDD入门_RDD是什么

19_RDD入门_SparkContext

20_RDD入门_创建RDD的三种方式

21_RDD入门_Map算子

22_RDD入门_FlatMap算子

23_RDD入门_ReduceByKey算子

第二章 SparkCore-1

01_深入RDD_课程结构

02_深入RDD_初始案例_步骤

03_深入RDD_初始案例_代码编写

04_深入RDD_问题_如何运行在集群中

05_深入RDD_问题_分解和容错

06_深入RDD_定义_出现的背景

07_深入RDD_定义_RDD的特点

08_深入RDD_定义_什么叫做弹性分布式数据集

09_深入RDD_定义_五大属性

10_RDD算子_分类

11_RDD算子_转换_回顾

12_RDD算子_转换_mapPartitions

13_RDD算子_转换_Filter

14_RDD算子_转换_Sample

15_RDD算子_转换_mapValues

16_RDD算子_转换_集合操作

17_RDD算子_转换_groupByKey

18_RDD算子_转换_combineByKey

19_RDD算子_转换_foldByKey

20_RDD算子_转换_aggregateByKey

21_RDD算子_转换_join

22_RDD算子_转换_排序

23_RDD算子_转换_重分区

24_RDD算子_转换_总结

第三章 SparkCore-2

01_RDD算子_Action_reduce

02_RDD算子_Action_foreach

03_RDD算子_Action_countByKey

04_RDD算子_Action_take

05_RDD算子_Action_总结

06_RDD算子_KV类型的支持

07_RDD算子_数字型的支持

08_阶段练习_需求介绍和明确步骤

09_阶段练习_代码编写

10_阶段练习_总结

11_RDD的分区和Shuffle_介绍

12_RDD的分区和Shuffle_查看分区

13_RDD的分区和Shuffle_创建RDD时指定分区数

14_RDD的分区和Shuffle_通过算子重分区

15_RDD的分区和Shuffle_通过其他算子指定分区数

16_RDD的分区和Shuffle_Shuffle过程扫盲

17_RDD的缓存_缓存的意义_案例介绍

18_RDD的缓存_缓存的意义_过程代码

19_RDD的缓存_缓存的意义_结论

20_RDD的缓存_缓存的API

21_RDD的缓存_缓存级别

22_Checkpoint_意义

23_Checkpoint_使用

第四章 SparkCore-原理

01_Spark原理_概述和思路

02_Spark原理_总体介绍_概要

03_Spark原理_总结介绍_案例编写

04_Spark原理_总体介绍_集群环境

05_Spark原理_总体介绍_逻辑执行图

06_Spark原理_总体介绍_物理执行图

07_Spark原理_逻辑图_HadoopRDD的生成

08_Spark原理_逻辑图_MapPartitionsRDD

09_Spark原理_逻辑图_小结

10_Spark原理_逻辑图_RDD之间的关系_一对一

11_Spark原理_逻辑图_RDD之间的关系_多对一

12_Spark原理_逻辑图_窄依赖_案例

13_Spark原理_逻辑图_窄依赖_分析

14_Spark原理_逻辑图_宽依赖_分析

15_Spark原理_逻辑图_宽窄依赖判断

16_Spark原理_逻辑图_窄依赖的分类_看源码

17_Spark原理_逻辑图_窄依赖的分类_分析

18_Spark原理_逻辑图_总结

19_Spark原理_物理图_介绍

20_Spark原理_物理图_Task设计

21_Spark原理_物理图_Stage划分

22_Spark原理_物理图_案例总结

23_Spark原理_运行过程_概念介绍

24_Spark原理_运行过程_Job和Stage的关系

25_Spark原理_运行过程_Stage和Task的关系

26_Spark原理_运行过程_总结和流程

27_高级特性_闭包_概念

28_高级特性_闭包_Spark闭包分发

29_高级特性_累加器

30_高级特性_广播

第五章 SparkSQL-基础

01_SparkSQL是什么_命令式和声明式的区别

02_SparkSQL是什么_历史和重要性

03_SparkSQL是什么_适用场景

04_SparkSQL初体验_命令式案例

05_SparkSQL初体验_Dataset和DataFrame

06_SparkSQL初体验_SQL案例

07_扩展_Catalyst优化器_SparkSQL和RDD的区别

08_扩展_Catalyst优化器_优化过程

09_扩展_Catalyst优化器_查看计划

10_Dataset介绍_Dataset是什么

11_Dataset介绍_Dataset底层类型

12_Dataset介绍_将Dataset转为同泛型的RDD

13_DataFrame介绍_DataFrame是什么

14_DataFrame介绍_创建_toDF

15_DataFrame介绍_创建_read

16_DataFrame介绍_操作

17_Dataset和DataFrame的区别_区别

18_Dataset和DataFrame的区别_Row对象

第六章 SparkSQL-读写

01_SparkSQL读写_介绍

02_SparkSQL读写_Reader

03_SparkSQL读写_Writer

04_SparkSQL读写_Parquet

05_SparkSQL读写_分区

06_SparkSQL读写_JSON

07_SparkSQL读写_JSON小技巧

08_SparkSQL读写_Hive_整合

09_SparkSQL读写_Hive_创建Hive表

10_SparkSQL读写_Hive_读取Hive表

11_SparkSQL读写_Hive_SparkSQL创建Hive表

12_SparkSQL读写_Hive_写入数据_配置

13_SparkSQL读写_Hive_写入数据_编码和运行

14_SparkSQL读写_JDBC_MySQL环境准备

15_SparkSQL读写_JDBC_写入数据

第七章 SparkSQL-转换

01_有类型转换_map

02_有类型转换_transform_

03_有类型转换_as

04_有类型转换_filter

05_有类型转换_groupByKey

06_有类型转换_split_

07_有类型转换_orderBy

08_有类型转换_去重

09_有类型转换_集合操作

10_无类型转换_选择

11_无类型转换_列操作

12_无类型转换_groupBy

13_Column对象_创建1

14_Column对象_创建_有绑定

15_Column对象_操作_别名和类型

16_Column对象_操作_API

17_缺失值处理_什么是缺失值

18_缺失值处理_null&NaN_读取文件

19_缺失值处理_null&NaN_处理

20_缺失值处理_字符串缺失值

第八章 SparkSQL-聚合与连接

01_聚合操作_groupBy_数据读取

02_聚合操作_groupBy_聚合操作

03_聚合操作_多维聚合_需求介绍

04_聚合操作_多维聚合_编写代码

05_聚合操作_多维聚合_rollup

06_聚合操作_多维聚合_rollup案例

07_聚合操作_多维聚合_cube

08_聚合操作_多维聚合_cubeSQL

09_聚合操作_多维聚合_GroupedDataset

10_连接操作_入门_介绍

11_连接操作_入门_案例

12_连接操作_连接类型_cross

13_连接操作_连接类型_inner

14_连接操作_连接类型_fullouter

15_连接操作_连接类型_left

16_连接操作_连接类型_semi&anti

17_函数_UDF

18_函数_窗口1

19_函数_窗口2

第九章 SparkSQL-综合案例

01_项目分析_业务场景

02_项目分析_流程分析

03_工程搭建_创建

04_工程搭建_读取数据

05_数据清洗_思路和步骤

06_数据清洗_创建Trip类

07_数据清洗_包装Row处理空值

08_数据清洗_数据转换

09_数据清洗_异常处理_Either

10_数据清洗_异常处理_完成逻辑

11_数据清洗_转换完成

12_数据清洗_剪除反常数据_统计分布

13_数据清洗_剪除反常数据

14_行政区信息_介绍

15_行政区信息_JSON解析

16_行政区信息_GeoJSON介绍

17_行政区信息_JSON解析实现

18_行政区信息_Geometry实现

19_行政区统计_功能实现

20_会话统计_得出结果

第十章 SparkStreaming

01_SparkStreaming介绍_场景

02_SparkStreaming介绍_流计算和批计算的区别

03_SparkStreaming介绍_架构

04_SparkStreaming介绍_特点

05_SparkStreaming案例_Socket回顾

06_SparkStreaming案例_Netcat

07_SparkStreaming案例_创建工程

08_SparkStreaming案例_代码编写

09_SparkStreaming案例_运行

10_SparkStreaming案例_解释说明

11_SparkStreaming原理_问题提出

12_SparkStreaming原理_DStream的有向无环图

13_SparkStreaming原理_DStream的静态和动态

14_SparkStreaming原理_Receiver

15_SparkStreaming原理_容错

16_Streaming_操作_updateStateByKey

17_Streaming_操作_updateStateByKey代码

18_Streaming_操作_窗口_代码

19_Streaming_操作_窗口_讲解

第十一章 StructuredStreaming

01_Structured_介绍_历史更迭

02_Structured_介绍_序列化更迭

03_Structured_介绍_对比

04_Structured_案例_介绍

05_Structured_案例_代码编写

06_Structured_案例_运行和总结

07_Structured_体系结构_无限扩展的表

08_Structured_体系结构

09_Structured_Source_HDFS_案例介绍

10_Structured_Source_HDFS_生成并上传文件到HDFS

11_Structured_Source_HDFS_Spark代码

12_Structured_Source_Kafka_回顾

13_Structured_Source_Kafka_整合

14_Structured_Source_Kafka_需求

15_Structured_Source_Kafka_连接

16_Structured_Sink_HDFS

17_Structured_Sink_Kafka

18_Structured_Sink_Foreach

19_Structured_Sink_Trigger

20_Structured_Sink_容错语义

本文来源传智教育和黑马程序员视频库，原创整理，转载请注明出处，喜欢请分享更多人

文章来源：传智教育和黑马程序员视频库

更多章节请下载完整视频观看＞＞

综合评分5.0

0人已评分

我也要评分

加载更多

大数据自学教程Spark从零到精通完整版中级教程

扫码关注，回复关键词，马上领取全套视频资源！

课程须知

相关课程推荐

大数据入门必会的Hadoop、Hive、云平台实战项目全套教程

大数据数据开发基础MySQL8.0从入门到精通

大数据离线数据仓库，企业级在线教育项目实战（Hive数仓项目完整流程）

大数据Hadoop入门教程

Python+大数据进阶教程6天掌握NoSQL实时计算基础

帮助中心

交流合作

站内地图

学员培训