更新日期:2022.02.10
课程亮点:
当下大数据技术在工业环境中应用,主要构建离线数仓和实时数仓,进行大规模数据管理和分析。为了更好管理数据,出现数据湖DataLake:用来存储大量的原始数据。当下最流行数据湖框架Apache Hudi,使用HDFS存储数据,集成Spark、Flink、Hive等分析数据,逐步在大中型公司中使用,构建湖仓一体化架构。为了让大家更好学习使用Hudi,基于0.9.0版本,推出本套课程,从数据湖概念,到集成Spark和Flink,最后整合实际需求案例,由0到1深入浅出剖析Hudi使用,整个课程分为:基础入门篇、应用进阶篇和实战案例篇,涵盖最新特性和功能。
课程内容:
1-Hudi 基础入门篇
1-1.什么是数据湖
1-2.数据湖框架
1-3.Apache Hudi 基本介绍
1-4.Apache Hudi 快速发展
1-5.编译 Hudi 源码
1-6.大数据环境准备
1-7.spark-shell 使用
1-8.初识 Hudi 数据管理
1-9.IDEA 编程开发
1-10.基本概念
1-11.表的存储类型
1-12.数据写操作流程
2-Hudi 应用进阶篇
2-1.Hudi集成Spark
2-1-1.大数据环境准备
2-1-2.滴滴运营分析
2-1-3.结构化流写入Hudi
2-1-4.集成 SparkSQL
2-2.Hudi集成Flink
2-2-1.安装部署 Flink 1.12
2-2-2.快速入门使用
2-2-3.Streaming Query
2-2-4.Flink SQL Writer
2-2-5.Hudi CDC
3-Hudi 实战案例篇
3-1.传智教育博学谷Hudi案例实战
3-1-1.案例技术架构
3-1-2.业务数据调研
3-1-3.七陌数据采集
3-1-4.实时存储七陌数据
3-1-5.集成Hive指标分析
3-1-6.Spark 离线指标分析
3-1-7.FineBI 报表可视化
3-2.传智教育数据中心Hudi案例实战
3-2-1.案例实战技术架构
3-2-2.业务数据调研
3-2-3.Flink CDC 实时数据采集
3-2-4.Presto 即席分析
3-2-5.Flink SQL 流式分析
3-2-6.FineBI 报表可视化
0人已评分
我也要评分