JavaEEHTML&JS+前端大数据人工智能+PythonUI/UE设计软件测试C/C++新媒体+短视频直播运营产品经理Linux云计算+运维开发拍摄剪辑+短视频制作PMP项目管理认证电商运营Go语言与区块链PHP工程师iOSAndroid+物联网.NET

大数据实战项目|反爬虫系统【Lua+Spark+Redis+Hadoop框架搭建】

  • 中级

  • 试看8节

  • 20041人学习

课程须知

1、项目整体介绍和数据采集模块详细介绍 2、openresty安装和lua语法学习 3、数据采集模块开发和反爬虫工程创建及链路统计功能开发 4、数据预处理模块:数据清洗和脱敏和打标签...

下载完整视频

提取码: t3ld

收藏课程 获取资料

分享

  1. 课程介绍
  2. 课程目录
  3. 课程评论

视频简介:

很多订票网站的官网在互联网提供查询、预订等服务,如:各种航空公司的官网、去哪网、携程等,有大量正常用户访问的同时,也存在大量爬虫。爬虫消耗了系统资源,但是却没有转化成销量,导致系统资源虚耗,严重时会造成系统波动,影响正常用户访问购票。 大量热门路线的好车次和航线的特价舱位吸引正常用户通过官网订票的同时,也存在大量恶意占座的非法代理(黄牛)。通过不断的订座但不支付,利用这些虚占的座位进行非法盈利,通过系统日志分析等,发现官网存在大量的非法占座会员及非会员手机号用户。 为了限制伪装技术越来越强的爬虫访问和恶意占座行为,需要开发大数据防爬工具。 项目采用Lua+Spark+Redis+Hadoop框架搭建,包含状态监控,反爬指标配置,运营指标监控展示等功能。


课程亮点:

1、数据采集使用Lua,实现并发量的最大化,尽可能的降低高并发时的数据丢失.

2、消息队列采用Kafka,实现各模块的解耦,利用Kafka的高吞吐和可持久化的特性为平台提升稳定性.

3、利用SparkStreaming实现数据的实时计算,完成从数据预处理到爬虫黑名单的计算.

4、Spark的状态监控功能,实时掌握Spark的运行状态.

5、使用SparkSQL实现数据可视化相关指标的离线计算


课程内容:

1、项目整体介绍和数据采集模块详细介绍

2、openresty安装和lua语法学习

3、数据采集模块开发和反爬虫工程创建及链路统计功能开发

4、数据预处理模块:数据清洗和脱敏和打标签及数据解析

5、"数据结构化和数据推送 spark系统监控功能开发 实现反爬平台系统监控6、爬虫识别指标计算7、爬虫数据备份恢复和离线计算


适用人群:

1、对大数据Spark感兴趣的在校生及应届毕业生。

2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。

3、对大数据行业感兴趣的相关人员。


课程目录:

第一章 项目概述

1课程内容

1. 系统介绍

2. 模块介绍

3. 数据流程描述

4. 逻辑架构设计

5. 功能描述

6. 系统架构

第二章  离线数据入库

1. 数据上传

2. 创建数据表

3. 数据拆分

4. 数据表加载



第三章 离线数据整理

1. 业务SQL语句编写

2. 整理SQL语句生成结果表的结构及字段

3. 根据结果表所需的字段,在原始表中抽取该字段

4. 数据加工及入库

5. 创建索引


第四章 实时数据生成及计算

1. Mysql 数据写入

2. canal 解析mysql实时数据写入本地

3. Flume收集数据将数据上传至集群

4. SparkStreaming 实时计算


综合评分 5.0

0人已评分

我也要评分

评论打分
你觉得老师讲的怎么样?

评论字数不能超过100字,还剩 个字符

发表评价