项目为使用Spark Streaming技术开发的大数据实时处理平台,主要用于互联网电商企业对各种用户行为进行复杂的分析,将统计分析的结果以接口或图形化的方式展示出来,辅助产品经理、数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务,最终达成用大数据技术帮助公司提升业绩、营业额以及市场占有率的目标。
视频总时长50小时+,附赠各种教辅资料,含笔记、代码、资料、工具等。通过本套项目讲解视频学习,可掌握企业中使用Spark Streaming进行实时计算的完整流程,并掌握整个环节中涉及的各类框架技术,例如高可用的大数据采集框架、高并发的分布式消息队列、基于内存的高吞吐实时计算技术、海量存储、毫秒级查询的数据库等。
内容特点:
1、企业级大数据项目开发流程贯穿每个业务模块的讲解,囊括需求分析、方案设计、数据设计、编码实现、测试以及性能调优等环节,广泛还原真实大数据项目的开发流程,对实时业务中涉及的双流Join以及Kafka精准一次性消费的问题进行了细致的讲解;
2、使用SpringBoot对用户行为数据进行采集;
3、通过Canal和Maxwell对业务数据库进行采集;
4、将数据采集到分布式消息队列Kafka,并在Kafka中进行分层处理,主要分为ODS、DWD、DWS、ADS层;
5、使用当前最火爆的Spark Streaming搭建高吞吐的数据实时处理模块;
6、选用ElasticSearch和ClickHouse作为最终的实时数据处理结果的存储位置,并从中获取数据进行展示,进一步降低响应时间对数据进行分析;
7、可视化展示使用ElasticSearch+Kibnana、自定义数据接口+可视化项目以及阿里巴巴的DataV进行可视化展示。
适合人群:
有Scala编程基础,项目使用Scala语言进行开发;
了解Spark编程;
熟悉常用的技术框架,如Kafka、HBase等(相关技术教程可通过尚硅谷官网免费获取)。