大数据培训都要学习那些框架

发布时间:2020年06月12日作者:atguigu浏览次数:426

大数据开发培训已经成为了现在越来越多想要学习IT编程的人的选择,大数据开发工程师也是各公司争相争夺的金领人才之一,在当今科技发展非常迅速的社会里,大数据技术受到了越来越多的关注,越来越多人把职业规划投向了大数据开发。许多人在此选择了大数据培训学习,在大数据学习的过程中框架做为其中重要的一个学习内容,是学员必须要掌握的知识点,那么大数据培训课程中都学习那些框架呢?

大数据培训

1、Hadoop是一个能够对大量数据进行分布式处理的软件框架,他以一种可靠、高效、可伸缩的方式进行数据处理。具有高可靠性、高扩展性、高效性、高容错性、低成本的特点。

2、Hadoop hdfs–分布式文件系统

将文件分成多个block,分散存储到不同的节点上,并提供多副本,保证数据容错性能。

3、Hadoop yarn–资源的调度和管理平台

集中管理集群的整个计算资源,以container的形式进行资源分配。

4、Hadoop mapreduce

由两个阶段组成:Map和Reduce,Map阶段每个节点处理自己节点的数据。

Reduce阶段不同节点间进行数据交换,并进行聚合计算。

5、zookeeper

ZooKeeper是 Hadoop 的分布式协调服务,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

6、hive

基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

7、hbase

HBase是一个分布式的、面向列的开源数据库高可靠性、高性能、面向列、可伸缩,底层数据存在hdfs中处理非常庞大的表, 适合处理1亿条或者10亿条以及以上条记录或者有百万个列的数据库。

8、flume

Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。

flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去比如说送到图中的HDFS,简单来说flume就是收集日志的。同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

9、Spark

Apache Spark™ 是一个通用的快速的大数据处理引擎.

Spark具有很强的适应性,能够读取HDFS、HBase、 Cassandra、 S3和Techyon为持久层读写原生数据,能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job,来完成Spark应用程序的计算。

10、kafka

Kafka 是一个高吞吐量的、持久性的、分布式发布订阅消息系统。

典型的生产消费模式,生产者向主题中发送消息消费者订阅主题消费消息。

应用场景:实时性较高的场合,比如流式处理,经典用法kafka+storm、kafka+sparkStreaming

11、Storm

Storm可以实现高频数据和大规模数据的实时处理不同于spark streaming 的微批处理,storm可以根据进来的每一条数据进行实时处理,实时性能非常高。


上一篇:
下一篇:
相关课程

java培训 大数据培训 前端培训 UI/UE设计培训

关于尚硅谷
教育理念
名师团队
学员心声
资源下载
视频下载
资料下载
工具下载
加入我们
招聘岗位
岗位介绍
招贤纳师
联系我们
全国统一咨询电话:010-56253825
地址:北京市昌平区宏福科技园2号楼3层(北京校区)

深圳市宝安区西部硅谷大厦B座C区一层(深圳校区)

上海市松江区谷阳北路166号大江商厦6层(上海校区)

武汉市东湖高新开发区东湖网谷(武汉校区)