Hadoop数据压缩概述
压宿支术能够有效咸少底层存储系统(HIDFS)读写字节数。压缩提高了网
络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、Shuffle
和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,
使用如据压缩显得非常重要。
鉴于磁盘TO和网络带宽是Hadoop的宝贵资源,数据压宿对于节省资源、最
小化磁盘/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。不
过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没有
代价。大数据培训课程
压缩策略和京则
压缩是提高Hadoop运行效率的—种优化策略。
通过对Mapper、Reducer运行过程的数据进行压缩,以减少磁盘IO,
提高MR程序运行速度。
注意:采用压宿技术减少了磁盘IO,但同时增加了CPU运算负担。所
以,压宿寺性运用得当能提高性能,但运用不当也可能降低性能。
压缩基本原则:
(1)运算密集型的job,少用压宿
(2)IO密集型的job,多用压缩
想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习
上一篇: java培训教程通过注解配置bean使用注解标识组件
下一篇: java培训教程通过注解配置扫描组件