大数据培训课程Hadoop数据压缩

发布时间:2020年09月25日作者:atguigu浏览次数:786

Hadoop数据压缩概述

压宿支术能够有效咸少底层存储系统(HIDFS)读写字节数。压缩提高了网
络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、Shuffle
和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,
使用如据压缩显得非常重要。
鉴于磁盘TO和网络带宽是Hadoop的宝贵资源,数据压宿对于节省资源、最
小化磁盘/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。不
过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没有
代价。大数据培训课程

压缩策略和京则

压缩是提高Hadoop运行效率的—种优化策略。
通过对Mapper、Reducer运行过程的数据进行压缩,以减少磁盘IO,
提高MR程序运行速度。
注意:采用压宿技术减少了磁盘IO,但同时增加了CPU运算负担。所
以,压宿寺性运用得当能提高性能,但运用不当也可能降低性能。
压缩基本原则:
(1)运算密集型的job,少用压宿
(2)IO密集型的job,多用压缩

想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习


上一篇:
下一篇:
相关课程

java培训 大数据培训 前端培训

关于尚硅谷
教育理念
名师团队
学员心声
资源下载
视频下载
资料下载
工具下载
加入我们
招聘岗位
岗位介绍
招贤纳师
联系我们
全国统一咨询电话:010-56253825
地址:北京市昌平区宏福科技园2号楼3层(北京校区)

深圳市宝安区西部硅谷大厦B座C区一层(深圳校区)

上海市松江区谷阳北路166号大江商厦3层(上海校区)

武汉市东湖高新开发区东湖网谷(武汉校区)

西安市雁塔区和发智能大厦B座3层(西安校区)

成都市成华区北辰星拱青创园综合楼3层(成都校区)