大数据培训InputFormat数据输入FileInputFormat切片机制

发布时间:2020年08月20日作者:atguigu浏览次数:913

1、切片机制
(1)简单地按照文件的内容长度进行切片
(2)切片大小,默认等于Block大小
(3)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

FileInputFormat切片大小的参数配置

(1)源码中计算切片大小的公式
Math.max(minSize,Math.min(maxSize, blockSize)),
mapreduce.input.fileinputformat.split.minsize=1默认值为1
mapreduce.irput.fileinputformat.split.maxsize= Long.MA.XValue默认值Long.MAXValue
因此,默认情兄下,切片人小—blocksize。
(2)切片大小设置
maxsize(切片最大值)︰参数如果调得比blockSize小,则会让切片变小,而且就等于配置的这个参数的值。
minsize(切片最小值)︰参数调的比blockSize大,则可以让切片变得比blockSize还大。
(3)获取切片信息API
//获取切片的文件名称
string name = inputsplit.get Path() .getName () ;
l/根据文件类型获取切片信息
Filesplit inputsplit = (File split) context.getInput split();

想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习


上一篇:
下一篇:
相关课程

java培训 大数据培训 前端培训

关于尚硅谷
教育理念
名师团队
学员心声
资源下载
视频下载
资料下载
工具下载
加入我们
招聘岗位
岗位介绍
招贤纳师
联系我们
全国统一咨询电话:010-56253825
地址:北京市昌平区宏福科技园2号楼3层(北京校区)

深圳市宝安区西部硅谷大厦B座C区一层(深圳校区)

上海市松江区谷阳北路166号大江商厦3层(上海校区)

武汉市东湖高新开发区东湖网谷(武汉校区)

西安市雁塔区和发智能大厦B座3层(西安校区)

成都市成华区北辰星拱青创园综合楼3层(成都校区)