1、切片机制
(1)简单地按照文件的内容长度进行切片
(2)切片大小,默认等于Block大小
(3)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

FileInputFormat切片大小的参数配置
(1)源码中计算切片大小的公式
Math.max(minSize,Math.min(maxSize, blockSize)),
mapreduce.input.fileinputformat.split.minsize=1默认值为1
mapreduce.irput.fileinputformat.split.maxsize= Long.MA.XValue默认值Long.MAXValue
因此,默认情兄下,切片人小—blocksize。
(2)切片大小设置
maxsize(切片最大值)︰参数如果调得比blockSize小,则会让切片变小,而且就等于配置的这个参数的值。
minsize(切片最小值)︰参数调的比blockSize大,则可以让切片变得比blockSize还大。
(3)获取切片信息API
//获取切片的文件名称
string name = inputsplit.get Path() .getName () ;
l/根据文件类型获取切片信息
Filesplit inputsplit = (File split) context.getInput split();
想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习
上一篇: 大数据培训InputFormat数据输入Job提交流程源码和切片源码详解
下一篇: 大数据培训FileInputFormat实现类