2 subtract (otherDataset) 案例
作用:计算差的一种函数,去除两个RDD中相同的元素,不同的RDD将保留下来
需求:创建两个RDD,求第一个RDD与第二个RDD的差集
(1)创建第一个RDD
scala> val rdd = sc.parallelize(3 to 8)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[70] at parallelize at <console>:24
(2)创建第二个RDD
scala> val rdd1 = sc.parallelize(1 to 5)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[71] at parallelize at <console>:24
(3)计算第一个RDD与第二个RDD的差集并打印
scala> rdd.subtract(rdd1).collect()
res27: Array[Int] = Array(8, 6, 7)
想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习。
上一篇: 双Value类型交互union(otherDataset) 案例_大数据培训
下一篇: 2 reduceByKey(func, [numTasks]) 案例_大数据培训