word 与 hadoop 、他有三个朋友
发布时间:2025-06-24 07:44:07 作者:北方职教升学中心 阅读量:806
具体任务如下:
计算文本文件中每个单词的数量;
根据每个单词的数量进行降序排序。hive 属于直接好友。word 与 hadoop 、他有三个朋友,
参考资料如下:
hello hadoop cat。
相关知识。 * 2、
数据描述(第二行为例):
这个人叫 world ,0); } }); JavaPairRDD<String,Integer> filter = javaPairRDD.filter(x -> x._2()!=0?=0?true : false); return filter; /**-------------------------------end-----------------------------------**/ }}。实现功能。统计文本文件中每个单词出现的次数。
任务描述。本关任务:根据编程要求创建自定义函数,
Spark SQL 自定义函数(Scala)。
第2关:Friend Recommendation - 好友推荐。第1关:WordCount - 词频统计。并根据方法中的提示在Begin中 - 代码补充在End区域,
world hadoop hello hive。
world hadoop hello hive。
第1关:Spark SQL 自定义函数。
略。
..。hadoop、hello 和 hive 之间是间接的朋友。
第2关:Friend Recommendation - 朋友推荐。package net.educoder;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import scala.Tuple2;import java.util.ArrayList;import java.util.List;public class Step2 { private static SparkConf conf; private static JavaSparkContext sc; static { conf = new SparkConf().setAppName(step2).setMaster("local"); sc = new JavaSparkContext(conf); } /** * * return JavaPairRDD<String, Integer> */ public static JavaPairRDD<String, Integer> fun2() { JavaRDD<String> rdd = sc.textFile("/root/friend.txt"); /**-------------------------------beign-----------------------------------**/ JavaPairRDD<String,Integer> rdd1 = rdd.flatMapToPair(line->{ List<Tuple2<String,Integer>> list = new ArrayList<Tuple2<String,Integer>>(); String[] split = line.split(" "); String me = split[0]; for (int i = 1;i < split.length;i ){ String s = me.hashCode() > split[i].hashCode() ? me "_" split[i]:split[i] "_" me; list.add(new Tuple2<>(s,0)); for(int j=i 1;j<split.length;j ){ String ss = split[j].hashCode() > split[i].hashCode() ? split[j] "_" split[i]:split[i] "_" split[j]; list.add(new Tuple2<>(ss,1)); } } return list.iterator(); }); JavaPairRDD<String,Iterable<Integer>> rdd2 = rdd1.groupByKey(); JavaPairRDD<String,Integer> javaPairRDD = rdd2.mapToPair(x ->{ boolean bool = false; int count = 0; Iterable<Integer> flags = x._2(); String name = x._1(); for(Integer flag:flags){ if(flag == 0){ bool = true; } count ; } if(bool == false){ return new Tuple2<String,Integer>(name,count); }else{ return new Tuple2<String,Integer>(直接好友”,import org.apache.spark.sql.api.java.UDF1import org.apache.spark.sql.types.StringTypeimport org.apache.spark.sql.{DataFrame,SparkSession}object First_Question { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("First_Question") .master("local[*]") .getOrCreate() /。hello 和 hive。
相关知识。
Spark算子综合案例 - JAVA文章。分别是:hadoop、编程要求。
..。
cat tom hive。您需要掌握:
自定义函数分类;
自定义函数的实现;
弱类型 UDAF 与 强类型的 UDAF 区分;
实现弱类型 UDAF 与 强类型的 UDAF。降序根据每个单词的数量进行排序。 hello 、package net.educoder; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import scala.Tuple2; import java.util.Arrays; /** * 1、
请仔细阅读右边的代码,
..。
cat tom hive。您需要掌握:
实现弱类型 UDAF 与 强类型的 UDAF。降序根据每个单词的数量进行排序。 hello 、package net.educoder; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import scala.Tuple2; import java.util.Arrays; /** * 1、
任务描述。
相关知识。
本关任务:使用 Spark Core 知识完成 " 好友推荐 " 的程序。第四阶段 SparkSQL。
任务描述。第三阶段 Spark算子综合案例。
为了完成本关任务,
本关任务:使用 Spark Core 编写一个词频统计程序的知识。 */public class Step1 { private static SparkConf conf; private static JavaSparkContext sc; static { conf = new SparkConf().setAppName(step1).setMaster("local"); sc = new JavaSparkContext(conf); } /** * * return JavaRDD<Tuple2> */ public static JavaRDD<Tuple2> fun1() { JavaRDD<String> rdd = sc.textFile("/root/wordcount.txt"); /**-----------------------------------begin----------------------------------------------**/ JavaRDD<String> rdd1 = rdd.flatMap(x -> Arrays.asList(x.split(" ")).iterator()); JavaPairRDD<String, Integer> rdd2 = rdd1.mapToPair(x -> new Tuple2<>(x, 1)); JavaPairRDD<String, Integer> rdd3 = rdd2.reduceByKey((x, y) -> x y); JavaRDD<Tuple2> rdd4 = rdd3.map(x -> new Tuple2(x._2(), x._1())); JavaRDD<Tuple2> rdd5 = rdd4.sortBy(x -> x._1(), false, 1); JavaRDD<Tuple2> rdd6 = rdd5.map(x -> new Tuple2(x._2(), x._1())); return rdd6; /**-----------------------------------end----------------------------------------------**/ }}。
直接好友和间接好友。