L Q
12
29
SparkSQL_TXT SparkSQL_TXT
SparkSQL_TXT 代码 object Spark_Sql_Txt { def main(args: Array[String]): Unit = { val spark = SparkSession .bu
2020-12-29
29
SparkSQL_JSON SparkSQL_JSON
SparkSQL_JSON 代码 object Spark_Sql_Json { def main(args: Array[String]): Unit = { val spark = SparkSession .
2020-12-29
29
SparkSQL_JDBC SparkSQL_JDBC
SparkSQL_JDBC 代码 //Scala object Spark_Sql_Jdbc { def main(args: Array[String]): Unit = { val spark = SparkSession
2020-12-29
29
SparkSQL_Hive SparkSQL_Hive
SparkSQL_Hive 代码 //Scala object Spark_Sql_Hive { /** * 启动程序测试之前需要 * 01:把Hive/conf下的hive-site.xml * 02: 把H
2020-12-29
29
Spark_PairRDD Spark_PairRDD
Spark_PairRDD什么是 Pair RDD Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为Pair RDD。 操作 Pair RDD创建 Pair RDD创建 Pair RDD scala> var lin
2020-12-29
29
Spark_提交模式 Spark_提交模式
Spark_提交模式作业提交 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class \ # 应用程序主入
2020-12-29
29
Spark_算子 Spark_算子
Spark_算子Transformation map 对于输入的一行数据,会把这行数据解析成一个数组,然后需要单个数据再去数组中去取。 val list = List(1,2,3) sc.parallelize(list).map(_
2020-12-29
29
Spark_使用 Spark_使用
Spark_使用使用代码Spark程序必须做的第一件事是创建一个SparkContext对象,该对象告诉Spark如何访问集群。要创建一个,SparkContext您首先需要构建一个SparkConf对象,其中包含有关您的应用程序的信息。
2020-12-29
29
Spark_基础 Spark_基础
Spark_总体参考资料地址: 如果会简单的 Scala 语言,那么学习 Spark 的时候会如虎添翼 Spark用来做什么?取代MapReduce做批处理计算。 为什么 Spark 比 MapReduce 快? Spark 是基于内存的,
2020-12-29
11
22
Flume实际操作 Flume实际操作
Flume_实际操作01:监听文件内容监听 /tmp/log.txt 文件内的内容,并输出到控制台。 配置 exec-memory-logger.properties #指定agent的sources,sinks,channels #
2020-11-22
22
Flume基础 Flume基础
Flume_基础Flume的定义 Flume 是一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到数据中心(HDFS)进行存储的系统。即是日志采集和汇总的工具。 Flume的优势 可以高速采集数据,采集的数据能
2020-11-22
15
Hadoop_支持LZO压缩 Hadoop_支持LZO压缩
Hadoop_支持LZO压缩第一步:安装 LZO库。(hadoop 用户在 home 目录下新建的文件夹 LZO,以下所有的安装均在这个目录下) 安装lzo:wget http://www.oberhumer.com/opensource
2020-11-15
7 / 8