归档 | L Q

2020

12

29

SparkStreaming_HDFSSpark Streaming 监控 Hadoop 的文件夹使用 SparkStreaming 之前，需要先初始化，初始化的代码如下： SparkConf conf = new SparkConf().

2020-12-29 SparkStreaming

SparkStreaming

29

SparkSQL_数据结构

SparkSQL_数据结构DataFrame为了支持结构化数据的处理，Spark SQL 提供了新的数据结构 DataFrame。DataFrame 是一个由具名列组成的数据集。 DataFrame & RDD DataSetDat

2020-12-29 SparkSQL

SparkSQL

29

SparkSQL_使用

SparkSQL_使用创建 SparkSessionSparkSession 是 Dataset 与 DataFrame 编程的入口。官方代码 import org.apache.spark.sql.SparkSession val

2020-12-29 SparkSQL

SparkSQL

29

SparkSQL_TXT

SparkSQL_TXT 代码 object Spark_Sql_Txt { def main(args: Array[String]): Unit = { val spark = SparkSession .bu

2020-12-29 TXT

SparkSQL

29

SparkSQL_JSON

SparkSQL_JSON 代码 object Spark_Sql_Json { def main(args: Array[String]): Unit = { val spark = SparkSession .

2020-12-29 JSON

SparkSQL

29

SparkSQL_JDBC

SparkSQL_JDBC 代码 //Scala object Spark_Sql_Jdbc { def main(args: Array[String]): Unit = { val spark = SparkSession

2020-12-29 JDBC

SparkSQL

29

SparkSQL_Hive

SparkSQL_Hive 代码 //Scala object Spark_Sql_Hive { /** * 启动程序测试之前需要 * 01：把Hive/conf下的hive-site.xml * 02: 把H

2020-12-29 Hive

SparkSQL

29

Spark_PairRDD

Spark_PairRDD什么是 Pair RDD Spark为包含键值对对类型的RDD提供了一些专有操作，这些操作就被称为Pair RDD。操作 Pair RDD创建 Pair RDD创建 Pair RDD scala> var lin

2020-12-29 SparkCore

SparkCore

29

Spark_提交模式

Spark_提交模式作业提交 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业，其格式如下： ./bin/spark-submit \ --class \ # 应用程序主入

2020-12-29 SparkCore

SparkCore

29

Spark_算子

Spark_算子Transformation map 对于输入的一行数据，会把这行数据解析成一个数组，然后需要单个数据再去数组中去取。 val list = List(1,2,3) sc.parallelize(list).map(_

2020-12-29 SparkCore

SparkCore

29

Spark_使用

Spark_使用使用代码Spark程序必须做的第一件事是创建一个SparkContext对象，该对象告诉Spark如何访问集群。要创建一个，SparkContext您首先需要构建一个SparkConf对象，其中包含有关您的应用程序的信息。

2020-12-29 SparkCore

SparkCore

29

Spark_基础

Spark_总体参考资料地址：如果会简单的 Scala 语言，那么学习 Spark 的时候会如虎添翼 Spark用来做什么？取代MapReduce做批处理计算。为什么 Spark 比 MapReduce 快？ Spark 是基于内存的，

2020-12-29 SparkCore

SparkCore