博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark释义Dataset、DataFrame、SQL
阅读量:4170 次
发布时间:2019-05-26

本文共 2206 字,大约阅读时间需要 7 分钟。

数据分区

为了多个执行器能并行地工作,spark降数据分解成多个数据块,每个数据块是一个分区。

转换

进行转换时,数据会被自动分区。

转换分为两种:一种窄依赖关系的转换,一种是宽依赖关系的转换。

窄依赖转换时一个分区只会输出一个分区。

宽依赖转换时一个分区可转换多个分区。

惰性操作

惰性指等到必须执行时才计算。用户的一些操作,不会立即修改数据,而是建立转换计划并转化为流水线的物理计划。

目的是优化物理计划,减少扫描实际用不到的数据.

val flightData2015 = spark     .read     .option("inferSchema", "true")     .option("header", "true")     .csv("/data/flight-data/csv/2015-summary.csv")   # in Python   flightData2015 = spark\     .read\     .option("inferSchema", "true")\     .option("header", "true")\     .csv("/data/flight-data/csv/2015-summary.csv")

Dataset、DataFrame、SQL表

Spark 是一个分布式编程模型,用户可以在其中指定转换操作( transformation)。 多次转换操作后建立起指令的有向无环图。 指令图的执行过程作为一个作业( job)由一个动作操作( action)触发,在执行过程中一个作业被分解为多个阶段( stage) 和任务( task) 在

集群上执行。

DataFrame 和 Dataset 是具有行和列的类似于(分布式)数据表的集合类型。 所有列的行数相同( 可以使用 null 来指定缺省值) ,并且某一列的类型必须在所有行中保持一致。 Spark中的 DataFrame 和 Dataset 代表不可变的数据集合, 可以通过它指定对特定位置数据的操

作,该操作将以惰性评估方式执行。 当对 DataFrame 执行动作操作时, 将触发 Spark 执行具体转换操作并返回结果。

DataFrame

DataFrame 由记录( record)组成, record 是 Row 类型(与 table 中的一行相似)。一条 record有多列( column)组成(类似于电子表格中的列),列表示可以在该 Dataset 中每个单独的记录上执行的计算表达式。模式( schema)定义了 DataFrame 列的名以及列的数据类型。

DataFrame示例:

// in Scalaval df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")df.printSchema()

模式(schema)

模式定义 DataFrame 的列名以及列的数据类型,它可以由数据源来定义模式,也可以自己定义。

示例:

spark.read.format("json").load("/data/flight-data/json/2015-summary.json").schema

Scala 返回以下内容:

org.apache.spark.sql.types.StructType = ...StructType(StructField(DEST_COUNTRY_NAME,StringType,true),StructField(ORIGIN_COUNTRY_NAME,StringType,true),StructField(count,LongType,true))

模式是由许多字段构成的 StructType, 这些字段即为 StructField,它具有名称、类型、布尔

标志(该标志指定该列是否可以包含缺失值或空值),并且用户可指定与该列关联的元数据。

创建模式:

import org.apache.spark.sql.types.{
StructField, StructType, StringType, LongType}import org.apache.spark.sql.types.Metadataval myManualSchema = StructType(Array(StructField("DEST_COUNTRY_NAME", StringType, true),StructField("ORIGIN_COUNTRY_NAME", StringType, true),StructField("count", LongType, false,Metadata.fromJson("{\"hello\":\"world\"}"))))val df = spark.read.format("json").schema(myManualSchema).load("/data/flight-data/json/2015-summary.json")

列和表达式

DataFrame 可能不包含某列, 所以该列要将列名与

catalog 中维护的列名相比较之后才会确定该列是否会被解析

转载地址:http://kfkai.baihongyu.com/

你可能感兴趣的文章
java String于常量池中的介绍
查看>>
java Text 错误: 找不到或无法加载主类 Text
查看>>
XShell连接ubantu:给ubantu安装ssh
查看>>
c语言的null和0
查看>>
二进制详解:世界上有10种人,一种懂二进制,一种不懂。
查看>>
c语言一个字符变量存储多个字符
查看>>
java接口中方法的默认访问修饰符为public
查看>>
java多线程之并发synchronized
查看>>
java多线程之并发Lock
查看>>
微信公众平台基础配置
查看>>
jpa 和 hibernate 的联系
查看>>
SpringBoot之@SpringBootApplication注解
查看>>
ajax 传JSON 写法
查看>>
SpringBoot之web发展史
查看>>
SpringBoot之开发web页面
查看>>
SpringBoot之快速部署
查看>>
springBoot之jar包在后台(运行:编写start、stop脚本)
查看>>
redis学习
查看>>
SpringBoot之application.properties文件能配置的属性
查看>>
javaWeb监听器、过滤器、拦截器
查看>>