位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 增值税的计税金额
  • 行政单位总账科目
  • 房地产预售啥意思
  • 蔬菜专用发票在哪里开
  • 个人收外汇有限制吗
  • 生产成本二级科目有工资吗
  • 制造企业发出材料成本的计价方法
  • 财务报表其他应付款为负数
  • 税率和征收率的含义和区别
  • 预存送返利的帐户怎么查
  • 个人独资企业是一般纳税人吗
  • 从公司账户取现金
  • 高温气温
  • 哪些研发费用可以资本化
  • 坏账准备增加记什么方
  • 年底有留抵税额需要结转吗
  • 代建工地
  • 新买的电脑如何激活windows
  • 接受捐赠收入要计入销售收入吗
  • 库存商品如何结转生产成本
  • 在linux系统中 用来存放系统所需
  • 公司买的手机怎么入账科目
  • 企业车间承包合同的法律效力
  • 库存商品的主要类型
  • 公司注册小规模有什么要求
  • 六千元左右
  • 什么是坏账,坏账的核算方法有哪些
  • RuntimeError: (PreconditionNotMet) The third-party dynamic library (cudnn64_7.dll) that Paddle depen
  • OfcPfwSvc.exe - OfcPfwSvc是什么进程 有什么用
  • 使用php进行mysql数据库编程的基本步骤
  • 企业之间拆借资金
  • 简述税款征收的基本原则
  • thinkphp5.0框架
  • 劳动仲裁的调解款要扣税吗
  • 什么叫含税和未含税区别
  • javascript核心技术
  • Python Module — OpenAI ChatGPT API
  • vue中key
  • 微信收款会计入个人所得税吗
  • 工程项目过路费是指什么意思啊
  • 树结构ADT知识点思维导图
  • 补计提个税分录
  • 装修店面装修费的会计分录
  • 抵扣联和发票联算一张发票吗
  • 计算企业所得税分录
  • 当master down掉后,pt-heartbeat不断重试会导致内存缓慢增长的原因及解决办法
  • ibm.data.db2
  • 删除mysql数据库用户
  • sql server搜索语句
  • mysql日志文件在哪
  • 其他综合收益转入盈余公积和未分配利润
  • 销售退回的账务处理会计分录
  • 如何解决私账流失问题
  • 土地使用税怎么征收标准
  • 网络销售还可以叫什么
  • 独立核算好处
  • 会计损益类科目有哪些,期末如何结转?
  • 外派员工的薪酬构成有哪些项目
  • mysql sql 基础教程
  • win2000停止服务
  • xp硬盘安装win7系统教程
  • aow进程
  • packethsvc.exe - packethsvc是什么进程 有什么用
  • win10系统微软账户密码忘了
  • 如何解决在沟通中产生的漏斗效应
  • linux系统安装软件教程
  • opengl glm库
  • python正则匹配url
  • js 浮点数运算
  • jquery模拟表单提交
  • node.js中的http.request方法使用说明
  • nodejs 模块
  • ubuntu如何以root用户运行
  • 批处理实例
  • jQuery通过ajax快速批量提交表单数据
  • 浅谈python中的实例方法、类方法和静态方法
  • unity learn premium
  • 安卓模拟器测试
  • 国家税务总局查发票
  • 海关行政处罚实施条例的适用范围
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设