位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 年前一个月工资年后发
  • 固定资产接受捐赠的计入什么科目
  • 企业的筹建期允许有多长?
  • 电子发票错误怎么重开
  • 补交以前年度车船税
  • 免抵税额什么时候缴纳城建税
  • 其他应收款款项性质有哪几种
  • 审计报告印花标
  • 工业企业员工工资占收入比例
  • 销售自用旧机动车辆的税务处理
  • 测绘费能否在土地出让
  • 银行汇票使用流程举例
  • 银行利息怎么算?
  • 风险纳税人还能开发票吗
  • 国家高新补助款多久到账
  • 被代持股份怎么退出
  • 制造企业搬运系统设计重组带来新活力
  • 待认证进项税额借贷方向
  • 劳务派遣公司一般纳税人税率是多少
  • 4s店开业有什么优惠
  • 运费计入采购成本会计分录
  • 个人账户付款到对公账户
  • 零申报做账怎么做
  • 非营利组织怎么申请
  • 联营 保底
  • 印花税的征税范围及税率
  • 五险会计分录会计处理
  • 公司购买理财产品账务处理
  • 股权处置的形式
  • PHP:iterator_count()的用法_spl函数
  • php数组函数,选班长
  • 吃鸡到底用什么显卡性价比最高?
  • 收到固定资产的记账凭证
  • node深入浅出pdf
  • php执行另一个php
  • 董事长报销应该是怎样的流程
  • set命令用法
  • grpc 调试工具
  • 金融资产减值迹象
  • 用友t3固定资产清理怎么操作
  • mysql事务类型
  • 怎么安装vue-cli脚手架
  • 帝国cms 开启动态
  • 小微企业应纳税所得额计算
  • 小规模纳税人要报个人所得税吗
  • 上月未结账本月是否能记账
  • 关于税务机关扣押程序
  • 应收账款属于什么会计要素
  • 在建工程和预付账款怎么转化
  • sql 获取指定字符位置
  • 结转本年利润要算期初余额吗
  • 汽车维修费可以入账吗
  • 企业净利润怎么查询数据
  • 红冲去年费用会计分录
  • 招标代理专家库合法吗
  • 超市发票报销一般写什么明细
  • 残保金管理使用办法
  • 结构性存款怎么计算收益
  • 外贸整个流程图
  • sql2008没有数据库
  • mysql中间件有哪些
  • xp文件夹选项在哪里打开
  • ubuntu安装ubuntu-desktop
  • xmp文件是干嘛用的
  • linux磁盘的使用方式
  • 如何使用shell脚本将文件中的人分组,并输出
  • opengl 实现
  • nodejs writestream
  • javascript中window.onload
  • jquery?
  • js文字循环滚动代码
  • jquery(document).ready
  • 三消游戏规则
  • php守护进程的应用场景
  • android 加载大量图片
  • python迭代器iterator
  • 贵州省产检费用报销流程
  • 南京上班时间2021
  • 地方税务局工作内容
  • 保税工厂和非保税工厂的区别
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设