位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 中华人民共和国国歌
  • 个人独资企业出资额是注册资本吗
  • 银行开具的票据有哪些
  • 无法支付的应付账款需要交增值税吗
  • 测绘费发票需要备注么
  • 买车装具
  • 赠送的物业费需要交个税吗
  • 房屋租赁需要交税吗?
  • 机动车销售统一专票有几联
  • 物业管理提供的服务变化
  • 发票抵扣联什么时候用
  • 建筑企业在增值税方面新出台的政策
  • 临时工工资个税怎么算
  • 付敏科技有限公司官网
  • 500万以下固定资产最新政策
  • 小规模纳税人季报是哪几个月
  • 长期股权投资佣金手续费计入
  • 维修材料费主要包括
  • 当月计提当月缴纳的增值税还用结转吗
  • 库存商品入库的会计科目
  • mac双系统删除window后怎么重新恢复
  • 收到加盟费怎么入账
  • 低值易耗品包括哪些内容?属于什么科目?
  • 季节性停工是什么
  • 股东个人财产转让流程
  • thinkphp yii
  • 提供建筑安装服务
  • 销货退回未按规则处理
  • windows7旗舰版最新版本
  • 营业利润期末余额怎么算
  • 详解HTTP Cookie状态管理机制
  • php格式图片
  • batchsize1
  • 水利建设基金按季度缴纳
  • Vite4+Pinia2+vue-router4+ElmentPlus搭建Vue3项目(组件、图标等按需引入)[保姆级]
  • 关联广告是什么意思
  • 什么情况下计入库存商品
  • 理财产品分红和收益
  • 社保滞纳金所得税
  • 免税企业免征增值税条件
  • sqlserver2019删除
  • 提高资产利用率的例子
  • 车辆保险费如何缴纳印花税的
  • 个税专项附加扣除什么意思
  • 餐费计入哪个科目合理避税
  • 汽车租赁入什么费用
  • 以前年度生产成本怎么转为研发费用
  • 怎么才能回到一年前
  • 专票已认证但又不能抵扣
  • 购买汽车的工本费如何入账
  • 增资扩股对原股东的影响
  • 应收票据背书转让不终止确认如何记账
  • 申报表怎么更正
  • 工会经费是什么凭证
  • 个税返还开票什么项目
  • 商品库存明细账
  • 查询一个字段有哪些值
  • 电脑更新win10系统软件
  • win7 组织
  • 构建dockerfile
  • 王者自动更新怎么关
  • linuxvi编辑器的用法
  • nerosmartstart.exe - nerosmartstart是什么进程 作用是什么
  • win8禁用网络之后如何开启
  • js数组entries
  • android开发手册
  • linux修改磁盘格式指令
  • android开发详解
  • jquery的方法有哪些
  • 个人所得税代扣代缴会计分录
  • 个税更正申报后,少缴纳的税款如何退回
  • 如何在同一台电脑上投屏
  • 我是一般纳税人对方给我开的普票
  • 内蒙古国家税务局网上电子税务局官网
  • 简述进料加工对中国的意义
  • 行政服务事项包含哪些
  • 消费税是由消费者完全负担的税种
  • 怎么绑定办税员
  • 如何理性看待出轨
  • 小微企业所得税5%优惠政策
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设