位置: IT常识 - 正文

使用 Python 处理 Json 数据(python处理数据教程)

编辑:rootadmin
一、引言:什么是 JSON JSON (Java Script Object Notation) 是一种很常用的数据格式,它常常用在 web 应用程序中。它可以表示结构化的数据。 下面是常见的 JSON 文件结构 { "name": "Kamishiro Rize", "age": "22", "o ... 一、引言:什么是 JSON

推荐整理分享使用 Python 处理 Json 数据(python处理数据教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python如何处理,如何用python处理数据,python语言处理,利用python数据处理,python妙用,python语言处理,利用python进行,python语言处理,内容如对您有帮助,希望把文章链接给更多的朋友!

JSON (Java Script Object Notation) 是一种很常用的数据格式,它常常用在 web 应用程序中。它可以表示结构化的数据。

下面是常见的 JSON 文件结构

{ "name": "Kamishiro Rize", "age": "22", "occupation": "firefighter", "traits": [ "Eagle Eyed", "Fast Healer", "High Thirst", "Hearty Appetite" ]}

它看起来与 Python 的 字典非常类似,也是由 key - value 结对组成,其中key是字符串形式,value是字符串、数字、布尔值、数组、对象或null。key/value间均使用逗号进行区分。

在 Python 中,JSON 作为字符串存在

json_get="_blank">str = '{"name": "Kamishiro Rize", "age": "22", "profession": "firefighter", "traits": ["Eagle Eyed", "Fast Healer", "High Thirst", "Hearty Appetite"]}'

JSON 与 Python 的数据结构和对应关系如下:

JSONPYTHONobjectdictarraylist, tuplestringstr, unicodenumberint, long, floattrue / falseTrue / FalsenullNone

要使用 JSON ,字符串或者包含 JSON 对象的文件,都可以使用 Python 的内置包 json 模块。

import json二、示例:在 Python 中解析 JSONJSON 模组的常用方法load / loads: 把 JSON 转换为 Pythonloads()# some jsonsomebody_info = '{"name": "Wenjie Ye", "age": 75, "nationality": "China"}'# parse to dictj = json.loads(somebody_info)# show resultprint(j["name"])print(j["age"])print(type(j))

结果

Wenjie Ye75<class 'dict'>

将 JSON 转换为 Python 后,其结果的类型为字典

load()# some jsonsomebody_info = '{"name": "Wenjie Ye", "age": 75, "nationality": "China"}'# use json.load# j = json.load(somebody_info) # AttributeError: 'str' object has no attribute 'read'from io import StringIOio = StringIO(somebody_info)j = json.load(io)print(type(j))print(j)

load() 是从json格式的文件中读取数据并转换为python的类型。适用于文件读取,所以我们按 loads() 的例子来操作是会出错的,可以使用 StringIO 转换一下。load() 的结果也是返回字典

<class 'dict'>{'name': 'Wenjie Ye', 'age': 75, 'nationality': 'China'}dump / dumps: 把 Python 转换为 JSONdumps()python_dict = { 'name': 'Wenjie Ye', 'age': 75, 'nationality': 'China',}# convert to JSONj = json.dumps(python_dict)# resultprint(j)print(type(j))

转换后的结果返回字符串

{"name": "Wenjie Ye", "age": 75, "nationality": "China"}<class 'str'>dump()

有了 load() 的经验,你应该知道,不带 s 的 dump 方法是用来将python数据类型转换并保存到json格式的文件内的。

from io import StringIOio = StringIO()json.dump('{"name": "Wenjie Ye", "age": 75, "nationality": "China"}', io)content = io.getvalue()print(content)

结果

"{\"name\": \"Wenjie Ye\", \"age\": 75, \"nationality\": \"China\"}"

总结

dumps / dump: 将 Python 转换 JSON,返回的 type 为 strloads / load: 将 JSON 转换为 Python,返回的 type 为 Dict如果要根据字符串转化方法中使用带有 s 的,要从文件进行转化就不加 s优雅的使用 json 模块格式化 JSON 结果

不难发现,dumps 获得的 str 结果并不是很好看,如果数据量大,或者数据结构复杂,没有缩进和换行将使得 JSON 数据变得不容易阅读。

所以 dumps() 方法提供了一些令结果更易读的参数,这些参数在实际工作中也常常用到。

indent 参数:定义缩进数python_dict = { 'name': 'Wenjie Ye', 'age': 75, 'nationality': 'China', 'occupations': ['Astrophysicist', 'University Professor'],}res = json.dumps(python_dict, indent=4)print(res)

转换的结果将按照 indent 缩进 4 格

{ "name": "Wenjie Ye", "age": 75, "nationality": "China", "occupations": [ "Astrophysicist", "University Professor" ]}separators 参数:更改默认分隔符

我们先来看看官方对其的定义:

使用 Python 处理 Json 数据(python处理数据教程)

If specified, separators should be an (item_separator, key_separator) tuple. The default is (', ', ': ') if indent is None and (',', ': ') otherwise. To get the most compact JSON representation, you should specify (',', ':') to eliminate whitespace.

类型应该传入元组其默认值是 (',', ': ')

元组的第一个分隔符为 key-value 之间的分隔,默认是逗号;第二个分隔符为 key 与 value 之间的分隔,默认是冒号。

我们可以更改分隔符的样式:

res = json.dumps(python_dict, indent=4, separators=(". ", " = "))print(res)

结果

{ "name" = "Wenjie Ye". "age" = 75. "nationality" = "China". "occupations" = [ "Astrophysicist". "University Professor" ]}sort_keys 参数: 对结果排序,布尔值res = json.dumps(python_dict, indent=4, sort_keys=True)print(res)

结果

{ "age": 75, "name": "Wenjie Ye", "nationality": "China", "occupations": [ "Astrophysicist", "University Professor" ]}json 模块不支持转换 bytes 类型

需要注意的是对于 bytes,json 模块并不能顺利转换,要先将bytes转换为str格式。

b = b"bytes content"# j = json.dumps(b) # TypeError: Object of type bytes is not JSON serializablej = json.dumps(b.decode())print(j) # "bytes content"

直接转换 bytes 的结果是 TypeError,会告知你 bytes 不可JSON序列化, 只有转换为 str 类型后才可以序列化。

json 文件读写import jsonpython_dict = {"k1": "v1", "k2": 123, "k3": ["I'm", "NutCat"]}# writef_json = json.dump(python_dict, open("E:\\temp\\temp.json", "w"))print(f_json) # return None# readimport osos.chdir("E:\\temp\\")# check temp.json existprint(os.listdir())# read json fileprint(json.load(open("E:\\temp\\temp.json")))

结果

None['temp.json']{'k1': 'v1', 'k2': 123, 'k3': ["I'm", 'NutCat']}

当然,我还是推荐使用 with open 的方式来写入数据

with open("E:\\temp\\temp.json", "w") as f:json.dump(python_dict, f)利用 pandas 读取 JSONimport pandas as pddf = pd.read_json("E:\\temp\\temp.json")print(df.head())

如果你想利用 DataFrame 的特性来处理数据,你还可以使用 Pandas 库来读取数据,它读取我们之前生成的 temp.json 的结果如下:

k1 k2 k30 v1 123 I'm1 v1 123 NutCat

毫无疑问,我们可以用上强大的 pandas 的特性来处理 json 数据了。

但是,实际工作中,json 文件的内容可不像我们 temp.json 文件一样简单到朴实无华,我们需要知道怎么处理嵌套的 JSON 数据

有如下的 JSON 数据,保存在 json_test.json 文件中,members 字段中保存有 object 类型的数据,这些嵌套的数据在读取到 DataFrame 后会被转换为字典。

{ "system_id": 707077, "system_name": "account_system", "formed": 2022, "update_time": "2022-06-06", "members": [ { "username": "Kamishiro Rize", "age": "22", "account": "12345678", "nationality": "Japan", "active": false }, { "username": "Wenjie Ye", "age": "75", "account": "87654321", "nationality": "China", "active": true } ]}

现在,我们按照以前的方法读取它

import osimport pandas as pddf = pd.read_json("json_test.json")print(df)

读取的结果如下

system_id system_name formed update_time \0 707077 account_system 2022 2022-06-06 1 707077 account_system 2022 2022-06-06 members 0 {'username': 'Kamishiro Rize', 'age': '22', 'a... 1 {'username': 'Wenjie Ye', 'age': '75', 'accoun...

其中的 members 字段是保存了一整个字典的,那么应该如何把他拆分开呢?其实,这一步已经和 json 无关了,是依靠 pandas 来处理这些嵌套的数据了。

我们可以在 members 列上,使用 apply 方法

df["members"].apply(pd.Series)

返回了 DataFrame 结果

usernameageaccountnationalityactive0Kamishiro Rize2212345678JapanFalse1Wenjie Ye7587654321ChinaTrue

但是,使用 apply 方法后生成了一个新 DataFrame,那我们还得想个办法给拼回去原来的 DataFrame。

其实,pandas 库中还有一个函数 json_normalize()

import jsonimport pandas as pdwith open("json_test.json") as f: acct_info = json.load(f)res = pd.json_normalize( acct_info, record_path=["members"], meta=["system_id", "system_name", "formed", "update_time"],)print(res)

它会将 members 拆分并拼接到 DataFrame 结果中

username age account nationality active system_id system_name \0 Kamishiro Rize 22 12345678 Japan False 707077 account_system 1 Wenjie Ye 75 87654321 China True 707077 account_system formed update_time 0 2022 2022-06-06 1 2022 2022-06-06 record_path: 需要拆分的列的名字meta: 其他要加入到结果的列名的list,其顺序就是输出的顺序meta_prefix: 这个参数可以给 meta 的字段名前加个前缀
本文链接地址:https://www.jiuchutong.com/zhishi/304616.html 转载请保留说明!

上一篇:python绘制散点图的两种方法(python绘制散点图的函数)

下一篇:Uncaught SyntaxError: Unexpected token '<' (at 报错

  • 可口和宝洁居然说数字营销效果差?!(可口旗下的品牌)

    可口和宝洁居然说数字营销效果差?!(可口旗下的品牌)

  • vivo NEX 3s搭载的是什么处理器(vivo手机nex3s评测)

    vivo NEX 3s搭载的是什么处理器(vivo手机nex3s评测)

  • 华为nova5i pro什么时候上市(华为nova5ipro什么处理器)

    华为nova5i pro什么时候上市(华为nova5ipro什么处理器)

  • scrolllock键是什么意思(scrolllock键是干啥的)

    scrolllock键是什么意思(scrolllock键是干啥的)

  • 天猫保价多少天(天猫保价多少天 包括双11)

    天猫保价多少天(天猫保价多少天 包括双11)

  • 附件形式上传是什么意思(上传附件界面)

    附件形式上传是什么意思(上传附件界面)

  • 小米9se下架原因(小米九se为什么下架了)

    小米9se下架原因(小米九se为什么下架了)

  • 闲鱼申请退款多久到账(闲鱼申请退款多久自动退款)

    闲鱼申请退款多久到账(闲鱼申请退款多久自动退款)

  • 芒果体验会员用不了(芒果体验会员用什么支付)

    芒果体验会员用不了(芒果体验会员用什么支付)

  • 脚注怎么设置成方括号(脚注怎么设置成圆圈1)

    脚注怎么设置成方括号(脚注怎么设置成圆圈1)

  • 钉钉视频会议进不去怎么回事(钉钉视频会议进不去 网络高峰)

    钉钉视频会议进不去怎么回事(钉钉视频会议进不去 网络高峰)

  • 手机清理内存在哪里清(手机清理内存最好的软件)

    手机清理内存在哪里清(手机清理内存最好的软件)

  • 平板出现白线条怎么办(平板出现白色横杠)

    平板出现白线条怎么办(平板出现白色横杠)

  • 快手能横屏直播吗(快手横屏直播怎么设置)

    快手能横屏直播吗(快手横屏直播怎么设置)

  • vivox27通话设置在哪里(vivo手机如何设置通话)

    vivox27通话设置在哪里(vivo手机如何设置通话)

  • 手机怎样连接电脑(手机怎样连接电脑以太网)

    手机怎样连接电脑(手机怎样连接电脑以太网)

  • 拼多多怎么解除通讯录权限(拼多多怎么解除绑定银行卡绑定)

    拼多多怎么解除通讯录权限(拼多多怎么解除绑定银行卡绑定)

  • 三星s6手机什么处理器(三星s6什么型号)

    三星s6手机什么处理器(三星s6什么型号)

  • 手机钉钉怎么更新(手机钉钉怎么更改管理员)

    手机钉钉怎么更新(手机钉钉怎么更改管理员)

  • 电信4g+hd什么意思(电信4g+hd是什么意思)

    电信4g+hd什么意思(电信4g+hd是什么意思)

  • 华为改善拍摄画质怎么取消(华为改善拍摄画面怎么调)

    华为改善拍摄画质怎么取消(华为改善拍摄画面怎么调)

  • 抖音能加微信好友吗(抖音加微信好友)

    抖音能加微信好友吗(抖音加微信好友)

  • 华为手机拍照时间水印(华为手机拍照时间水印怎么设置)

    华为手机拍照时间水印(华为手机拍照时间水印怎么设置)

  • 天猫精灵怎么控制空调(天猫精灵怎么控制灯光的开关)

    天猫精灵怎么控制空调(天猫精灵怎么控制灯光的开关)

  • 快手怎么看热门(快手怎么看热门了没有)

    快手怎么看热门(快手怎么看热门了没有)

  • 2022年最新电脑学习网防红站-在线生成短链接绿标系统免费下载-电脑学习网(2022年最新电脑操作系统)

    2022年最新电脑学习网防红站-在线生成短链接绿标系统免费下载-电脑学习网(2022年最新电脑操作系统)

  • 当月只有进项税额月末怎么办
  • 增值税进项税额转出是什么意思
  • 员工工资计入管理费用吗
  • 一般纳税人月底增值税如何结转
  • 母子公司间提供保洁保安合法吗
  • 公司转让注册资金怎么弄
  • 小规模没有进项可以开发票吗
  • 进项税有余额但没有余额
  • 记账凭证摘要的重要性
  • 由于疏忽装修费用之前没有摊销应如何处理
  • 海关进口货物如何消杀
  • 报价表含税点是什么意思?
  • 水利建设专项收入税
  • 特定行业职工取得的工资、薪金所得,如何计算个人所得税?
  • 普通发票每个月有限制吗
  • 企业收到党建经费 所得税
  • 典当行的账务处理会计分录大全
  • 航天金税服务费280怎么缴费
  • 百旺税控服务器管理系统
  • 五联折叠票和两联折叠票的区别
  • 委托加工物资怎么入账
  • 应交税费应交增值税的三级科目有哪些
  • 新版edge浏览器历史记录
  • macbook自动弹出页面
  • windows10怎么设置自启动
  • 是否亏损看什么
  • 如何禁用win10自动修复
  • 其他应付款和其他应付款对冲
  • 打印机疑难解答显示打印机问题
  • 为实习生支付人身意外伤害保险如何进行账务处理?
  • 材料分配的四个步骤
  • 配置eAccelerator和XCache扩展来加速PHP程序的执行
  • 农民影视2023 最新版
  • 实现php框架系列功能
  • 详解php匿名函数
  • thinkPHP中_initialize方法实例分析
  • 没有计提坏账如何披露
  • 取得了水电费发票怎么做
  • 个体工商户建账办法最新
  • 行政事业单位福利费列支范围及标准2023
  • python 函数 global
  • 投稿网址打不开
  • 出差补贴要不要交个税呢?
  • 应付职工薪酬的含义
  • sql怎么搜索表
  • 会计核算的作用,意义
  • 销售旧固定资产开票编码
  • 公司交残保金是什么意思
  • 发票金额比实际付款多怎么做账
  • 2020年扶贫拨款
  • 检测费用的会计分录
  • 收入 摊销
  • 跨年度未开发票第二年如何做确认收入?
  • 公司需要现金
  • 员工意外险的费用怎么算
  • 会计可以用收据做账吗
  • 应收会计怎么做
  • 原始凭证填制要点在原始凭证上书写阿拉伯数字正确的有
  • sql server建表时怎样选择数据类型
  • sql server如何使用
  • mysql in的子查询
  • win8旗舰版和专业版区别
  • mscorsvw.exe是什么
  • win10如何动态桌面
  • vi编辑器的三种模式
  • WIN10家庭版系统怎么禁用Device
  • windows7磁盘清理命令
  • 右键回收站一直转圈
  • js内存释放
  • unity平移场景视图怎样操作?
  • jsp手机号验证
  • jquery判断控件是否存在
  • shell 自定义函数
  • 前端js优化
  • jquery return
  • javascript基础笔记
  • python读取大txt文件
  • javascript面向对象 第三方类库
  • jQuery基于toggle实现click触发DIV的显示与隐藏问题分析
  • javascript如何禁用
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设