位置: 编程技术 - 正文

python数据清洗系列之字符串处理详解(python数据清洗的方法有哪些)

编辑:rootadmin

推荐整理分享python数据清洗系列之字符串处理详解(python数据清洗的方法有哪些),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python数据清洗的方法有哪些,python 数据清洗,python数据清洗例子,python 数据清洗,python数据清洗的方法有哪些,python 数据清洗,python数据清洗流程,利用python数据清洗常用函数,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

数据清洗是一项复杂且繁琐(kubi)的工作,同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目%的时间都是在清洗数据,这听起来有些匪夷所思,但在实际的工作中确实如此。数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗,干净的数据也要洗。

在数据分析中,特别是文本分析中,字符处理需要耗费极大的精力,因而了解字符处理对于数据分析而言,也是一项很重要的能力。

字符串处理方法

首先我们先了解下都有哪些基础方法

首先我们了解下字符串的拆分split方法

对字符str用逗号进行拆分的结果:

['i like apple', 'i like bananer']

根据空格拆分的结果:

['i', 'like', 'apple,i', 'like', 'bananer']

两个查找结果都为:

找不到的情况下index返回错误,find返回-1

结果为:

4

connt用于统计目标字符串的频率

结果为:

['i', 'like', 'apple', 'i', 'like', 'bananer']

这里replace把逗号替换为空格后,在用空格对字符串进行分割,刚好能把每个单词取出来。

除了常规的方法以外,更强大的字符处理工具费正则表达式莫属了。

正则表达式

在使用正则表达式前我们还要先了解下,正则表达式中的诸多方法。

下面我来看下个方法的使用,首先了解下match和search方法的区别

结果为:

Cats are smarter than dogsCatssmarter

这种形式的pettern匹配规则下,match和search方法的的返回结果是一样的

此时如果把pattern改为

match则返回none,search返回结果为:

are smarter than dogssmarter

python数据清洗系列之字符串处理详解(python数据清洗的方法有哪些)

接下来我们了解下其他方法的使用

结果为:

--

以上是通过把#号后面的内容替换为空实现提取号码的目的。

我们还可以进一步对号码的横杆进行替换

结果为:

我们还可以用find的方法把找到的字符串打印出来

结果为:

['5', '5', '5']

正则表达式的整体内容比较多,需要我们对匹配的字符串的规则有足够的了解,下面是具体的匹配规则。

矢量化字符串函数

清理待分析的散乱数据时,常常需要做一些字符串规整化工作。

结果为:

可以通过规整合的一些方法对数据做初步的判断,比如用contains 判断每个数据中是否含有关键词

结果为:

也可以对字符串进行分拆,把需要的字符串提取出来

结果为:

chen [(, xinlang, com)]li [(, qq, com)]sun [(, gmail, com)]wang [(, qq, com)]zhao NaNdtype: object

此时加入我们需要提取邮箱前面的名称

结果为:

或者需要邮箱所属的域名

结果为:

当然也可以用切片的方式进行提取,不过提取的数据准确性不高

结果为:

最后我们了解下矢量化的字符串方法

总结

标签: python数据清洗的方法有哪些

本文链接地址:https://www.jiuchutong.com/biancheng/380071.html 转载请保留说明!

上一篇:python中numpy基础学习及进行数组和矢量计算(numpy基础知识)

下一篇:python cx_Oracle模块的安装和使用详细介绍

  • 坏账准备要写到明细账里面吗
  • 填写了领款单还要填报销单吗
  • 单位当月未扣社保怎么处理分录?
  • 其他应收款属于会计要素中的
  • 收取不合规发票怎么处理
  • 小规模纳税人所得税税率
  • 交通费汇算清缴怎么做账
  • 年薪制有什么好处
  • 雇主责任险是否属于财产保险
  • 增值税和消费税的区别和联系
  • 金税三期有什么功能
  • 增值税申报尾差怎么做账
  • 固定资产捐赠的增值税
  • 自营方式建造固定资产成本包括增值税吗
  • 外包的人力费用包括哪些
  • 赎回公司发行的债券怎么做账?
  • 代扣代缴境外增值税可以抵扣
  • 专票地址不对可以重开吗
  • 个税扣除每个月更新吗
  • 地方教育附加可以在企业所得税前扣除吗
  • 未开发票的结算款怎么入账?
  • prevsrv.exe - prevsrv是什么进程 有什么用
  • 低值易耗品的界定标准何时修改的
  • 盈余公积必须提折旧吗
  • 水利基金退税怎么做会计分录
  • php解构
  • 无偿调入固定资产账务处理
  • 股东分红如何缴纳企业所得税
  • OSError: [WinError 1455] 页面文件太小,无法完成操作。 Error loading “C:\ProgramData\Anaconda3\lib\site-packages\to
  • php添加数据到数据库失败error
  • 金蝶销售明细查不出来
  • 公司卖地如何交税
  • 应交增值税一般是多少
  • 利得税表一定要做审计吗?
  • sqlserver2008误操作数据
  • 钢管租赁行业会计账务处理
  • 管理人员工资结构图
  • 股权转让分期付款风险
  • 资产是指()
  • 哪些情况可以开立基本账户
  • 通讯补贴计入个税吗
  • 企业哪些进项税抵扣
  • 换下来的旧电池还有用吗
  • 销售应税消费品缴纳的消费税计入
  • 固定资产赠送后怎么做凭证
  • 建筑施工企业工程施工明细科目
  • 财政收回项目资金请示
  • 购买商品加包装怎么入账
  • 外资企业对应的企业是什么
  • 飞机票退票费报销凭证图片
  • 外币应收账款汇兑损失计入财务费用吗
  • 会计账本是一年一本吗
  • 建账的要点
  • 东芝笔记本图片及型号
  • win8.1 升级
  • win8.1 下载
  • won10安装
  • centos8 固态硬盘
  • u盘安装ubuntu找不到硬盘
  • win7系统如何调节电脑屏幕亮度
  • window8系统好用吗
  • 关闭windows怎么关
  • win10 提示你的设备遇到问题 需要重新启动
  • linux学啥
  • 屏幕画面颠倒
  • 家用电脑是什么机型
  • javascript中声明变量的关键字
  • cocos2d教程
  • python利用csv模块在对csv文件进行操作
  • AngularJS + Node.js + MongoDB开发的基于高德地图位置的通讯录
  • nodejs实战教程
  • Unity UIScrollView优化
  • js 仿真
  • Protocol Buffers(Protobuf)开发者指南---概览
  • jquery?
  • jquery实现简单Tab切换菜单效果
  • python中fd
  • 河北税务怎么查询交了没有
  • 注销发票怎么处理流程
  • 国家税务总局河南省税务干部学校
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设