位置: 编程技术 - 正文

python数据清洗系列之字符串处理详解(python数据清洗的方法有哪些)

编辑:rootadmin

推荐整理分享python数据清洗系列之字符串处理详解(python数据清洗的方法有哪些),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python数据清洗的方法有哪些,python 数据清洗,python数据清洗例子,python 数据清洗,python数据清洗的方法有哪些,python 数据清洗,python数据清洗流程,利用python数据清洗常用函数,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

数据清洗是一项复杂且繁琐(kubi)的工作,同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目%的时间都是在清洗数据,这听起来有些匪夷所思,但在实际的工作中确实如此。数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗,干净的数据也要洗。

在数据分析中,特别是文本分析中,字符处理需要耗费极大的精力,因而了解字符处理对于数据分析而言,也是一项很重要的能力。

字符串处理方法

首先我们先了解下都有哪些基础方法

首先我们了解下字符串的拆分split方法

对字符str用逗号进行拆分的结果:

['i like apple', 'i like bananer']

根据空格拆分的结果:

['i', 'like', 'apple,i', 'like', 'bananer']

两个查找结果都为:

找不到的情况下index返回错误,find返回-1

结果为:

4

connt用于统计目标字符串的频率

结果为:

['i', 'like', 'apple', 'i', 'like', 'bananer']

这里replace把逗号替换为空格后,在用空格对字符串进行分割,刚好能把每个单词取出来。

除了常规的方法以外,更强大的字符处理工具费正则表达式莫属了。

正则表达式

在使用正则表达式前我们还要先了解下,正则表达式中的诸多方法。

下面我来看下个方法的使用,首先了解下match和search方法的区别

结果为:

Cats are smarter than dogsCatssmarter

这种形式的pettern匹配规则下,match和search方法的的返回结果是一样的

此时如果把pattern改为

match则返回none,search返回结果为:

are smarter than dogssmarter

python数据清洗系列之字符串处理详解(python数据清洗的方法有哪些)

接下来我们了解下其他方法的使用

结果为:

--

以上是通过把#号后面的内容替换为空实现提取号码的目的。

我们还可以进一步对号码的横杆进行替换

结果为:

我们还可以用find的方法把找到的字符串打印出来

结果为:

['5', '5', '5']

正则表达式的整体内容比较多,需要我们对匹配的字符串的规则有足够的了解,下面是具体的匹配规则。

矢量化字符串函数

清理待分析的散乱数据时,常常需要做一些字符串规整化工作。

结果为:

可以通过规整合的一些方法对数据做初步的判断,比如用contains 判断每个数据中是否含有关键词

结果为:

也可以对字符串进行分拆,把需要的字符串提取出来

结果为:

chen [(, xinlang, com)]li [(, qq, com)]sun [(, gmail, com)]wang [(, qq, com)]zhao NaNdtype: object

此时加入我们需要提取邮箱前面的名称

结果为:

或者需要邮箱所属的域名

结果为:

当然也可以用切片的方式进行提取,不过提取的数据准确性不高

结果为:

最后我们了解下矢量化的字符串方法

总结

标签: python数据清洗的方法有哪些

本文链接地址:https://www.jiuchutong.com/biancheng/380071.html 转载请保留说明!

上一篇:python中numpy基础学习及进行数组和矢量计算(numpy基础知识)

下一篇:python cx_Oracle模块的安装和使用详细介绍

  • 代开的增值税专票需要另外申报附加税吗?
  • 代销商品的手续费税率是多少
  • 固定资产报废申请表模板
  • 增值税专用发票抵扣期限
  • 金税四期主要监管什么
  • 计入投资收益的手续费
  • 建筑发票一般开几个点
  • 自行研发的无形资产会计处理
  • 公益性生物资产属于什么科目
  • 已认证的进项税额转出如何操作
  • 收到电费发票做账摘要怎么写
  • 公司办的中石化油卡可以查视频记录吗
  • 苗木销售免企业所得税吗
  • 怎么在网上申请变更姓名
  • 个人所得税合并扣税
  • 纳税人跨县(市、区)是指
  • 股权成本计算公式rd
  • 怎么核算租赁合同的印花税?
  • 发票勾选保存后不提交了能留到下月抵扣吗?
  • 专用发票抵扣和免税区别
  • win10 5月更新已知bug
  • 权益法初始入账价值和初始投资成本
  • 企业缴纳社保的社保险种包括
  • php开源软件
  • win11绿屏是什么原因
  • 专有技术应当得到
  • 从银行提取现金准备发放工资
  • 单位管理费用核算
  • 如何管理和维护企业微信客户
  • 代缴费社保
  • 劳务公司已开票,可款项未收到,税票多久有效
  • 2020注册谷歌账号方法
  • 现金日记账的结账方法
  • 增值税抵扣要求一一对应
  • python里pip
  • 计提坏账准备需要确认递延所得税吗
  • 固定资产记到什么账本
  • 一般纳税人不得从销项税额中抵扣的进项税额有哪些?
  • 网上报税教程
  • 研发费用怎么体现
  • MYSQL数据库设计与应用第二版
  • php 文件处理
  • 劳务报酬的个人所得税
  • 购买设备配件
  • 哪些进项税额不能抵扣
  • 股票分红是怎么扣税的
  • 长期股权投资被投资方实现净利润
  • 残保金如何做账务处理
  • 无法收回的款项
  • 债务转为股份的协议
  • 作废的金额包含在总额里面吗
  • 印花税为什么不用计提
  • 贷款收取服务费
  • 资本成本率是指企业用资费用与有效筹资额之间的比率
  • 城镇土地税需要计税吗
  • 未结转本年利润的股东分红的分录
  • 期间费用率怎么算
  • 公司支付质保金怎么做账
  • 投资管理工作内容
  • 安装fedora进入不到安装界面
  • xp系统盘空间不足怎么办
  • windows8怎么更新到最新版本
  • linux程序死机
  • centos更新yum update
  • 东芝笔记本配件
  • windows7 sp1升级包
  • win8系统怎么还原出厂设置
  • 建立批处理命令
  • easyui选项卡
  • html中的表格
  • unity 调用java
  • java list转set的方法
  • 并行 python
  • js检测类型的方法
  • 前端开发的工作流程
  • 用python语言编写
  • 安卓 自动化app
  • 税控发票开票软件提示非征期不得抄报税?是什么意思?
  • 广东广电网络投诉电话
  • 江苏省常熟市归哪管
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设