位置: 编程技术 - 正文

python数据清洗系列之字符串处理详解(python数据清洗的方法有哪些)

编辑:rootadmin

推荐整理分享python数据清洗系列之字符串处理详解(python数据清洗的方法有哪些),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python数据清洗的方法有哪些,python 数据清洗,python数据清洗例子,python 数据清洗,python数据清洗的方法有哪些,python 数据清洗,python数据清洗流程,利用python数据清洗常用函数,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

数据清洗是一项复杂且繁琐(kubi)的工作,同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目%的时间都是在清洗数据,这听起来有些匪夷所思,但在实际的工作中确实如此。数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗,干净的数据也要洗。

在数据分析中,特别是文本分析中,字符处理需要耗费极大的精力,因而了解字符处理对于数据分析而言,也是一项很重要的能力。

字符串处理方法

首先我们先了解下都有哪些基础方法

首先我们了解下字符串的拆分split方法

对字符str用逗号进行拆分的结果:

['i like apple', 'i like bananer']

根据空格拆分的结果:

['i', 'like', 'apple,i', 'like', 'bananer']

两个查找结果都为:

找不到的情况下index返回错误,find返回-1

结果为:

4

connt用于统计目标字符串的频率

结果为:

['i', 'like', 'apple', 'i', 'like', 'bananer']

这里replace把逗号替换为空格后,在用空格对字符串进行分割,刚好能把每个单词取出来。

除了常规的方法以外,更强大的字符处理工具费正则表达式莫属了。

正则表达式

在使用正则表达式前我们还要先了解下,正则表达式中的诸多方法。

下面我来看下个方法的使用,首先了解下match和search方法的区别

结果为:

Cats are smarter than dogsCatssmarter

这种形式的pettern匹配规则下,match和search方法的的返回结果是一样的

此时如果把pattern改为

match则返回none,search返回结果为:

are smarter than dogssmarter

python数据清洗系列之字符串处理详解(python数据清洗的方法有哪些)

接下来我们了解下其他方法的使用

结果为:

--

以上是通过把#号后面的内容替换为空实现提取号码的目的。

我们还可以进一步对号码的横杆进行替换

结果为:

我们还可以用find的方法把找到的字符串打印出来

结果为:

['5', '5', '5']

正则表达式的整体内容比较多,需要我们对匹配的字符串的规则有足够的了解,下面是具体的匹配规则。

矢量化字符串函数

清理待分析的散乱数据时,常常需要做一些字符串规整化工作。

结果为:

可以通过规整合的一些方法对数据做初步的判断,比如用contains 判断每个数据中是否含有关键词

结果为:

也可以对字符串进行分拆,把需要的字符串提取出来

结果为:

chen [(, xinlang, com)]li [(, qq, com)]sun [(, gmail, com)]wang [(, qq, com)]zhao NaNdtype: object

此时加入我们需要提取邮箱前面的名称

结果为:

或者需要邮箱所属的域名

结果为:

当然也可以用切片的方式进行提取,不过提取的数据准确性不高

结果为:

最后我们了解下矢量化的字符串方法

总结

标签: python数据清洗的方法有哪些

本文链接地址:https://www.jiuchutong.com/biancheng/380071.html 转载请保留说明!

上一篇:python中numpy基础学习及进行数组和矢量计算(numpy基础知识)

下一篇:python cx_Oracle模块的安装和使用详细介绍

  • 增值税纳税申报表在哪里查询
  • 居民个税和非居民个税哪个高
  • 广告宣传费扣除比例
  • 代付的费用收不收手续费
  • 个人所得税申报是公司申报还是个人申报
  • 兼职合同工资发放
  • 不动产服务具体有哪些
  • 房地产公司固定资产管理制度
  • 收到未税货款怎么入账
  • 广东省电子税务局app下载
  • 天猫企业支付宝怎么提现
  • 建筑业增值税普通发票可以抵扣吗
  • 金税盘抵减税款分录
  • 长期应付款账面价值和账面余额
  • 外账成本要注意什么
  • 月末在产品直接人工成本怎么算
  • 技术服务费进项票会计分录
  • 签发支票怎么做账务处理
  • 企业注销后有收入怎么交税
  • 外资公司办事处职能
  • 汇算清缴退税怎么调整金额
  • 利润总额和净利润的区别
  • 应收票据的核算账户有哪些
  • 如何保护电子邮件账户不被黑客攻击
  • PHP:Memcached::isPristine()的用法_Memcached类
  • 记帐凭证由谁填制
  • php如何提高程序运行效率
  • 新产品研发费的会计分录
  • wirecut.exe
  • 无人驾驶控制方向
  • php 分页
  • yii2框架从入门到精通pdf
  • ccna 试题
  • 宋大叔教音乐第三单元进阶版
  • thinkphp5上传文件
  • 净收入是营业收入吗
  • 行政事业单位资产管理办法
  • 企业所得税年报截止日期2023
  • mysql中事件的作用
  • 影响年度损益的金额怎么算
  • sql server如何查看本地的登录名和密码
  • 个体户注销工商需要等公示时间结束吗?
  • 接受母公司捐赠现金分录
  • 金蝶kis云专业版使用教程
  • 印花税记入哪个费用
  • 其他应付款如何清零
  • 会计账户与银行账户
  • 银行收到一笔款项企业尚未入账属于什么情况的未达账项
  • 登记账簿遇到的问题及解决
  • 营利性养老院都交哪些税
  • 满减送的购物券在哪里看
  • 工程施工中购入固定资产
  • 税控系统全额抵扣
  • windows7的内存基本要求
  • win10预览版退回正式版
  • CentOS上查看系统信息以及配置防火墙的方法
  • ubuntu设置登录用户
  • linux系统怎么共享
  • win7系统ctfmon在哪个文件夹
  • linux解压操作
  • myminer.exe是什么
  • win7无网激活
  • Win10预览版拆弹
  • ie 无法打开
  • linux命令行在哪
  • js判断浏览器是否为ie
  • 景深图片的3d显示器
  • js+html
  • Node.js中的什么模块是用于处理文件和目录的
  • javascript数学函数
  • python控制台怎么用
  • android反编译smali
  • 定额发票网上查询
  • 浙江发票查验不了什么原因
  • 河南商丘联通宽带最低多少钱
  • 河北税务医保缴费怎么操作
  • 规范性文件失效后,没有新文件,可以使用民法典第十条吗
  • 海关进口增值税怎么认证抵扣
  • 美国海外公司每年利润
  • 南通五险一金最低比例
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设