位置: 编程技术 - 正文
推荐整理分享利用Python中的pandas库对cdn日志进行分析详解(利用Python中的turtle绘制乡村振兴),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:python%怎么用,python用pi,利用Python中的运算符可以解决哪些问题,利用Python中的方法和函数提取出给定列表,利用Python中的运算符可以编程解决你身边的那些问题,利用Python中的turtle,利用Python中的运算符可以编程解决你身边的那些问题,利用Python中的turtle,内容如对您有帮助,希望把文章链接给更多的朋友!
前言
最近工作工作中遇到一个需求,是要根据CDN日志过滤一些数据,例如流量、状态码统计,TOP IP、URL、UA、Referer等。以前都是用 bash shell 实现的,但是当日志量较大,日志文件数G、行数达数千万亿级时,通过 shell 处理有些力不从心,处理时间过长。于是研究了下Python pandas这个数据处理库的使用。一千万行日志,处理完成在s左右。
代码
pandas 学习笔记
Pandas 中有两种基本的数据结构,Series 和 Dataframe。 Series 是一种类似于一维数组的对象,由一组数据和索引组成。 Dataframe 是一个表格型的数据结构,既有行索引也有列索引。
Series
Series的字符串表现形式为:索引在左边,值在右边。没有指定索引时,会自动创建一个0到N-1(N为数据的长度)的整数型索引。可以通过Series的values和index属性获取其数组表示形式和索引对象:
通常创建Series时会指定索引:
通过索引获取Series中的单个或一组值:
排序
筛选运算
成员
通过字典创建Series
如果只传入一个字典,则结果Series中的索引就是原字典的键(有序排列)
当指定index时,sdata中跟states索引相匹配的3个值会被找出并放到响应的位置上,但由于‘Suzhou'所对应的sdata值找不到,所以其结果为NaN(not a number),pandas中用于表示缺失或NA值
pandas的isnull和notnull函数可以用于检测缺失数据:
Series也有类似的实例方法
Series的一个重要功能是,在数据运算中,自动对齐不同索引的数据
Series的索引可以通过复制的方式就地修改
DataFrame
pandas读取文件
DataFrame列选取
DataFrame行选取
获取一个元素,可以通过iloc,更快的方式是iat
DataFrame块选取
根据条件过滤行
在方括号中加入判断条件来过滤行,条件必需返回 True 或者 False
增加列
排序
按指定列排序
查看
转置
使用isin
运算操作:
group
group 指的如下几步:
Splitting the data into groups based on some criteria Applying a function to each group independently Combining the results into a data structureSee the Grouping section
group一下,然后应用sum函数
总结
友情链接: 武汉网站建设