位置: IT常识 - 正文

数据分析之Pandas(2)(数据分析利器:pandas库的应用课后答案)

编辑:rootadmin
数据分析之Pandas(2) 3.Pandas文章目录3.Pandas3.3 Pandas进阶3.3.1 数据重塑和轴向旋转(1)层次化索引Series的层次化索引DataFrame的层次化索引层次化——电影数据示列(2)数据旋转3.3.2 数据分组、分组运算3.3.3 离散化处理3.3.4 合并数据集(1)append(2)merge(3)concat3.3 Pandas进阶import pandas as pdimport numpy as np3.3.1 数据重塑和轴向旋转(1)层次化索引

推荐整理分享数据分析之Pandas(2)(数据分析利器:pandas库的应用课后答案),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pandas数据分析实例过程,pandas分析excel数据,pandas分析excel数据,数据分析利器:pandas库的应用课后答案,pandas分析excel数据,怎么用pandas分析数据分布,怎么用pandas分析数据分布,pandas数据分析实战 (超详细),内容如对您有帮助,希望把文章链接给更多的朋友!

层次化索引是pandas的一项重要功能,他能使我们再一个轴上拥有多个索引

Series的层次化索引s=pd.Series(np.arange(1,10),index=[['a','a','a','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,3]])sa 1 1 2 2 3 3b 1 4 2 5c 3 6 1 7d 2 8 3 9dtype: int32s.indexMultiIndex([('a', 1), ('a', 2), ('a', 3), ('b', 1), ('b', 2), ('c', 3), ('c', 1), ('d', 2), ('d', 3)], )s['a':'b']a 1 1 2 2 3 3b 1 4 2 5dtype: int32s[:,1]a 1b 4c 7dtype: int32

通过unstack方法可以将Series变成一个DataFrame

s.unstack()123a1.02.03.0b4.05.0NaNc7.0NaN6.0dNaN8.09.0s.unstack().stack()a 1 1.0 2 2.0 3 3.0b 1 4.0 2 5.0c 1 7.0 3 6.0d 2 8.0 3 9.0dtype: float64DataFrame的层次化索引

对于DataFrame来说,行和列都能够进行层次化索引。

data=pd.DataFrame(np.arange(12).reshape(4,3))data012001213452678391011data=pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]])data012a10122345b1678291011data=pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]],columns=[['A','A','B'],['Z','X','C']])data

选取列

data['A']

设置名称

data.index.names=['row1','row2']data

data.columns.names=['column1','column2']data

行顺序调整

data.swaplevel('row1','row2')

层次化——电影数据示列

数据导入

df=pd.read_excel('movie_data2.xlsx')df.head()Unnamed: 0名字投票人数类型产地上映时间时长年代评分首映地点00肖申克的救赎692795剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节11控方证人42995剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国22美丽人生327855剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利33阿甘正传580897剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映44霸王别姬478523剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港df.drop('Unnamed: 0',axis=1)df.indexRangeIndex(start=0, stop=38166, step=1)

set_index:可以把列变成索引 reset_index:把索引变成列

把产地和年代同时设置成索引,产地是外层索引,年代是内层索引

df=df.set_index(['产地','年代'])df.head()

每一个索引都是一个元组

df.index[0]('美国', 1994)

获取所有的美国电影,由于产地信息已经变成了索引,因此可以用loc方法

df.loc['美国'].head()

| | 名字 | 投票人数 | 类型 | 上映时间 | 时长 | 评分 | 首映地点 | | —: | —: | -----------: | -------: | -------------: | ------------------: | —: | —: | -----------: | | 年代 | | | | | | | | | 1994 | 肖申克的救赎 | 692795 | 剧情/犯罪 | 1994-09-10 00:00:00 | 142 | 9.6 | 多伦多电影节 | | 1957 | 控方证人 | 42995 | 剧情/悬疑/犯罪 | 1957-12-17 00:00:00 | 116 | 9.5 | 美国 | | 1994| 阿甘正传 | 580897 | 剧情/爱情 | 1994-06-23 00:00:00 | 142 | 9.4 | 洛杉矶首映 | | 2012 | 泰坦尼克号 | 157074 | 剧情/爱情/灾难 | 2012-04-10 00:00:00 | 194 | 9.4 | 中国大陆 | | 1993 | 辛德勒的名单 | 306904 | 剧情/历史/战争 | 1993-11-30 00:00:00 | 195 | 9.4 | 华盛顿首映 |

这样做最大的好处就是我们可以简化很多的筛选环节

索引交换 swaplevel

df=df.swaplevel('产地','年代')df.head()

取消层次化索引

df=df.reset_index()df.head()年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点01994美国0肖申克的救赎692795剧情/犯罪1994-09-10 00:00:001429.6多伦多电影节11957美国1控方证人42995剧情/悬疑/犯罪1957-12-17 00:00:001169.5美国21997意大利2美丽人生327855剧情/喜剧/爱情1997-12-20 00:00:001169.5意大利31994美国3阿甘正传580897剧情/爱情1994-06-23 00:00:001429.4洛杉矶首映41993中国大陆4霸王别姬478523剧情/爱情/同性1993-01-01 00:00:001719.4香港(2)数据旋转

行列转化

data=df[:5]data年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点01994美国0肖申克的救赎692795剧情/犯罪1994-09-10 00:00:001429.6多伦多电影节11957美国1控方证人42995剧情/悬疑/犯罪1957-12-17 00:00:001169.5美国21997意大利2美丽人生327855剧情/喜剧/爱情1997-12-20 00:00:001169.5意大利31994美国3阿甘正传580897剧情/爱情1994-06-23 00:00:001429.4洛杉矶首映41993中国大陆4霸王别姬478523剧情/爱情/同性1993-01-01 00:00:001719.4香港

T 可以直接让数据的行和列进行交换

data.T01234年代19941957199719941993产地美国美国意大利美国中国大陆Unnamed: 001234名字肖申克的救赎控方证人美丽人生阿甘正传霸王别姬投票人数69279542995327855580897478523类型剧情/犯罪剧情/悬疑/犯罪剧情/喜剧/爱情剧情/爱情剧情/爱情/同性上映时间1994-09-10 00:00:001957-12-17 00:00:001997-12-20 00:00:001994-06-23 00:00:001993-01-01 00:00:00时长142116116142171评分9.69.59.59.49.4首映地点多伦多电影节美国意大利洛杉矶首映香港

dataframe也可以使用stack和unstack,转化为层次索引的Series

data.stack()0 年代 1994 产地 美国 Unnamed: 0 0 名字 肖申克的救赎 投票人数 692795 类型 剧情/犯罪 上映时间 1994-09-10 00:00:00 时长 142 评分 9.6 首映地点 多伦多电影节1 年代 1957 产地 美国 Unnamed: 0 1 名字 控方证人 投票人数 42995 类型 剧情/悬疑/犯罪 上映时间 1957-12-17 00:00:00 时长 116 评分 9.5 首映地点 美国2 年代 1997 产地 意大利 Unnamed: 0 2 名字 美丽人生 投票人数 327855 类型 剧情/喜剧/爱情 上映时间 1997-12-20 00:00:00 时长 116 评分 9.5 首映地点 意大利3 年代 1994 产地 美国 Unnamed: 0 3 名字 阿甘正传 投票人数 580897 类型 剧情/爱情 上映时间 1994-06-23 00:00:00 时长 142 评分 9.4 首映地点 洛杉矶首映4 年代 1993 产地 中国大陆 Unnamed: 0 4 名字 霸王别姬 投票人数 478523 类型 剧情/爱情/同性 上映时间 1993-01-01 00:00:00 时长 171 评分 9.4 首映地点 香港dtype: objectdata.stack().unstack()年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点01994美国0肖申克的救赎692795剧情/犯罪1994-09-101429.6多伦多电影节11957美国1控方证人42995剧情/悬疑/犯罪1957-12-171169.5美国21997意大利2美丽人生327855剧情/喜剧/爱情1997-12-201169.5意大利31994美国3阿甘正传580897剧情/爱情1994-06-231429.4洛杉矶首映41993中国大陆4霸王别姬478523剧情/爱情/同性1993-01-011719.4香港3.3.2 数据分组、分组运算数据分析之Pandas(2)(数据分析利器:pandas库的应用课后答案)

GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表

按照电影产地进行分组

先定义一个分组变量group

group=df.groupby(df['产地'])group<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002238D9028B0>

可以计算分组后的各个统计量

group.mean().head()年代Unnamed: 0投票人数时长评分产地中国台湾1999.00970919350.5906158474.86407887.2572827.066667中国大陆2004.59968420391.79142610898.29379381.4329306.064703中国香港1991.10031619230.1171528167.44615988.5412146.474114丹麦1999.09090920415.6111111993.85858688.1010107.245960俄罗斯1992.53412920061.7534792098.81378493.2809817.310736

计算每年的平均评分

df['评分'].groupby(df['年代']).mean().head()年代1888 7.9500001890 4.8000001892 7.5000001894 6.6333331895 7.575000Name: 评分, dtype: float64

只会对数值变量进行分组运算

df['年代']=df['年代'].astype('str')df.groupby(df['产地']).mean().head()Unnamed: 0投票人数时长评分产地中国台湾19350.5906158474.86407887.2572827.066667中国大陆20391.79142610898.29379381.4329306.064703中国香港19230.1171528167.44615988.5412146.474114丹麦20415.6111111993.85858688.1010107.245960俄罗斯20061.7534792098.81378493.2809817.310736

我们也可以传入多个分组变量

df.groupby([df['产地'],df['年代']]).mean().head()Unnamed: 0投票人数时长评分产地年代中国台湾196314805.0121.000000113.06.4196530282.0153.666667105.06.8196626305.051.00000060.07.9196716605.04444.000000112.08.0196821282.589.00000083.07.4

获得每个地区,每一年的电影的评分的均值

df['评分'].groupby([df['产地'],df['年代']]).mean()产地 年代中国台湾 1963 6.400000 1965 6.800000 1966 7.900000 1967 8.000000 1968 7.400000 ... 韩国 2012 6.064151 2013 6.098198 2014 5.650833 2015 5.423853 2016 5.730000Name: 评分, Length: 1511, dtype: float64

Series通过unstack方法转化为dataframe——会产生缺失值

df['评分'].groupby([df['产地'],df['年代']]).mean().unstack().head()年代1888189018921894189518961897189818991900…2008200920102011201220132014201520162017产地中国台湾NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN…7.4200007.1000007.0538467.2318186.5560987.0764716.5222226.576000NaNNaN中国大陆NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN…6.5897266.5366286.3578315.8246065.7271875.3166674.9637574.9691894.712000NaN中国香港NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN…6.4767866.4425536.2454555.9710536.1105266.1057145.6166675.5891895.390909NaN丹麦NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN…7.0500007.1181827.3625007.0166677.4187506.5555567.1200007.1666677.000000NaN俄罗斯NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN…7.0244686.9227276.9743247.0060006.7841276.8905666.9659577.089655NaNNaN

5 rows × 127 columns

3.3.3 离散化处理

再实际的数据分析项目中,对有的数据属性,我们往往并不关注数据的绝对取值,只关注它所处的区间或等级。 比如我们可以把评分9分及以上定义为A,7-9分为B,5-7分为C,3-5分为D,小于3分的为E。

离散化也可以称为分组、区间化

Pandas为我们提供了方便的函数cut(): pd.cut (x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False) 参数: x:需要离散化的数组、Series、DataFrame对象 bins:分组的依据 right=True:默认包括右端点 include_lowest=False:默认不包括左端点 labels:是否要用标记替换分组 retbins:返回x中对应的bins的列表 precision:精度

df['评分等级']=pd.cut(df['评分'],[0,3,5,7,9,10],labels=['E','D','C','B','A'])df年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点评分等级01994美国0肖申克的救赎692795剧情/犯罪1994-09-10 00:00:001429.600000多伦多电影节A11957美国1控方证人42995剧情/悬疑/犯罪1957-12-17 00:00:001169.500000美国A21997意大利2美丽人生327855剧情/喜剧/爱情1997-12-20 00:00:001169.500000意大利A31994美国3阿甘正传580897剧情/爱情1994-06-23 00:00:001429.400000洛杉矶首映A41993中国大陆4霸王别姬478523剧情/爱情/同性1993-01-01 00:00:001719.400000香港A………………………………387251935美国387281935年57喜剧/歌舞1935-03-15 00:00:00987.600000美国B387261986中国大陆38729血溅画屏95剧情/悬疑/犯罪/武侠/古装1905-06-08 00:00:00917.100000美国B387271986中国大陆38730魔窟中的幻想51惊悚/恐怖/儿童1905-06-08 00:00:00788.000000美国B387281977俄罗斯38731列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме…32剧情/战争1905-05-30 00:00:00976.600000美国C387292017美国38732复仇者联盟3123456剧情/科幻2017-05-04 00:00:001426.935704美国C

38730 rows × 11 columns

根据投票人数来刻画电影的热门 投票人数越多,热门程度越高

使用 np.percentile 进行分位数计算

bins=np.percentile(df['投票人数'],[0,20,40,60,80,100])df['热门程度']=pd.cut(df['投票人数'],bins,labels=['E','D','C','B','A'])df年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点评分等级热门程度01994美国0肖申克的救赎692795剧情/犯罪1994-09-10 00:00:001429.600000多伦多电影节AA11957美国1控方证人42995剧情/悬疑/犯罪1957-12-17 00:00:001169.500000美国AA21997意大利2美丽人生327855剧情/喜剧/爱情1997-12-20 00:00:001169.500000意大利AA31994美国3阿甘正传580897剧情/爱情1994-06-23 00:00:001429.400000洛杉矶首映AA41993中国大陆4霸王别姬478523剧情/爱情/同性1993-01-01 00:00:001719.400000香港AA…………………………………387251935美国387281935年57喜剧/歌舞1935-03-15 00:00:00987.600000美国BE387261986中国大陆38729血溅画屏95剧情/悬疑/犯罪/武侠/古装1905-06-08 00:00:00917.100000美国BD387271986中国大陆38730魔窟中的幻想51惊悚/恐怖/儿童1905-06-08 00:00:00788.000000美国BE387281977俄罗斯38731列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме…32剧情/战争1905-05-30 00:00:00976.600000美国CE387292017美国38732复仇者联盟3123456剧情/科幻2017-05-04 00:00:001426.935704美国CA

38730 rows × 12 columns

查看烂片:投票人数多,评分低

df[(df.热门程度=='A')&(df.评分等级=='E')]年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点评分等级热门程度6552011中国大陆655B区5187剧情/惊悚/恐怖2011-06-03 00:00:00892.3中国大陆EA43762014中国大陆4376怖偶4867悬疑/惊悚2014-05-07 00:00:00882.8中国大陆EA54132011中国大陆5413床下有人4309悬疑/惊悚2011-10-14 00:00:001002.8中国大陆EA68022013中国大陆6802帝国秘符4351动作/冒险2013-09-18 00:00:00933.0中国大陆EA82322011中国大陆8232飞天4764剧情2011-07-01 00:00:001152.9中国大陆EA84062014中国大陆8406分手达人3937喜剧/爱情2014-06-06 00:00:00902.7中国大陆EA96012012中国大陆9601孤岛惊魂2982悬疑/惊悚/恐怖2013-01-26 00:00:00932.8中国大陆EA105132013中国大陆10513海天盛宴·韦口3788情色2013-10-12 00:00:00882.9网络EA167992013中国大陆16799孪生密码6390动作/悬疑2013-11-08 00:00:00962.9中国大陆EA215332010日本21536拳皇6329动作/科幻/冒险2012-10-12 00:00:00933.0中国大陆EA227052013中国大陆22708闪魂3119惊悚/犯罪2014-02-21 00:00:00942.6中国大陆EA228832015中国大陆22886少年毛泽东3058动画/儿童/冒险2015-04-30 00:00:00762.4中国大陆EA241282013英国24131史前怪兽3543动作/惊悚/冒险2014-01-01 00:00:00893.0中国大陆EA282612011中国大陆28264无极限之危情速递6319喜剧/动作/爱情/冒险2011-08-12 00:00:00942.8中国大陆EA320982010中国大陆32101异度公寓3639惊悚2010-06-04 00:00:00932.7中国大陆EA324912014中国大陆32494英雄之战8359动作/爱情2014-03-21 00:00:00903.0中国大陆EA326642013中国大陆32667咏春小龙8861剧情/动作2013-07-20 00:00:00903.0中国大陆EA334882014中国大陆33491再爱一次好不好6999喜剧/爱情2014-04-11 00:00:00943.0中国大陆EA386572014中国大陆38660大话天仙21629喜剧/奇幻/古装2014-02-02 00:00:00913.0中国大陆EA386592013中国大陆38662天机·富春山居图74709动作/冒险2013-06-09 00:00:001222.9中国大陆EA386602014中国大陆38663特工艾米拉10852动作/悬疑2014-04-11 00:00:00962.7中国大陆EA386642015中国大陆38667汽车人总动员12892喜剧/动画/冒险2015-07-03 00:00:00852.3中国大陆EA386692016中国大陆386722016年中央电视台春节17328歌舞/真人秀2016-02-07 00:00:002802.3中国大陆EA386752014中国大陆38678放手爱29254喜剧/爱情2014-04-30 00:00:00932.3中国大陆EA

冷门高分电影

df[(df.热门程度=='E')&(df.评分等级=='A')]年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点评分等级热门程度4562015美国456未知电影45音乐2015-12-14 00:00:00609.3美国AE5872011英国587BBC喜剧音38喜剧/音乐/歌舞2011-08-13 00:00:00959.3美国AE6422003美国642未知电影38纪录片/音乐2003-02-03 00:00:00559.2美国AE6862014英国686未知电影63音乐/舞台艺术2014-05-18 00:00:00499.5美国AE6982008英国698未知电影52纪录片2008-07-25 00:00:00409.8美国AE…………………………………375791986英国37582歌唱神探36剧情/悬疑/歌舞1986-11-16 00:00:004159.1美国AE377051972美国37708未知电影56纪录片1972-12-23 00:00:00709.3美国AE381111975美国38114山那边70剧情1975-11-14 00:00:001039.1美国AE384442015美国38447奎62纪录片/短片2015-08-19 00:00:0099.1纽约电影论坛AE385002007英国38503未知电影41纪录片/短片1905-06-29 00:00:00579.2美国AE

245 rows × 12 columns

将处理的数据保存

df.to_excel('movies_data3.xlsx')3.3.4 合并数据集(1)append

先把数据集拆分为多个,再进行合并

df_usa=df[df.产地=='美国']df_cn=df[df.产地=='中国大陆']df_cn.append(df_usa)年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点评分等级热门程度41993中国大陆4霸王别姬478523剧情/爱情/同性1993-01-01 00:00:001719.400000香港AA211961中国大陆21大闹天宫74881动画/奇幻1905-05-14 00:00:001149.200000上集AA292015中国大陆29穹顶之下51113纪录片2015-02-28 00:00:001049.200000中国大陆AA381982中国大陆38茶馆10678剧情/历史1905-06-04 00:00:001189.200000美国AA451988中国大陆45山水情10781动画/短片1905-06-10 00:00:00199.200000美国AA…………………………………387181987美国38721零下的激情199剧情/爱情/犯罪1987-11-06 00:00:00987.400000美国BD387201986美国38723离别秋波240剧情/爱情/音乐1986-02-19 00:00:00908.200000美国BC387231986美国38726极乐森林45纪录片1986-09-14 00:00:00908.100000美国BE387251935美国387281935年57喜剧/歌舞1935-03-15 00:00:00987.600000美国BE387292017美国38732复仇者联盟3123456剧情/科幻2017-05-04 00:00:001426.935704美国CA

15781 rows × 12 columns

(2)merge

pd.merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=(‘_x’,‘_y’), copy=True, indicator=False)

left:对象 right:另一个对象 on:要加入的列。必须在左、右综合对象中找到。如果不能通过,left_index和right_index是假,将推断DataFrame中的列的交叉点为连接键 left_on:从左边的综合使用作为键列。可以是列名或数组的长度等于长度综合。 right_on:从右边的综合使用作为键列。可以是列名或数组的长度等于长度综合。 left_index:如果为True,则使用索引(行标签)从左综合作为其连接键。在与多重(层次)的综合,级别数必须匹配连接键从右综合的数目。 right_index:先沟通用法作为正确综合left_index。 how:之一‘左’,‘右’,‘外在’,‘内部’。默认为内联。 sort:综合通过连接键按字典顺序对结果进行排序。默认为True,设置为False在大多数情况下将提高性能。 suffixes:字符串后缀并不适用于重叠列的元组。默认为(‘_x’,‘_y’) copy:即使重新索引是不必要总是从传递的综合对象,赋值的数据(默认为True)。在许多情况下不能避免,但可能会提高性能/内存使用情况,可以避免赋值上述案件有些病理,但尽管如此提供此选项。 indicator:将列添加到输出综合呼吁_merge与信息源的每一行。_merge是绝对类型,并对观测其合并键只出现在‘左’的综合,关策其合并键只会出现在‘正确’的综合,和两个如果观测合并关键发现在两个 right_only left_only 的值。

选取6部热门电影进行操作

df1=df.loc[:5]df1年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点评分等级热门程度01994美国0肖申克的救赎692795剧情/犯罪1994-09-10 00:00:001429.6多伦多电影节AA11957美国1控方证人42995剧情/悬疑/犯罪1957-12-17 00:00:001169.5美国AA21997意大利2美丽人生327855剧情/喜剧/爱情1997-12-20 00:00:001169.5意大利AA31994美国3阿甘正传580897剧情/爱情1994-06-23 00:00:001429.4洛杉矶首映AA41993中国大陆4霸王别姬478523剧情/爱情/同性1993-01-01 00:00:001719.4香港AA52012美国5泰坦尼克号157074剧情/爱情/灾难2012-04-10 00:00:001949.4中国大陆AAdf2=df.loc[:5][['名字','产地']]df2['票房']=[111,222,333,444,555,666]df2名字产地票房0肖申克的救赎美国1111控方证人美国2222美丽人生意大利3333阿甘正传美国4444霸王别姬中国大陆5555泰坦尼克号美国666##打乱样本df2=df2.sample(frac=1)df2名字产地票房0肖申克的救赎美国1115泰坦尼克号美国6664霸王别姬中国大陆5552美丽人生意大利3331控方证人美国2223阿甘正传美国444## 重新设置索引df2.index=range(len(df2))df2名字产地票房0肖申克的救赎美国1111泰坦尼克号美国6662霸王别姬中国大陆5553美丽人生意大利3334控方证人美国2225阿甘正传美国444

对df1和df2进行合并

pd.merge(df1,df2,how='inner',on='名字')年代产地_xUnnamed: 0名字投票人数类型上映时间时长评分首映地点评分等级热门程度产地_y票房01994美国0肖申克的救赎692795剧情/犯罪1994-09-10 00:00:001429.6多伦多电影节AA美国11111957美国1控方证人42995剧情/悬疑/犯罪1957-12-17 00:00:001169.5美国AA美国22221997意大利2美丽人生327855剧情/喜剧/爱情1997-12-20 00:00:001169.5意大利AA意大利33331994美国3阿甘正传580897剧情/爱情1994-06-23 00:00:001429.4洛杉矶首映AA美国44441993中国大陆4霸王别姬478523剧情/爱情/同性1993-01-01 00:00:001719.4香港AA中国大陆55552012美国5泰坦尼克号157074剧情/爱情/灾难2012-04-10 00:00:001949.4中国大陆AA美国666

两个样本都有 产地 列,所以会有两个产地列

(3)concat

将多个数据集进行批量合并

df1=df[:5]df2=df[100:105]df3=df[200:205]print(df1)print(df2)print(df3) 年代 产地 Unnamed: 0 名字 投票人数 类型 上映时间 时长 \0 1994 美国 0 肖申克的救赎 692795 剧情/犯罪 1994-09-10 00:00:00 142 1 1957 美国 1 控方证人 42995 剧情/悬疑/犯罪 1957-12-17 00:00:00 116 2 1997 意大利 2 美丽人生 327855 剧情/喜剧/爱情 1997-12-20 00:00:00 116 3 1994 美国 3 阿甘正传 580897 剧情/爱情 1994-06-23 00:00:00 142 4 1993 中国大陆 4 霸王别姬 478523 剧情/爱情/同性 1993-01-01 00:00:00 171 评分 首映地点 评分等级 热门程度 0 9.6 多伦多电影节 A A 1 9.5 美国 A A 2 9.5 意大利 A A 3 9.4 洛杉矶首映 A A 4 9.4 香港 A A 年代 产地 Unnamed: 0 名字 投票人数 类型 上映时间 \100 1993 韩国 100 101 146 喜剧/爱情 1993-06-19 00:00:00 101 1995 英国 101 10 186 喜剧 1995-01-25 00:00:00 102 2013 韩国 102 素媛 114819 剧情/家庭 2013-10-02 00:00:00 103 2003 美国 103 101忠狗续集:伦敦 924 喜剧/动画/家庭 2003-01-21 00:00:00 104 2000 美国 104 10 9514 喜剧/家庭 2000-09-22 00:00:00 时长 评分 首映地点 评分等级 热门程度 100 112 7.4 韩国 B D 101 101 7.4 美国 B D 102 123 9.1 韩国 A A 103 70 7.5 美国 B B 104 100 7.0 美国 C A 年代 产地 Unnamed: 0 名字 投票人数 类型 \200 2014 日本 200 最完美的离婚 2014特别篇 18478 剧情/喜剧/爱情 201 2009 日本 201 2001夜物 84 剧情/动画 202 2009 中国香港 202 头七 頭 7039 恐怖 203 1896 法国 203 火车进站 L 7001 纪录片/短片 204 2009 美国 204 银行舞蹈 6944 短片 上映时间 时长 评分 首映地点 评分等级 热门程度 200 2014-02-08 00:00:00 120 9.1 日本 A A 201 2009-10-02 00:00:00 80 6.6 美国 C D 202 2009-05-21 00:00:00 60 6.2 美国 C A 203 1896-01-06 60 8.8 法国 B A 204 1905-07-01 00:00:00 60 7.8 美国 B A dff=pd.concat([df1,df2,df3],axis=0) ##默认axis=0 增加行数,axis=1增加列数dff年代产地Unnamed: 0名字投票人数类型上映时间时长评分首映地点评分等级热门程度01994美国0肖申克的救赎692795剧情/犯罪1994-09-10 00:00:001429.6多伦多电影节AA11957美国1控方证人42995剧情/悬疑/犯罪1957-12-17 00:00:001169.5美国AA21997意大利2美丽人生327855剧情/喜剧/爱情1997-12-20 00:00:001169.5意大利AA31994美国3阿甘正传580897剧情/爱情1994-06-23 00:00:001429.4洛杉矶首映AA41993中国大陆4霸王别姬478523剧情/爱情/同性1993-01-01 00:00:001719.4香港AA1001993韩国100101146喜剧/爱情1993-06-19 00:00:001127.4韩国BD1011995英国10110186喜剧1995-01-25 00:00:001017.4美国BD1022013韩国102素媛114819剧情/家庭2013-10-02 00:00:001239.1韩国AA1032003美国103101忠狗续集:伦敦924喜剧/动画/家庭2003-01-21 00:00:00707.5美国BB1042000美国104109514喜剧/家庭2000-09-22 00:00:001007.0美国CA2002014日本200最完美的离婚 2014特别篇18478剧情/喜剧/爱情2014-02-08 00:00:001209.1日本AA2012009日本2012001夜物84剧情/动画2009-10-02 00:00:00806.6美国CD2022009中国香港202头七 頭7039恐怖2009-05-21 00:00:00606.2美国CA2031896法国203火车进站 L7001纪录片/短片1896-01-06608.8法国BA2042009美国204银行舞蹈6944短片1905-07-01 00:00:00607.8美国BA
本文链接地址:https://www.jiuchutong.com/zhishi/299855.html 转载请保留说明!

上一篇:做了8年前端,细说那些曾经让你浴霸不能的后端(做了几年前端基础还是很差)

下一篇:语音识别实战(python代码)(一)(语音识别的正确流程)

  • 荣耀play6T处理器(荣耀play5t参数配置)

    荣耀play6T处理器(荣耀play5t参数配置)

  • word合并居中在哪个位置(word合并居中在哪里)

    word合并居中在哪个位置(word合并居中在哪里)

  • mac刷新快捷键(mac电脑刷新快捷键是哪个)

    mac刷新快捷键(mac电脑刷新快捷键是哪个)

  • 苹果11蓝牙为什么自动打开(苹果11蓝牙为什么收不到设备)

    苹果11蓝牙为什么自动打开(苹果11蓝牙为什么收不到设备)

  • 引用运算符有哪些(引用运算符有哪几个)

    引用运算符有哪些(引用运算符有哪几个)

  • 苹果辅助触控自动消失什么原因(苹果辅助触控自动关闭怎样解决)

    苹果辅助触控自动消失什么原因(苹果辅助触控自动关闭怎样解决)

  • 3dmax和cad的区别(3dmax与cad关系)

    3dmax和cad的区别(3dmax与cad关系)

  • wps储存空间不足文件无法保存(wps储存空间不足无法处理此命令怎么办)

    wps储存空间不足文件无法保存(wps储存空间不足无法处理此命令怎么办)

  • 华为p30微信带美颜功能吗(华为p30微信美颜怎么关闭)

    华为p30微信带美颜功能吗(华为p30微信美颜怎么关闭)

  • oppoace有红外功能吗(oppoace有没有红外线)

    oppoace有红外功能吗(oppoace有没有红外线)

  • 苹果8单卡还是双卡(苹果8单卡还是双卡双待)

    苹果8单卡还是双卡(苹果8单卡还是双卡双待)

  • 苹果原充电器多少电压(苹果原充电器多久充满)

    苹果原充电器多少电压(苹果原充电器多久充满)

  • 小米8青春版有月亮模式吗(小米8青春版有快充吗)

    小米8青春版有月亮模式吗(小米8青春版有快充吗)

  • mac可以装bilibili吗(mac可以装edge吗)

    mac可以装bilibili吗(mac可以装edge吗)

  • 文档怎么加密码保护(电子文档怎么加密码)

    文档怎么加密码保护(电子文档怎么加密码)

  • 华为新系统鸿蒙什么时候出(华为新系统鸿蒙和安卓有什么区别)

    华为新系统鸿蒙什么时候出(华为新系统鸿蒙和安卓有什么区别)

  • 手机上怎么看街景(手机怎么看街道监控)

    手机上怎么看街景(手机怎么看街道监控)

  • 微信接收新消息通知打不开怎么办(微信接收新消息通知自动关闭)

    微信接收新消息通知打不开怎么办(微信接收新消息通知自动关闭)

  • 京东评价买家怎么删除(京东 写评价)

    京东评价买家怎么删除(京东 写评价)

  • 文档部件中域的作用(文档部件中域的文件名)

    文档部件中域的作用(文档部件中域的文件名)

  • 探探左滑代表什么(探探左滑是)

    探探左滑代表什么(探探左滑是)

  • 系统处于通话状态怎么解决(系统处于通话状态怎么取消)

    系统处于通话状态怎么解决(系统处于通话状态怎么取消)

  • 2600有没有核显(2600有核心显卡吗)

    2600有没有核显(2600有核心显卡吗)

  • procreate背景如何透明(procreate背景如何存为模板)

    procreate背景如何透明(procreate背景如何存为模板)

  • 优酷扫一扫在哪(优酷扫一扫在哪个位置)

    优酷扫一扫在哪(优酷扫一扫在哪个位置)

  • linux系统中怎么结束boa进程?(Linux系统中怎么定位到java代码的方法级)

    linux系统中怎么结束boa进程?(Linux系统中怎么定位到java代码的方法级)

  • 夕阳下的大白鲨过山车,美国新泽西州 (© John Van Decker/Alamy)

    夕阳下的大白鲨过山车,美国新泽西州 (© John Van Decker/Alamy)

  • 【朝夕教育】2023年03月 其他-运动控制和机器视觉面试题(34道)(朝夕教育怎么样)

    【朝夕教育】2023年03月 其他-运动控制和机器视觉面试题(34道)(朝夕教育怎么样)

  • 应交税费负数调整到其他流动资产
  • 全国增值税发票查验平台
  • 公司税务注销流程是否要不发生业务多久
  • 研发费用加计扣除是什么意思啊
  • 个体工商户增值税怎么计算
  • 企业所得税季度申报填写示例
  • 资产负债表中本期盈余等于什么?
  • 先结转损益还是先结转本年利润
  • 会计凭证销毁时应注意哪些问题?
  • 仓储企业的成本有哪些
  • 企业收到赞助费
  • 预付账款冲减费用
  • 材料暂估价比例
  • 银行缴纳印花税的范围
  • 旅行社小规模纳税人增值税怎么征税
  • 培训费用可以开专票吗
  • 怎么做销售二手车
  • 技术转让免征增值税
  • 填制和审核凭证是什么意思
  • 公司名下没车能报油费吗
  • 企业结算备付金怎么做账
  • 汇丰银行账户管理费
  • 收到退还的工会经费进什么科目
  • 税款申报成功但没有缴款怎么办
  • 国际重复征税的类型及范围
  • 哪些收入要纳税
  • 在建工程账务处理包括哪些内容
  • 广告费与业务宣传费扣除给企业带来的好处
  • 克拉克湖国家公园
  • 第三方代收的款项是什么意思
  • 一只华莱士飞蛙掠过森林地面 (© Stephen Dalton/Minden Pictures)
  • php 时间
  • 一阶段目标检测算法
  • javascript基础类型
  • pdclient
  • 普通发票冲红后还会有税吗
  • 国外购买土地
  • linux mysql忘记密码的多种解决或Access denied for user 'root'@'localhost'
  • 汇算清缴交税怎么做账务处理
  • 视同销售的增值税是如何计算?
  • 印花税的其他凭证指的是什么
  • 存货周转率低是什么原因
  • 建筑安装结转成本分录
  • 银行贴现手续费可以税前扣除吗
  • 不动产经营租赁会计分录
  • 其他应收款平行记账科目
  • 生产经营所得成本费用怎么算
  • 专用发票账目不对怎么办
  • 通过分析SQL语句的执行计划优化SQL
  • winxp开机界面后老重启
  • 电脑取消开机密码显示不能改
  • linux双网卡绑定原理
  • win10插上耳机后电脑还是外放如何解决
  • win7系统开机黑屏自检
  • javascript的理解
  • ExtJS4给Combobox设置列表中的默认值示例
  • unable to instantiate default
  • istio源码解析
  • 环境篇-幸福家庭是孩子心灵健康的关键.mp3
  • 批处理系统的应用场景
  • 当ie7不认!important之后 [布局的解决办法]
  • cocos2dx减少内存开销
  • eclipse awt
  • 注释标签的内容会显示在浏览器窗口中
  • unity me
  • dos help命令
  • javascript怎么用
  • 详解python时间模块中的datetime模块
  • unity导入max文件
  • 获取intent传递的数据
  • string和stringbuffer创建后都可以修改
  • 国际税务局邮箱是多少
  • 税务官网怎么登录账号
  • 福建地方税务局招聘
  • 双定户如何网上申报
  • 购买的土地没有土地使用证
  • 盘锦兴隆台区供暖电话
  • 12366重庆电子税务局
  • 吉林省电子税务局官网
  • 税务局 环保税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设