位置: IT常识 - 正文

波士顿房价数据集进行数据预处理和模型训练(Python)(波士顿房价数据集可视化)

编辑:rootadmin
波士顿房价数据集进行数据预处理和模型训练(Python)

目录

前言

一、数据预处理定义

二、波士顿房价数据进行数据预处理

2.1 下载波士顿房价数据集

 2.2 查看数据集的描述、特征及数据条数、特征数量

2.3 将数据读入pandas的DataFrame并转存到csv文件

2.4 查看数据集各个特征的类型以及是否有空值

2.5 对数据集做中心化度量:计算各个特征的中位数和均值,分析中位数和均值情况

2.6 对数据集做离散化度量:对第一个特征画盒图(箱线图),检查孤立点(离群点)

2.7 对所有特征画盒图(箱线图),检查孤立点(离群点)

2.8 对第一个特征排序后画散点图

2.9 对第一个特征画分位数图

2.10 对所有特征画分位数图

2.11 使用线性回归方法拟合第一个特征

2.12 使用局部回归(Loess)曲线(用一条曲线拟合散点图)方法拟合第一个特征数据

2.13 对第三个特征分两段画分位数-分位数图

2.14 画直方图,查看各个特征的分布和数据倾斜情况

2.15 对所有特征画直方图,查看数据的分布和数据倾斜情况

2.16 寻找所有特征之间的相关性并找出相关性大于 0.7 的特征对,做特征规约

三、波士顿房价数据进行模拟训练(切分数据集7:3)

3.1 将数据集按7:3的比例切分为训练集和测试集,对全部特征(不切片)使用线性回归算法进行训练,显示训练集拟合度和测试集拟合度

3.2 对数据集进行按列归一化操作,使用梯度下降算法进行训练,显示训练集拟合度和测试集拟合度

3.3 将随机森林算法用于回归问题:将波士顿房价数据集按7:3切分为训练集和测试集,使用随机森林回归器进行训练,显示训练集准确度和测试集准确度

3.4 将GBDT算法用于回归问题:将波士顿房价数据集按7:3切分为训练集和测试集,使用GBDT回归器进行训练,显示训练集准确度和测试集准确度

3.5 将岭回归算法用于回归问题:将波士顿房价数据集按7:3切分为训练集和测试集,使用岭回归算法进行训练,显示训练集拟合度和测试集拟合度;导入sklearn的MSE和MAE方法计算均方误差和平均绝对误差评价指标

3.6 测试值与预测值之间的差距

推荐整理分享波士顿房价数据集进行数据预处理和模型训练(Python)(波士顿房价数据集可视化),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:波士顿房价数据分析,波士顿房价数据集可视化,波士顿房价数据分析,波士顿房价数据分析报告,波士顿房价数据集分析,波士顿房价数据集,波士顿房价数据集可视化,波士顿房价数据集,内容如对您有帮助,希望把文章链接给更多的朋友!

总结

前言

根据数据预处理的过程和步骤,对波士顿房价数据集进行数据预处理和模型训练(需要将数据集切分为训练集和测试集)在进行模型训练时进行数据按列归一化、特征规约/特征抽取等数据预处理操作,训练出高分模型后在测试集上进行测试,在测试集上验证准确度。这几天没有更新就是在做这个数据预处理的大作业和其他的大作业。现在总算是做完了,发上来大家一起研究讨论讨论,有什么不足的地方还请评论出来,我们一起学习~

一、数据预处理定义

数据预处理(Data Preprocessing)是指在对数据进行挖掘以前,需要对原始数据进行清理、集合和变换等一系列处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。通过数据预处理工作,可以使残缺的数据完整,并将错误的数据纠正、多余的数据去除,进而将所需的数据进行数据集成。数据预处理的常见方法有数据清洗、数据集成和数据变换。

总体的流程图如下图所示:

二、波士顿房价数据进行数据预处理2.1 下载波士顿房价数据集

代码:

from sklearn.datasets import load_bostonhousing = load_boston()print(housing.keys())

效果图:

 2.2 查看数据集的描述、特征及数据条数、特征数量

代码:

print(housing.DESCR)print(housing.feature_names)X=housing.dataprint(X.shape,X)y=housing.targetprint(y.shape,y)

 效果图:

 分析:可看出波士顿房价有506条数据,13个特征。

 每个特征的中文含义如下:

CRIM: 城镇人均犯罪率 ZN: 住宅用地所占比例 INDUS: 城镇中非商业用地所占比例 CHAS: 查尔斯河虚拟变量,用于回归分析 NOX: 环保指数 RM: 每栋住宅的房间数 AGE: 1940 年以前建成的自住单位的比例 DIS: 距离 5 个波士顿的就业中心的加权距离 RAD: 距离高速公路的便利指数 TAX: 每一万美元的不动产税率 PTRATIO: 城镇中的教师学生比例 B: 城镇中的黑人比例 LSTAT: 地区中有多少房东属于低收入人群

2.3 将数据读入pandas的DataFrame并转存到csv文件

代码:

import pandas as pddf=pd.DataFrame()for i in range(X.shape[1]): df[housing.feature_names[i]]=X[:,i]df['target']=ydf.to_csv('boston_housing.csv',index=None)print(df)

效果图:

 分析:已经生成.csv文件,并且数据已经存储进去,打印出的效果图如上图所示。

2.4 查看数据集各个特征的类型以及是否有空值

代码:

print(df.info())

效果图:

 分析:可从上图中看到没有空值。

2.5 对数据集做中心化度量:计算各个特征的中位数和均值,分析中位数和均值情况

代码:

print(df.describe())

效果图:

 分析:可从上图中看到波士顿房价的每一个特征的均值和中位数,个特征的均值和中位数的值还差不多,只有个别特征,如CRIM、ZN这些特征偏离性严重。

2.6 对数据集做离散化度量:对第一个特征画盒图(箱线图),检查孤立点(离群点)

代码:

plt.boxplot(X[:,0],showmeans=True,meanline=True)plt.show()

效果图:

 分析:第一个特征的孤立点很多,在均值和中位数分析时也是一样,偏离性严重。

2.7 对所有特征画盒图(箱线图),检查孤立点(离群点)

代码:

plt.figure(figsize=(15, 15))#对所有特征(收入中位数)画盒图(箱线图)for i in range(X.shape[1]): plt.subplot(4,4,i+1) plt.boxplot(X[:,i],showmeans = True ,meanline = True) #x,y坐标轴标签 plt.xlabel(housing['feature_names'][i])plt.subplot(4,4,14)#绘制直方图plt.boxplot(y, showmeans = True ,meanline = True)#x,y坐标轴标签plt.xlabel('target')plt.show()

效果图:

 分析:也可看出大部分特征没有离群点,只有个别特征存在离群点。也可从每个特征的均值和中位数中看出来。

2.8 对第一个特征排序后画散点图

代码:

x_sorted=np.sort(df.iloc[:,0].values)# 画散点图plt.scatter([i for i in range(X.shape[0])],x_sorted)# 画x,y坐标轴标签plt.xlabel('Count')plt.ylabel('sorted'+housing['feature_names'][0])plt.show()

效果图:

 分析:从人均犯罪率来看,大部分犯罪率都几乎为0,也有些犯罪率高达80%以上。

2.9 对第一个特征画分位数图

代码:

x_sorted=np.sort(df.iloc[:,0].values)# 画散点图plt.scatter([i for i in range(X.shape[0])],x_sorted)# 画中位数点plt.scatter([round(X.shape[0]/4),round(X.shape[0]/2),round(X.shape[0]*3/4)], [np.quantile(x_sorted,0.25),np.quantile(x_sorted,0.5),np.quantile(x_sorted,0.75)],color='red')# 画x,y坐标轴标签plt.xlabel('Count')plt.ylabel('sorted'+housing['feature_names'][0])plt.show()

效果图:

波士顿房价数据集进行数据预处理和模型训练(Python)(波士顿房价数据集可视化)

 分析:从图可看出75%的人群犯罪率几乎为0,25%的人群犯罪率比较高。

2.10 对所有特征画分位数图

代码:

plt.figure(figsize=(10, 10))for j in range(X.shape[1]): # 对第一个特征(收入中位数)数据排序 x_sorted=np.sort(df.iloc[:,j].values) plt.subplot(4,4,j+1) # 画散点图 plt.scatter([i for i in range(X.shape[0])],x_sorted) # 画中位数点 plt.scatter([round(X.shape[0]/4),round(X.shape[0]/2),round(X.shape[0]*3/4)], [np.quantile(x_sorted,0.25),np.quantile(x_sorted,0.5),np.quantile(x_sorted,0.75)],color='red') # 画x,y坐标轴标签 plt.xlabel('Count') plt.ylabel('sorted'+housing['feature_names'][j])plt.subplot(4,4,13)plt.show()

效果图:

 分析:从图中可分析出每个特征的趋势和占比情况。

2.11 使用线性回归方法拟合第一个特征

代码:

X_list=[i for i in range(X.shape[0])]X_array=np.array(X_list)# 转换为矩阵X_reshape=X_array.reshape(X.shape[0],1)# 排序x_sorted=np.sort(df.iloc[:,0].values)from sklearn import linear_modellinear=linear_model.LinearRegression()# 进行线性回归拟合linear.fit(X_reshape,x_sorted)# 对训练结果做拟合度评分print("training score: ",linear.score(X_reshape,x_sorted))plt.scatter(X_list,x_sorted)y_predict=linear.predict(X_reshape)plt.plot(X_reshape,y_predict,color='red')plt.show()

效果图:

 分析:使用线性回归拟合第一个特征得分为33.9%,拟合度不高

2.12 使用局部回归(Loess)曲线(用一条曲线拟合散点图)方法拟合第一个特征数据

代码:

X_list=[i for i in range(X.shape[0])]X_array=np.array(X_list)# 转换为矩阵X_reshape=X_array.reshape(X.shape[0],1)# 排序x_sorted=np.sort(df.iloc[:,0].values)from sklearn import linear_model# linear=linear_model.LinearRegression()linear=linear_model.Lasso(fit_intercept=False)# 进行Lasso局部回归拟合linear.fit(X_reshape,x_sorted)# 对训练结果做拟合度评分print("training score: ",linear.score(X_reshape,x_sorted))plt.scatter(X_list,x_sorted)y_predict=linear.predict(X_reshape)plt.plot(X_reshape,y_predict,color='red')plt.show()

效果图:

分析:使用局部回归曲线拟合第一个特征得分为25.3%,拟合度也不高。

2.13 对第三个特征分两段画分位数-分位数图

代码:

import numpy as npimport matplotlib.pyplot as pltplt.figure(figsize=(5,5))df_new1=df[df['INDUS']<=df['INDUS'].mean()]df_new2=df[df['INDUS']>df['INDUS'].mean()]part1=np.sort(df_new1.iloc[:,0].values)[:df_new2['INDUS'].count()]part2=np.sort(df_new2.iloc[:,0].values)[:df_new2['INDUS'].count()]plt.xlim(part2[0],part2[-1])plt.ylim(part2[0],part2[-1])plt.plot([part2[0],part2[-1]],[part2[0],part2[-1]])plt.scatter(part1,part2)plt.scatter([np.quantile(part1,0.25),np.quantile(part1,0.5),np.quantile(part1,0.75)], [np.quantile(part2,0.25),np.quantile(part2,0.5),np.quantile(part2,0.75)],color='red')plt.show()

效果图:

 分析:通过分位数-分位数图可发现都在其上方,人均犯罪率75%的人群在10%以下,有25%的人群犯罪率在10%以上。

2.14 画直方图,查看各个特征的分布和数据倾斜情况

代码:

plt.hist(X[:,0],edgecolor='k')plt.show()

效果图:

 分析:从直方图也可看出上述的情况。人均犯罪率为0的居多数。也符合现实生活,但该城市的犯罪率也是比较高的。

2.15 对所有特征画直方图,查看数据的分布和数据倾斜情况

代码:

plt.figure(figsize=(10, 10))for i in range(X.shape[1]): plt.subplot(4,4,i+1) plt.hist(X[:,i],edgecolor='k')plt.subplot(4,4,14)plt.hist(y,edgecolor='k')plt.show()

效果图:

2.16 寻找所有特征之间的相关性并找出相关性大于 0.7 的特征对,做特征规约

代码:

for column in df.columns: correlations_data=df.corr()[column].sort_values() for key in correlations_data.keys(): if key != column and abs(correlations_data[key]) >= 0.7: print('%s vs %s:' %(column,key),correlations_data[key])

效果图:

 分析:各个特征之间相关性大于0.7的数量比较多,我们在选择特征时最好是特征之间的相关性小于0.7的,这样我们才能很好的对数据进行分析,减少不必要的特征,运算时减少时间。

三、波士顿房价数据进行模拟训练(切分数据集7:3)3.1 将数据集按7:3的比例切分为训练集和测试集,对全部特征(不切片)使用线性回归算法进行训练,显示训练集拟合度和测试集拟合度

代码:

X_train,X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)print('y_train = ', y_train)print('y_test = ', y_test)#线性回归from sklearn import linear_modelmodel = linear_model.LinearRegression()# model.fit(wine_X_train,wine_y_train)# 模型训练及评估model.fit(X_train,y_train)print('\nTrain score:',model.score(X_train,y_train))print('Test score:',model.score(X_test,y_test))

效果图:

3.2 对数据集进行按列归一化操作,使用梯度下降算法进行训练,显示训练集拟合度和测试集拟合度

代码:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)# 数据预处理,按列归一化X_train=preprocessing.scale(X_train)X_test=preprocessing.scale(X_test)# 线性回归之梯度下降法from sklearn import linear_modelmodel=linear_model.SGDRegressor()# 模型训练及评估model.fit(X_train,y_train)print('\nTrain score:',model.score(X_train,y_train))print('Test score:',model.score(X_test,y_test))

效果图:

3.3 将随机森林算法用于回归问题:将波士顿房价数据集按7:3切分为训练集和测试集,使用随机森林回归器进行训练,显示训练集准确度和测试集准确度

代码:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)from sklearn.ensemble import RandomForestClassifier, RandomForestRegressormodel = RandomForestRegressor()# 训练评估model.fit(X_train,y_train)print('Train score:%f' % (model.score(X_train,y_train)))print('Test score:%f' % (model.score(X_test,y_test)))

效果图:

3.4 将GBDT算法用于回归问题:将波士顿房价数据集按7:3切分为训练集和测试集,使用GBDT回归器进行训练,显示训练集准确度和测试集准确度

代码:

housing_X=preprocessing.scale(X)X_train, X_test, y_train, y_test = train_test_split(housing_X, y, test_size=0.3, random_state=0)# GBDT算法from sklearn.ensemble import GradientBoostingRegressormodel=GradientBoostingRegressor(random_state=3)# 模型训练及评估model.fit(X_train,y_train)print('Train score:%f' % (model.score(X_train,y_train)))print('Test score:%f' % (model.score(X_test,y_test)))

效果图:

3.5 将岭回归算法用于回归问题:将波士顿房价数据集按7:3切分为训练集和测试集,使用岭回归算法进行训练,显示训练集拟合度和测试集拟合度;导入sklearn的MSE和MAE方法计算均方误差和平均绝对误差评价指标

代码:

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)from sklearn import linear_modelmodel=linear_model.Ridge(alpha=0.3)model.fit(X_train,y_train)print("\ntraining score: ",model.score(X_train,y_train))print("Test score: ",model.score(X_test,y_test))y_predict=model.predict(X_test)print("均方误差为: ",mean_squared_error(y_test,y_predict))print("平均绝对误差为:",mean_absolute_error(y_test,y_predict))print("R_squared:",r2_score(y_test,y_predict))

效果图:

3.6 测试值与预测值之间的差距

代码:

plt.plot(y_test,c="green",label="y_test")plt.plot(y_predict,c="red",label="y_predict")plt.legend()plt.show()

效果图:

 总结

到这里就把我对波士顿数据集进行数据预处理和模型训练的代码和相关的效果图已经展示给大家,如果想学数据预处理的可以用python的scikit-learn包下导入就可跟着做做。还有红酒数据集、鸢尾花数据集、加州房价数据集等,这些都可以拿来练手。其中加州房价的数据比较的多,上万条数据,大家做熟练的话这个数据集是非常不错练手的。

本文链接地址:https://www.jiuchutong.com/zhishi/300005.html 转载请保留说明!

上一篇:css三角和css 用户见面样式,vertical-align 属性应用,溢出的文字省略号显示,常见布局技巧(css做三角)

下一篇:HTML基础之form表单(html代码form)

  • 企业当期的所得税费用
  • 申报纳税的意思
  • 投资利税率包括所得税吗
  • 防伪税控系统专用设备
  • 疫情期间公司买水
  • 其他收益科目代码
  • 借支单是借方还是贷方
  • 进账多于销项怎样报税
  • 法人把自己的车租给公司交什么税
  • 退去年的教育费附加
  • 暂估工资成本
  • 累计折旧的计提分录怎么写
  • 个体工商户是否属于法人
  • 土地出让金抵减增值税账务处理
  • 服装具有什么性
  • 外国企业代表处企业所得税
  • 苹果手机电池低于多少需要更换
  • 事业单位非税收入怎么做账
  • windows10我得电脑
  • macos快捷键一览
  • 销售房产营业税怎么算
  • 劳务费支出会计处理
  • PHP:session_unregister()的用法_Session函数
  • 显卡性能排行榜2023
  • agsservice是什么进程
  • uniapp+uview
  • 面试官:一千万是真的吗
  • php实现购物车功能
  • 增值税专用发票丢了怎么补救
  • 公司设备搬家费会计分录
  • arp-a命令怎么用
  • 报表按季度报是什么意思
  • 固定资产折旧怎么做会计科目
  • 同业代付业务会计核算
  • 维修费开票属于信息技术服务吗
  • ca证书收费金额是多少?
  • 原材料卖出去会计分录
  • 一般纳税人需要报个税吗
  • mysql8绿色版安装
  • 筹建期间的开办费属于资产吗
  • 研发支出的费用化支出计入
  • 固定制造费用需要逐项进行预计通常与本期产量无关
  • 印花税是必交的吗
  • 跨境电商财务如何报税
  • 无法支付的应付账款为什么计入营业外支出
  • 长期应付款为负数重分类
  • 周转材料计入现金流量表
  • 公司客户招待费用标准
  • 信用证保证金的计算公式
  • 赠送给客户的产品怎么做账
  • 影院会计有前景吗
  • 付转让费计入什么科目
  • 待处理财产损溢借贷反向
  • 环境保护税共享信息表
  • 什么是成本费用,什么是经营成本
  • acs_log是什么文件
  • win8.1资源管理器频繁假死
  • windows电源图标消失
  • mac怎么保存网页到桌面
  • cpqdfwag.exe是什么进程 能结束吗 cpqdfwag进程查询
  • 苹果mac查看
  • win7升级win8.1失败
  • linux使用ssh远程连接服务器
  • [置顶]公主大人接下来是拷问时间31
  • android 快速开发
  • python绘制球面
  • 2024年全年计划
  • js怎样删除数组中的某个值
  • python中random模块用法
  • javascript definitive guide
  • jquery仿淘宝商品详情页
  • shell脚本 -ne 0
  • javascript中的splice
  • js中eval函数是干嘛的
  • 使用struts2+Ajax+jquery验证用户名是否已被注册
  • Android调用系统的电话拨号程序
  • 自定义view的基本流程
  • 让你略表情包
  • 一般纳税人开票的税率是多少
  • 浙江职称评审网站官网
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设