位置: IT常识 - 正文

【数据挖掘实战】——基于水色图像的水质评价(LM神经网络和决策树)(数据挖掘快速入门)

编辑:rootadmin
【数据挖掘实战】——基于水色图像的水质评价(LM神经网络和决策树)

项目地址:Datamining_project: 数据挖掘实战项目代码

目录

一、背景和挖掘目标

1、问题背景

2、水色分类

3、原始数据

4、挖掘目标

二、分析方法和过程

1、初步分析

2、总体流程

第1步:数据预处理——图像切割

第2步:特征提取

​第3步:构建模型 

第4步:水质评价

第5步:决策树模型对比实验

三、总结和思考

一、背景和挖掘目标1、问题背景从事渔业生产有经验的从业者可通过观察水色变化调控水质,用来维持养殖水体生态系统中浮游植物、微生物类、浮游动物等合理的动态平衡。由于这些多是通过经验和肉眼观察进行判断,存在主观性引起的观察性偏倚,使观察结果的可比性、可重复性降低,不易推广应用。当前,数字图像处理技术为计算机监控技术在水产养殖业的应用提供更大的空间。在水质在线监测等方面,数字图像处理技术是基于计算机视觉,以专家经验为基础,对池塘水色进行优劣分级,达到对池塘水色的准确快速判别。2、水色分类

推荐整理分享【数据挖掘实战】——基于水色图像的水质评价(LM神经网络和决策树)(数据挖掘快速入门),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:数据挖掘入门教程,数据挖掘实战教程,数据挖掘视频教程,数据挖掘视频教程,数据挖掘 实战,数据挖掘 入门,数据挖掘 实战,数据挖掘 入门,内容如对您有帮助,希望把文章链接给更多的朋友!

水色

浅绿色(清水或浊水)

灰蓝色

黄褐色

茶褐色

(姜黄、茶褐、红褐、褐中带绿等)

绿色

(黄绿、油绿、蓝绿、墨绿、绿中带褐等)

水质类别

1

2

3

4

5

3、原始数据

水产专家按水色判断水质分类,每个水质图片命名规则为“类别-编号.jpg”

4、挖掘目标

请根据水质图片,利用图像处理技术,通过水色图像实现水质的自动评价。 

二、分析方法和过程1、初步分析通过对拍摄的水样,采集得到水样图像,而图像数据的维度过大,不容易分析,需要从中提取水样图像的特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。显然,图像特征提取是图像识别或分类的关键步骤,图像特征提取的效果如何直接影响到图像识别和分类的好坏。图像特征主要包括有颜色特征、纹理特征、形状特征、空间关系特征等。与几何特征相比,颜色特征更为稳健,对于物体的大小和方向均不敏感,表现出较强的鲁棒性。本案例中由于水色图像是均匀的,故主要关注颜色特征。采集得到的水样图像,数据维度过大,不容易分析,需要从中提取水样图像的特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。图像特征主要包括有颜色特征、纹理特征、形状特征、空间关系特征等。本案例中由于水色图像是均匀的,故主要关注颜色特征。颜色处理常用的方法有颜色直方图法和颜色矩。颜色直方图:反映的是图像中颜色的组成分布,即出现了哪些颜色以及各种颜色出现的概率。其优点在于它能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于它无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。颜色矩:图像中任何的颜色分布均可以用它的矩来表示。根据概率论,随机变量的概率分布可以由其各阶矩唯一的表示和描述。一副图像的色彩分布也可认为是一种概率分布,那么图像可以由其各阶矩来描述。颜色矩包含各个颜色通道的一阶距、二阶矩和三阶矩,对于一副RGB颜色空间的图像,具有R、G和B三个颜色通道,则有9个分量。颜色直方图产生特征维数一般大于颜色矩的特征维数,为了避免过多变量影响后续的分类效果,在本案例采用颜色矩来提取水样图像的特征。2、总体流程

第1步:数据预处理——图像切割

采集到的水样图像包含盛水容器,容器的颜色与水体颜色差异较大,同时水体位于图像中央,为了提取水色的特征,需要提取水样图像中央部分具有代表意义的图像,具体实施方式是提取水样图像中央101*101像素的图像。

设原始图像  的大小是,则截取宽从第个像素点到第 个像素点。

 长从第个像素点到第个像素点的子图像。 函数表示向0靠拢取整。 

各阶颜色矩的计算公式:

1、一阶颜色矩:采用一阶原点矩,反映了图像的整体明暗程度。

 其中Ei是在第i个颜色通道的一阶颜色矩,对于RGB颜色空间的图像i=1,2,3,Pij是第j个像素的第i个颜色通道的颜色值。

2、二阶颜色矩:采用二阶中心距的平方根,反映了图像颜色的分布范围。

 其中Si是在第i个颜色通道的二阶颜色矩,Ei是在第i个颜色通道的一阶颜色矩。

3、三阶颜色矩:采用三阶中心距的立方根,反映了图像颜色分布的对称性。

 其中Si是在第i个颜色通道的二阶颜色矩,Ei是在第i个颜色通道的一阶颜色矩。

import numpy as npimport pandas as pdfrom sklearn import preprocessingfrom PIL import Imageimport osdef PicManage(path,i): pic = Image.open(path) pic.c_x, pic.c_y = (int(i/2) for i in pic.size) box = (pic.c_x-50, pic.c_y-50, pic.c_x+50, pic.c_y+50) #从图片中提取中心100*100的子矩形 region = pic.crop(box) #切分RGB r, g, b = np.split(np.array(region), 3, axis = 2) #计算一阶矩 r_m1 = np.mean(r) g_m1 = np.mean(g) b_m1 = np.mean(b) #二阶矩 r_m2 = np.std(r) g_m2 = np.std(g) b_m2 = np.std(b) #三阶矩 r_m3 = np.mean(abs(r - r.mean())**3)**(1/3) g_m3 = np.mean(abs(g - g.mean())**3)**(1/3) b_m3 = np.mean(abs(b - b.mean())**3)**(1/3) #将数据标准化,区间在[-1,1] typ = np.array([i]) arr = np.array([r_m1,g_m1,b_m1,r_m2,g_m2,b_m2,r_m3,g_m3,b_m3]) #df = pd.DataFrame(preprocessing.minmax_scale(arr,feature_range=(-1,1))).T df = pd.DataFrame(arr).T dn = pd.DataFrame(typ).T return df,dnresult = []type_result = []for i in os.listdir('images'): if i.endswith('.jpg'): df,dn = PicManage('images/'+i,int(i[0])) result.append(df) type_result.append(dn)data = pd.concat(result)typ = pd.concat(type_result)data = pd.DataFrame(preprocessing.normalize(data,norm='l2')) data['type'] = typ.valuesdata.to_excel('picData.xls',index = False) 第2步:特征提取

颜色矩特征提取后的数据集:

第3步:构建模型 

抽取80%作为训练样本,剩下的20%作为测试样本,用于水质评价检验。本案例采用支持向量机作为水质评价分类模型。

#-*- coding:utf-8 -*-import pandas as pd#datapath = './data/moment.csv'#data = pd.read_csv(datapath,encoding = 'gbk')data = data.values#划分训练集和测试集#cross_validation在sklearn0.20中改为model_selectionfrom sklearn.model_selection import train_test_splittrain, test, train_target, test_target = train_test_split(data[:,0:],data[:,-1],test_size=0.2)train_target = train_target.astype(int)test_target = test_target.astype(int)#构建SVM模型from sklearn import svmmodel = svm.SVC()model.fit(train*30,train_target)#save modelfrom sklearn.externals import joblibjoblib.dump(model,'svcmodel.pkl')#read modelmodel = joblib.load('svcmodel.pkl')#混淆矩阵from sklearn import metricscm_train = metrics.confusion_matrix(train_target, model.predict(train*30))cm_test = metrics.confusion_matrix(test_target, model.predict(test*30))train_accuracy = metrics.accuracy_score(train_target,model.predict(train*30))test_accuracy = metrics.accuracy_score(test_target,model.predict(test*30))print("train accuracy: %f"% train_accuracy) #1.000print("test accuracy: %f"% test_accuracy) #0.9756tr = pd.DataFrame(cm_train,index = range(1,6),columns = range(1,6)).to_excel('train.xls')te = pd.DataFrame(cm_test,index = range(1,6),columns = range(1,6)).to_excel('test.xls')

由混淆矩阵,分类准确率为96.91%,分类效果较好,可应用模型进行水质评价。

              预测值

实际值

1

2

3

4

5

1

41

1

1

0

0

2

0

34

0

0

0

3

0

0

【数据挖掘实战】——基于水色图像的水质评价(LM神经网络和决策树)(数据挖掘快速入门)

59

0

0

4

0

0

1

20

0

5

0

1

0

1

第4步:水质评价

取所有测试样本为输入样本,代入已构建好的LM神经网络模型,得到输出结果。

由混淆矩阵,分类准确率为95.12%,说明水质评价模型对于新增的水色图像的分类效果较好,可将模型应用到水质自动评价系统,实现水质评价。(注意,由于用随机函数来打乱数据,因此重复试验所得到的结果可能有所不同。)

              预测值

实际值

1

2

3

4

5

1

7

0

1

0

0

2

0

10

0

0

0

3

0

0

19

0

0

4

0

0

0

3

0

5

0

0

0

1

0

 第5步:决策树模型对比实验import numpy as npimport os, refrom PIL import Imagedef get_ImgNames(path): """ 获取图片名称 :param path: 路径 :return: 名称列表 """ # os.listdir用于返回该路径下所包含的文件或文件夹的名字列表 filenames = os.listdir(path=path) imgnames = [] for i in filenames: # 在返回的文件名字中寻找正则表达式所匹配的所有字符串,如果不存在,返回空列表 if re.findall('^\d_\d+\.jpg$', i) != []: imgnames.append(i) return imgnamesdef Var(data=None): """ 获取三阶颜色矩 :param p: 数据 :return: 返回三阶颜色矩 """ x = np.mean((data - data.mean()) ** 3) return np.sign(x) * np.abs(x) ** 1 / 3def imageCutting_FeatureExtraction(path, imgnames=None): """ 图像切割与基于颜色矩进行特征提取 :param path: 路径 :param imgnames: 所有图片的名称 :return: 返回特征提取后的9个分量,以及对应标签 """ # 获取图片的数目 n = len(imgnames) data = np.zeros((n, 9)) # 用来存放特征提取后的分量 label = np.zeros((n)) # 用来存放样本标签 # 对每一张图片进行图像分割,并计算9个分量 for i in range(n): # 打开图像文件 img = Image.open(path + imgnames[i]) # 获取图片的尺寸 M, N = img.size # 图像切割提取图样中间部分,img.crop返回图像的矩阵区域,参数为 (left, upper, right, lower)的元祖 img = img.crop((M / 2 - 50, N / 2 - 50, M / 2 + 50, N / 2 + 50)) # 将图像分割成3个通道, r, g, b = img.split() # 转化为数组数据并归一化,获得对应的像素矩阵 rd = np.array(r, dtype=np.float32) / 255 gd = np.array(g, dtype=np.float32) / 255 bd = np.array(b, dtype=np.float32) / 255 # 计算一阶颜色矩 data[i, 0] = rd.mean() data[i, 1] = gd.mean() data[i, 2] = bd.mean() # 计算二阶颜色矩 data[i, 3] = rd.std() data[i, 4] = gd.std() data[i, 5] = bd.std() # 计算三阶颜色矩 data[i, 6] = Var(rd) data[i, 7] = Var(gd) data[i, 8] = Var(bd) # 获取样本标签-每个图片名的第一个数字代表类别 label[i] = imgnames[i][0] return data, labelif __name__ == '__main__': # 获取所有图片的名称 imgNames = get_ImgNames(path='images') # 图像切割与特征提取 data, label = imageCutting_FeatureExtraction(path='images/', imgnames=imgNames) print(data) print(label)

from sklearn.model_selection import train_test_splitfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.metrics import confusion_matrix, accuracy_score# 划分数据集# shuffle=True尽可能每一类别都取到或者采用分层抽样data_tr, data_te, label_tr, label_te = train_test_split(data, label, test_size=0.2, shuffle=True)model = DecisionTreeClassifier(random_state=1234)model.fit(data_tr, label_tr)# 预测pred_te = model.predict(data_te)# 混淆矩阵cm = confusion_matrix(label_te, pred_te)print('混淆矩阵为\n', cm)# 准确率acc = accuracy_score(label_te, pred_te)print('准确率为\n', acc)

 混淆矩阵和准确率:

三、总结和思考 我国环境质量评价工作是年代后才逐步发展起来的。发展至今,在评价指标体系及评价理论探索等方面均有较大进展。但目前我国环境评价实际工作中,所采用的方法通常是一些比较传统的评价方法,往往是从单个污染因子的角度对其进行简单评价。然而对某区域的环境质量如水质、大气质量等的综合评价一般涉及较多的评价因素,且各因素与区域环境整体质量关系复杂,因而采用单项污染指数评价法无法客观准确地反映各污染因子之间相互作用对环境质量的影响。基于上述原因,要客观评价一个区域的环境质量状况,需要综合考虑各种因素之间以及影响因素与环境质量之间错综复杂的关系,采用传统的方法存在着一定的局限性和不合理性。因此,从学术研究的角度对环境评价的技术方法及其理论进行探讨,寻求能更全面、客观、准确反映环境质量的新的理论方法具有重要的现实意义。

参考:《python数据分析和数据挖掘》

本文链接地址:https://www.jiuchutong.com/zhishi/300762.html 转载请保留说明!

上一篇:Kaldi的简单介绍和基本使用说明(kaldi官网)

下一篇:New Bing怼人、说谎、PUA,ChatGPT已经开始胡言乱语了

  • 苹果同一个id怎么定位另一个手机位置(苹果同一个id怎么关闭同步下载app)

    苹果同一个id怎么定位另一个手机位置(苹果同一个id怎么关闭同步下载app)

  • 微博如何注册第二个号(微博怎么注册一个新号)

    微博如何注册第二个号(微博怎么注册一个新号)

  • 小盒学生怎么登录不了(小盒学生怎么登录进去)

    小盒学生怎么登录不了(小盒学生怎么登录进去)

  • 抖音屏幕上显示出歌词怎么做(抖音屏幕上显示1X怎么不见了)

    抖音屏幕上显示出歌词怎么做(抖音屏幕上显示1X怎么不见了)

  • word转pdf页眉变了(word2007转pdf页眉丢失)

    word转pdf页眉变了(word2007转pdf页眉丢失)

  • 手机处理器太低能换吗(手机处理器太低玩游戏卡怎么办)

    手机处理器太低能换吗(手机处理器太低玩游戏卡怎么办)

  • 微信限制加人怎么解封(微信限制加人怎么要好友辅助)

    微信限制加人怎么解封(微信限制加人怎么要好友辅助)

  • 陌陌账号异常能聊天吗(陌陌账号异常能回复消息吗)

    陌陌账号异常能聊天吗(陌陌账号异常能回复消息吗)

  • 手机屏幕变黑怎么解决(苹果手机屏幕变黑怎么恢复正常)

    手机屏幕变黑怎么解决(苹果手机屏幕变黑怎么恢复正常)

  • 第一个分组计算机网络出现于(第一个分组计算机出现于哪一年)

    第一个分组计算机网络出现于(第一个分组计算机出现于哪一年)

  • 京东退货红包还能退回吗(京东退货红包还能退回吗双十一)

    京东退货红包还能退回吗(京东退货红包还能退回吗双十一)

  • oppo的手机助手叫什么名字(ios手机助手)

    oppo的手机助手叫什么名字(ios手机助手)

  • 可以用酒精喷手机屏幕吗(可以用酒精喷手消毒吗)

    可以用酒精喷手机屏幕吗(可以用酒精喷手消毒吗)

  • 怎么通过微信号找快手号(怎么通过微信号找到对方抖音号)

    怎么通过微信号找快手号(怎么通过微信号找到对方抖音号)

  • 苹果c开头的是哪里的(苹果c开头的是国行吗)

    苹果c开头的是哪里的(苹果c开头的是国行吗)

  • 华为mate20可以插内存卡吗(华为mate20可以插几个卡)

    华为mate20可以插内存卡吗(华为mate20可以插几个卡)

  • win在键盘上是哪个键(win键盘上是哪个按键)

    win在键盘上是哪个键(win键盘上是哪个按键)

  • word文档中的英文字体(word文档中的英文字体咋样变换字体)

    word文档中的英文字体(word文档中的英文字体咋样变换字体)

  • iq006g和8g的区别(iqoo 6g和8g版本有什么区别)

    iq006g和8g的区别(iqoo 6g和8g版本有什么区别)

  • 书旗小说怎么退订自动包月(书旗小说怎么退订会员)

    书旗小说怎么退订自动包月(书旗小说怎么退订会员)

  • 苹果深夜模式怎么开(苹果深夜模式怎么自动开启)

    苹果深夜模式怎么开(苹果深夜模式怎么自动开启)

  • 如何找快手同乡服务(在快手同城怎么样找自己)

    如何找快手同乡服务(在快手同城怎么样找自己)

  • k歌话筒怎么连接手机(k歌话筒怎么连接手机蓝牙)

    k歌话筒怎么连接手机(k歌话筒怎么连接手机蓝牙)

  • 荣耀10录音功能在哪里(荣耀10录音功能怎么打开)

    荣耀10录音功能在哪里(荣耀10录音功能怎么打开)

  • qq换了手机号不能验证怎么办(qq换了手机号不用了)

    qq换了手机号不能验证怎么办(qq换了手机号不用了)

  • 美团为什么不能用花呗(美团为什么不能到店自取)

    美团为什么不能用花呗(美团为什么不能到店自取)

  • 设置melogincn(设置朋友圈仅限三天怎么设置)

    设置melogincn(设置朋友圈仅限三天怎么设置)

  • 苹果商店怎么设置指纹下载(苹果商店怎么设置下载不需要密码)

    苹果商店怎么设置指纹下载(苹果商店怎么设置下载不需要密码)

  • 生产成本怎么计算
  • 有形动产租赁属于应税劳务还是应税货物
  • 开发票怎么操作
  • 过桥过闸通行费会计分录
  • 税务稽查补缴的税款需要申报吗
  • 企业投资可以税后扣除吗
  • 公司报销生育津贴,孕期还需要去社保局备案吗
  • 企业如何加强存货管理工作
  • 年前买东西
  • 个税手续费返还计入哪个科目
  • 合伙做生意账目
  • 承兑汇票怎么委托收款
  • 劳务费做账是否需要发票
  • 收到技术咨询费摘要
  • 印花税计入应交税费需要调整吗
  • 开水电发票要增加什么经营项目?
  • 取得专用发票不交增值税
  • 文化事业建设税计算方法
  • 2019年收入不足6万如何退税
  • 年薪制与月薪制的优与劣
  • 高速公路过路费税率是多少
  • 进项税额转出再转入
  • 生产企业先出库后入库
  • 企业的团队建设之荒野求生
  • 苹果电脑快捷键删除
  • win10怎么恢复被系统删除的文件
  • win11任务栏无法居中
  • win11windows安全中心打不开
  • 营改增后房地产企业账务处理
  • 世界上寿命最长的灯泡是什么品牌
  • 深入解析windows第7版卷2
  • php获取url内容
  • 手把手教你使用opc
  • vue3.0项目创建
  • 领用包装物会计处理
  • 高通芯片开发
  • Sublime Text 4 (Build 4143) 注册方法STEP BY STEP
  • hash操作
  • python3.4 numpy
  • 增值税补交还有没有责任
  • 赠送顾客的商品怎么入账
  • 购扶贫产品怎么记账
  • wordpress怎么降级
  • 织梦如何给栏目增加缩略图
  • 土增清算后后续成本计算
  • 财务负责人需要工商登记吗
  • 进项税大于销项税怎么结转
  • 租赁个人房屋租金怎么算
  • 专项储备 科目
  • 电子商务会计科目有哪些
  • 福利费税前扣除工资薪金包含哪些
  • 不开票收入怎么报税
  • 个体工商户注销代办
  • 固定资产清理贷方余额是什么意思
  • 股本金退出要交税吗?
  • 值得收藏的一元硬币
  • 预装win10
  • linux ./ 命令
  • 写出linux相关命令及用法
  • 屏蔽触摸按键什么意思
  • cocos2dx 3.5 ”hello world“解析
  • javascript程序代码
  • nodejs test
  • python定时利用QQ邮件发送天气预报的实例
  • perl 计算
  • css display:none使用注意事项小结
  • js实现原理
  • unity3d怎么查看
  • python怎么设置行号
  • django 软删除
  • shell监控端口状态
  • js制作网站
  • javascripvoid
  • jquery图片放大效果
  • javascript静态
  • 北京国家税务网官网首页
  • 国家税务局申报系统操作步骤说明在哪里看
  • 江苏国税网上勾选平台
  • 北京市地方税务局土地增值税清算管理规程
  • 国家税务总局在哪
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设