位置: 编程技术 - 正文
开始
前一阵子,在项目中碰到这样一个SQL查询需求,有两个相同结构的表(table_left & table_right),如下:
图1.
检查表table_left的各组(groupId),是否在表table_right中存在有一组(groupId)数据(data)与它的数据(data)完全相等.
如图1. 可以看出表table_left和table_right存在两组数据完整相等:
图2.
分析
从上面的两个表,可以知道它们存放的是一组一组的数据;那么,接下来我借助数学集合的列举法和运算进行分析。
先通过集合的列举法描述两个表的各组数据:
图3.
这里只有两种情况,相等和不相等。对于不相等,可再分为部分相等、包含、和完全不相等。使用集合描述,可使用交集,子集,并集。如下面图4.,我列举出这几种常见的情况:
图4.
实现
在数据库中,要找出表table_left和表table_right存在相同数据的组,方法很多,这里我列出两种常用的方法。
(下面的SQL脚本,是以图4.的数据为基础参考)
方法1:
通过"Select … From …Order by … xml for path('') "把各组的data列数据连串起来(如,图4.把table_left的组#的列data连串起来成"data1-data2-data3"),其他分组(包含表table_right)以此方法实现data列数据连串起来;然后通过比较两表的连串后字段是否存在相等,若是相等就说明这比较多两组数据相等,由此可以判断出表table_left的哪组数据在表table_right存在与它数据完全相等的组。
针对方法1,需要对原表增加一个字段dataPath,用于存储data列数据连串的结果,如:
分组连串data列数据并update至刚新增的列dataPath,如:
接下来就是查询了,如:
完整代码:
方法2:
通过SQL Sever提供的集运算符"Except",判断两组非重复的数据。如果两组针对对方都不存在非重复的数据,就说明这两组数据完全相等。如,表table_left中的组#和表 table_right中的组#1,对列data进行"Except"集运算,无任是(# à #1)进行Except集运算,还是(#1 à # )进行Except集合运算,都返回空结果,这就说明组#1 和#的data数据完全相等,如:
同样道理,我们把表table_left中的组#和表 table_right中的组#2,对列data进行"Except"集运算,如:
只要(# à #2 )或 (#2 à # )的"Except"集运算结果有记录,就说明两组的数据不相等。
两张表的所有组都进行比较,我们需要通过以下SQL脚本实现,如:
完整代码:
方法1 Vs. 方法2 :
方法1和方法2都能找出表table_left在table_right存在数据完全相等的组#。但性能角度上,方法2比方法1略胜一筹,可以看它们执行过程的统计信息:
方法1:
图5.
方法2:
图6.
如果,数据量大情况下,那么方法2比方法1更具有明显的优点。因为方法1,多两个更新dataPath的部分,数据量随着增加,这里位置的更新就耗很多的资源;如果dataPath列数据大小超过字节,会导致无法在dataPath创建索引,影响后面的Select查询性能。
扩展
这里说扩展,主要是针对上面的方法2来说。在当列data的数据大小超过字节,或者含有多个数据列要进行比较,看是否存在两组(groupId)的各对应列数据一一相等。
图7.
这样的情况,可对字段dataSub1 & dataSub2 创建一个哈希索引,如:
后面的select查询语句,在Inner Join 部分稍改动下即可,如:
完整代码:
小结
对于这个问题,可能还有其他的或更优的解决方法.而且在实际的生产环境中,可能碰到的情况会有所不同,无论如何,需要多分析,多动手多实验,找到最优的解决方法。
推荐整理分享基于SQL Server中如何比较两个表的各组数据 图解说明(sql server的相关技术知识),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:sql server使用心得,使用sql server,sql server基础操作,sql server基于什么模型,sql server的相关技术知识,sql server基于什么模型,sql server使用心得,sql server基于什么模型,内容如对您有帮助,希望把文章链接给更多的朋友!
通过SQL绘制杨辉三角的实现方法介绍 无意中在csdn上看到一帖有关绘制杨辉三角的sql表达式,感觉很有意思。后来自己想下不借助临时表,根据杨辉三角的组合数计算方法C(n,m)=n!/[m!(n-m)!],
关于重新组织和重新生成索引sp_RefreshIndex的介绍 开始:--------------------------------------------------------------------------------在上周,客户反映一个系统问题,当处理大量数据的时候,出现网络超时。后来,
SqlServer获取存储过程返回值的实例 1.OUPUT参数返回值CREATEPROCEDURE[dbo].[nb_order_insert](@o_buyeridint,@o_idbigintOUTPUT)ASBEGINSETNOCOUNTON;BEGININSERTINTO[Order](o_buyerid)VALUES(@o_buyerid)SET@o_id=@@IDENTITYENDEND存储过
友情链接: 武汉网站建设