位置: IT常识 - 正文

倾向得分匹配PSM案例分析(倾向得分匹配后怎么进行回归)

编辑:rootadmin
倾向得分匹配PSM案例分析

推荐整理分享倾向得分匹配PSM案例分析(倾向得分匹配后怎么进行回归),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:倾向得分匹配的结果怎么看,倾向得分匹配stata,倾向得分匹配法解决什么问题,倾向得分匹配p是什么意思,倾向得分匹配法原理,倾向得分匹配模型,倾向得分匹配法原理,倾向得分匹配stata,内容如对您有帮助,希望把文章链接给更多的朋友!

倾向得分匹配(PSM),是一种模仿RCT随机对照试验随机化分组,提高组间均衡性,进而达到降低混杂因素影响目的一种数据处理策略。PSM在计量研究,临床医学等领域有着广泛的应用。

1.案例背景与分析策略1.1 案例背景介绍

某企业想评价专项培训的效果,现收集到78位员工的个人及工作成绩信息,包括性别、年龄、教育年、初始工作成绩与当前工作成绩、工作经验、工作时间、职位类别、是否参加培训等数据。

数据上传SPSSAU后,在 “我的数据”中查看浏览原始数据,前5行数据如下:

图1 “我的数据”查看浏览数据集

1.2 明确目的与分析策略

已经参加过培训的有17人,其余61人没有参加过培训。研究培训的效果,我们似乎可以直接比较两组员工的工作成绩有无差异。

考虑到性别、年龄、工作经验、参加工作时间等本身会影响工作成绩,当两组人群不在一个起跑线起跑时,如果贸然直接对比当前工作成绩的差异,可能受到其他因素的干扰。

因此,我们应该寻找一批和参加培训员工基本情况类似,各关键指标特征接近的、未参加过培训的员工组成对照/控制组,然后进行组间差异的对比,从而判断培训效果。

倾向评分匹配,正是这样一种可以匹配对照,让处理组和对照组达到均衡的数据处理手段。SPSSAU在“计量经济研究”栏目下提供了【倾向得分匹配】功能。

完成匹配后,以当前工作成绩数据作为结果变量,是否培训为分组数据来探讨培训效果。

2.协变量选择与基线分析

倾向评分匹配PSM,首先需要构造PS评分概率数据,然后利用PS数据按某种匹配算法从所有待选的对照样本中选择合适对象完成匹配过程。

SPSSAU默认采用logistic回归模型构造PS数据,而用户则需要指定哪些数据作为协变量参与logistic回归计算PS值。

协变量的选择不是随意的,具体选择依据目前有多种观点。一般来说,协变量会影响结果变量,而且在干预组、对照组上也存在差异。当然专业知识、既往研究结论也可作为参考。

SPSSAU中协变量表述为特征项,本案例后面对协变量的描述统一采用特征项。

2.1 匹配前连续型特征项差异检验

已收集的特征项中,年龄、教育年、初始工作成绩、工作经验、工作时间,这5个为连续型数据。我们先考察培训组、未培训组在这些数据上是否基线无差异。

在SPSSAU“通用方法”栏目中执行【t检验】。结果如下:

图2 匹配前连续型数据t检验

由上表结果可知,两组员工在初始工作成绩、工作经验上存在统计学差异(均P值<0.05)。而在年龄、教育年、工作时间上无差异。

2.2 匹配前分类型特征项差异检验

同理,对性别、职位类别两个分类数据,做交叉表卡方检验,以考察匹配前两组员工在二者的分布差异。

在SPSSAU“通用方法”栏目中执行【交叉/卡方】。结果如下:

图3 匹配前分类型数据交叉表卡方检验

由上表结果可知,两组员工在职位类别的分布上存在统计学差异(P值<0.05),而性别分布上无差异。

2.3 特征项/协变量选择

综合基线分析、专业认知、既往研究结论,本案例拟将初始工作成绩、工作经验、职位类别共3个指标认定为本次PSM的特征项(协变量)。

以此3个特征项,通过logistic回归构造PS数据,从而实现匹配。

3.倾向得分匹配3.1 匹配算法选择

倾向评分匹配算法有很多种,较常用的是最近邻匹配。SPSSAU提供了两种匹配算法,分别是最近邻匹配和半径匹配。前者是指PS值距离最近的进行匹配,后者需先指定卡钳值,在卡钳值范围内进行匹配。

原则上两种算法的匹配结论大致一样,可以根据匹配均衡性来选择,本例选择半径匹配。卡钳值采用多次遍历的形式,最终确定为0.05。具体理由文末有总结说明。

3.2 SPSSAU具体操作

在SPSSAU“计量经济研究”栏目下选择【倾向得分匹配】,首先将“是否培训”拖拽至【研究变量】框内,它将作为logistic回归的二结局因变量,特别注意水平编码,要求是1表示处理组,0表示对照组。

“初始成绩”、“工作经验”、“职位类别”拖拽至【特征项】框。

图4 SPSSAU倾向评分匹配具体操作

倾向得分匹配PSM案例分析(倾向得分匹配后怎么进行回归)

同时,本例建议将结果变量“当前成绩”拖拽至【结果变量】框。此操作展现了SPSSAU的特有优势,可以帮我们一步到位,既实现匹配,同时也完成匹配后数据的效果分析。

匹配算法选择半径匹配,卡钳值0.05。为方便理解,采用不放回策略。同时勾选【保存信息】,即要求输出匹配指示数据。具体操作见图4,最后点击“开始分析”即可。

4.倾向评分匹配结果解读4.1 匹配概况

参加培训员工17人,因此需要匹配个数为17。采用卡钳值0.05的半径匹配后,匹配成功16人,SPSSAU此时进行的是1:1匹配,因此匹配后的数据总人数为32人。

通俗讲,匹配算法从未参加培训的61人中寻找到16人一一匹配给参加过培训的员工。

图5 PSM匹配概括

4.2 均衡性评价

匹配后,一定要进行均衡性、或平衡性评价,满足均衡条件后才表示匹配成功,如果均衡性不达标,应当返回重新进行匹配,直到满意为止。

在SPSSAU中,至少可以完成四项平衡性评价,本案例选择其中三项进行重点解读。

首先来看第一项:标准化偏差变化条形图

图6标准化偏差变化条形图

一般匹配后“标准化偏差”绝对值小于20%,则匹配效果较好。本例中,初始成绩、工作经验、职位类别匹配前的标准化偏差均在55%以上,匹配后,标准化偏差均低于20%,表明匹配后两组人群在这三个特征项上达到均衡。

第二项:核密度图

SPSSAU【倾向评分匹配】并未直接提供该图形,需要我们自己根据另存到原始数据中的匹配指示变量进行绘制。

新增的匹配指示变量中,Weight变量大于0,即匹配成功次数大于0,表明该样本为匹配成功的有效样本。

在SPSSAU的“可视化”栏目下,选择【核密度图】,打开【筛选样本】,输入条件:Weight > 0 ,这样做从数据集中筛选出匹配成功的32人数据,用于绘图。

图7 核密度前筛选匹配成功样本

“是否培训”拖拽至【定类X】框,其他特征项或其他变量可拖入【定类Y】框。

限于篇幅,本案例只展示“初始成绩”特征的匹配后核密度图。由图可见,匹配后两组密度曲线十分相似,能满足均衡要求。

图8 匹配后初始工作成绩核密度图

第三项:匹配后基线分析

匹配前我们已经讨论过基线比较,匹配后也可以继续做基线分析,以判断匹配后两组数据在各特征项上有无差异。

连续型特征项用t检验,类别性特征项用卡方检验,我们直接看结果(t检验、卡方检验汇总后):

图9 匹配后特征项基线分析

如上表所示,匹配后,两组人群在初始成绩、工作经验、职位类别上差异无统计学意义(均P值>0.05)。即,匹配后基线特征由有差异趋于一致、均衡。综合以上三项结果,本例认为匹配后培训组、未培训组两组在特征上达到均衡,匹配效果良好。

5.效果分析

我们已经为17人的培训组,匹配到了一批特征类似,基线一致的对照(未培训组)。

本例的分析目的是考察培训的效果,结果变量“当前工作成绩”为连续型数据,因此执行t检验即可评价培训的效果。

但是我们并不需要去单独做t检验,因为SPSSAU在【倾向评分匹配】中包含了这一项重要工作。我们此前将当前成绩移入【结果变量】框,就是为了直截了当获得该项结果。

在SPSSAU中,这项工作称之为ATT效应分析。本例的结果:

图10 匹配后ATT效应分析

“Unmatched匹配前”第1行数据是指在匹配之前,两组的当前工作成绩有统计学差异。

“ATT效应”第2行数据是指在匹配之后,两组的当前工作成绩存在显著差异(P值<0.05)。

说明在控制了干扰因素后,我们认为培训是有效果的。

6.总结

本例采用半径匹配算法,卡钳值多少合适呢?原则上并没有严格的规定或标准。

可以通过多次遍历的形式,比如第一次执行卡钳值0.3,然后评估匹配后平衡性及样本损失是否满足要求;如果不平衡,则返回调低卡钳值到0.1(或其他值)再进行同样操作,若仍不平衡,继续返回拉低卡钳值,比如0.05,或0.02,直至组间满足平衡要求,而且样本损失也在可接受水平。本例最终设定卡钳值为0.05。最近邻算法在没有卡钳值限定时,处理组样本通常会全部匹配成功,读者可以自行实践。

本文链接地址:https://www.jiuchutong.com/zhishi/300338.html 转载请保留说明!

上一篇:〖大前端 - 基础入门三大核心之CSS篇⑱〗- CSS中的背景(大前端最新)

下一篇:深度学习分析NASA电池数据(1 数据读取)

  • 如何让手机变成震动器(如何让手机变成彩色屏幕)

    如何让手机变成震动器(如何让手机变成彩色屏幕)

  • 抖音视频怎么调快速(抖音视频怎么调美颜好看)

    抖音视频怎么调快速(抖音视频怎么调美颜好看)

  • 怎么查看抖音好友在线(怎么查看抖音好友在线状态)

    怎么查看抖音好友在线(怎么查看抖音好友在线状态)

  • 喷墨打印机打出来一条一条的(喷墨打印机打出来的字断断续续怎么解决)

    喷墨打印机打出来一条一条的(喷墨打印机打出来的字断断续续怎么解决)

  • 声卡是什么设备(有声卡和没声卡的区别)

    声卡是什么设备(有声卡和没声卡的区别)

  • qq里的一起听歌怎么弄(QQ里的一起听歌谁控制)

    qq里的一起听歌怎么弄(QQ里的一起听歌谁控制)

  • 电脑屏幕绿色怎么回事(电脑屏幕绿色怎么调过来)

    电脑屏幕绿色怎么回事(电脑屏幕绿色怎么调过来)

  • 九代g5420相当于i几(九代g5400处理器怎么样)

    九代g5420相当于i几(九代g5400处理器怎么样)

  • 惠普1007用什么硒鼓(惠普1007用什么反骨)

    惠普1007用什么硒鼓(惠普1007用什么反骨)

  • 为什么显示不支持此配件(为什么显示不支持花呗支付)

    为什么显示不支持此配件(为什么显示不支持花呗支付)

  • 苹果8特别版什么意思(苹果8特别版什么时候上市的)

    苹果8特别版什么意思(苹果8特别版什么时候上市的)

  • vivos1双引擎闪充在哪(vivos1双引擎闪充怎么开启)

    vivos1双引擎闪充在哪(vivos1双引擎闪充怎么开启)

  • 电脑开始菜单不见了(电脑开始菜单不见了没法关机)

    电脑开始菜单不见了(电脑开始菜单不见了没法关机)

  • cpf网络安全大赛是什么(网络安全大赛ctf成员)

    cpf网络安全大赛是什么(网络安全大赛ctf成员)

  • 苹果无线耳机可以定位吗(苹果无线耳机可以用在安卓手机上吗)

    苹果无线耳机可以定位吗(苹果无线耳机可以用在安卓手机上吗)

  • iphonexr防水等级(iphone xr防水等级是多少)

    iphonexr防水等级(iphone xr防水等级是多少)

  • 转转二手怎么交易流程(转转二手交易网怎么交易)

    转转二手怎么交易流程(转转二手交易网怎么交易)

  • 华为mate20盲人模式怎么关闭(华为的盲人模式)

    华为mate20盲人模式怎么关闭(华为的盲人模式)

  • 自己的无线网密码忘记了怎么办(自己的无线网密码在哪里看)

    自己的无线网密码忘记了怎么办(自己的无线网密码在哪里看)

  • Mac怎么连接蓝牙鼠标? Mac配对MagicMouse鼠标的教程(mac怎么连接蓝牙鼠标)

    Mac怎么连接蓝牙鼠标? Mac配对MagicMouse鼠标的教程(mac怎么连接蓝牙鼠标)

  • win11如何设置多屏显示时复制或扩展的显示?(win11多开)

    win11如何设置多屏显示时复制或扩展的显示?(win11多开)

  • 预装win8的华硕笔记本改win7如何在bios中设置(图解)(华硕笔记本装win8)

    预装win8的华硕笔记本改win7如何在bios中设置(图解)(华硕笔记本装win8)

  • React developer tools调试工具全网最新最全安装教程

    React developer tools调试工具全网最新最全安装教程

  • 班迪专业录屏软件 Bandicam 6.2.3.2078(班迪录屏软件录制框怎样在ppt上一直指定)

    班迪专业录屏软件 Bandicam 6.2.3.2078(班迪录屏软件录制框怎样在ppt上一直指定)

  • 小规模纳税人结转
  • 海关进口啥意思
  • 小规模纳税人增值税申报流程
  • 大盛房地产中介公司
  • 视同销售是指什么
  • 其他应收款期末余额为负数是什么意思
  • 劳务发票可以抵扣多少
  • 公司车维修费
  • 企业并购需要交什么税
  • 测试费明细
  • 支付投资人的投资收益账务处理
  • 待抵扣进项税什么时候抵扣
  • 个人销售自产农产品 个人所得税
  • 个税申报收入额怎么填
  • 结转增值税销项的账务处理
  • 个人转让住宅要交哪些税
  • 城市建设综合配套费征收管理办法
  • 调拨入库的固定资产是否缴税?
  • 哪些发票无法全开
  • 行政事业单位工会经费支出范围
  • 行政相对人和行政管理相对人的区别
  • 个人所得税生育险
  • 图书发票没有明细能报销吗?
  • 小规模开普票要交税吗分录怎么做
  • 总账科目和明细科目余额分析填列
  • 旧机器设备出口
  • 个人股权转给公司要交个税吗
  • 小规模纳税人确认收入时要确认税吗
  • 弃置费用预计负债的会计处理
  • 持有待售的非流动资产或处置组不再
  • 股东分红怎么处理
  • 收购自然人股东的股权要注意什么
  • 超市预售卡怎么记账
  • pgptray.exe - pgptray是什么进程 有什么用
  • 计算利润要扣除企业所得税吗
  • php判断密码长度
  • 百旺开票软件状态查询在哪里
  • sql数据库存储过程怎么写
  • 增值税发票有哪些项目
  • 投资性房地产进项税抵扣
  • 房租没开票算不算漏税
  • 公司被仲裁后怎么补救
  • 电子承兑过期超过10天就无法转让吗
  • 固定资产报废后怎么处理
  • 软件开发的账务处理
  • 实收金额少于发票入账
  • 政府补贴项目需要审批吗
  • 预收账款处理
  • 主营业务成本的贷方是什么
  • 生产性生物资产账务处理
  • 房地产开发企业建造的商品房,在出售前
  • mysql存储过程中调用存储过程
  • win8系统蓝屏后无法修复
  • Ubuntu 15.04系统怎么安装Visual Studio Code 2015?
  • 怎样禁用ie
  • mac win10 wifi
  • xp开始菜单栏怎么还原
  • ubuntu安装指南
  • win7的命令对话框在哪里
  • w7系统序列号怎么查
  • django 实例
  • python模拟登录爬取数据
  • Android通过HttpURLConnection获取JSON并进行UI更新
  • shell遍历sql查询结果
  • 关于jQuery中的DOM操作,下列哪种方法用来复制元素?
  • android保存文件到本地
  • jquery tab
  • android中启动service的方法有
  • 安卓 截图
  • 深入理解新发展理念
  • js如何输出页面内容
  • 安卓微信自带聊天背景图片高清
  • 顺丰收取关税合理吗
  • 二手车公司如何运营
  • 广东国税app安卓版网上预约
  • 贵州网上办税服务厅登录
  • 电子专用发票怎么申请领用
  • 攸县丧葬
  • 实收资本印花税税率多少
  • 财税相关书籍
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设