位置: IT常识 - 正文

倾向得分匹配PSM案例分析(倾向得分匹配后怎么进行回归)

编辑:rootadmin
倾向得分匹配PSM案例分析

推荐整理分享倾向得分匹配PSM案例分析(倾向得分匹配后怎么进行回归),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:倾向得分匹配的结果怎么看,倾向得分匹配stata,倾向得分匹配法解决什么问题,倾向得分匹配p是什么意思,倾向得分匹配法原理,倾向得分匹配模型,倾向得分匹配法原理,倾向得分匹配stata,内容如对您有帮助,希望把文章链接给更多的朋友!

倾向得分匹配(PSM),是一种模仿RCT随机对照试验随机化分组,提高组间均衡性,进而达到降低混杂因素影响目的一种数据处理策略。PSM在计量研究,临床医学等领域有着广泛的应用。

1.案例背景与分析策略1.1 案例背景介绍

某企业想评价专项培训的效果,现收集到78位员工的个人及工作成绩信息,包括性别、年龄、教育年、初始工作成绩与当前工作成绩、工作经验、工作时间、职位类别、是否参加培训等数据。

数据上传SPSSAU后,在 “我的数据”中查看浏览原始数据,前5行数据如下:

图1 “我的数据”查看浏览数据集

1.2 明确目的与分析策略

已经参加过培训的有17人,其余61人没有参加过培训。研究培训的效果,我们似乎可以直接比较两组员工的工作成绩有无差异。

考虑到性别、年龄、工作经验、参加工作时间等本身会影响工作成绩,当两组人群不在一个起跑线起跑时,如果贸然直接对比当前工作成绩的差异,可能受到其他因素的干扰。

因此,我们应该寻找一批和参加培训员工基本情况类似,各关键指标特征接近的、未参加过培训的员工组成对照/控制组,然后进行组间差异的对比,从而判断培训效果。

倾向评分匹配,正是这样一种可以匹配对照,让处理组和对照组达到均衡的数据处理手段。SPSSAU在“计量经济研究”栏目下提供了【倾向得分匹配】功能。

完成匹配后,以当前工作成绩数据作为结果变量,是否培训为分组数据来探讨培训效果。

2.协变量选择与基线分析

倾向评分匹配PSM,首先需要构造PS评分概率数据,然后利用PS数据按某种匹配算法从所有待选的对照样本中选择合适对象完成匹配过程。

SPSSAU默认采用logistic回归模型构造PS数据,而用户则需要指定哪些数据作为协变量参与logistic回归计算PS值。

协变量的选择不是随意的,具体选择依据目前有多种观点。一般来说,协变量会影响结果变量,而且在干预组、对照组上也存在差异。当然专业知识、既往研究结论也可作为参考。

SPSSAU中协变量表述为特征项,本案例后面对协变量的描述统一采用特征项。

2.1 匹配前连续型特征项差异检验

已收集的特征项中,年龄、教育年、初始工作成绩、工作经验、工作时间,这5个为连续型数据。我们先考察培训组、未培训组在这些数据上是否基线无差异。

在SPSSAU“通用方法”栏目中执行【t检验】。结果如下:

图2 匹配前连续型数据t检验

由上表结果可知,两组员工在初始工作成绩、工作经验上存在统计学差异(均P值<0.05)。而在年龄、教育年、工作时间上无差异。

2.2 匹配前分类型特征项差异检验

同理,对性别、职位类别两个分类数据,做交叉表卡方检验,以考察匹配前两组员工在二者的分布差异。

在SPSSAU“通用方法”栏目中执行【交叉/卡方】。结果如下:

图3 匹配前分类型数据交叉表卡方检验

由上表结果可知,两组员工在职位类别的分布上存在统计学差异(P值<0.05),而性别分布上无差异。

2.3 特征项/协变量选择

综合基线分析、专业认知、既往研究结论,本案例拟将初始工作成绩、工作经验、职位类别共3个指标认定为本次PSM的特征项(协变量)。

以此3个特征项,通过logistic回归构造PS数据,从而实现匹配。

3.倾向得分匹配3.1 匹配算法选择

倾向评分匹配算法有很多种,较常用的是最近邻匹配。SPSSAU提供了两种匹配算法,分别是最近邻匹配和半径匹配。前者是指PS值距离最近的进行匹配,后者需先指定卡钳值,在卡钳值范围内进行匹配。

原则上两种算法的匹配结论大致一样,可以根据匹配均衡性来选择,本例选择半径匹配。卡钳值采用多次遍历的形式,最终确定为0.05。具体理由文末有总结说明。

3.2 SPSSAU具体操作

在SPSSAU“计量经济研究”栏目下选择【倾向得分匹配】,首先将“是否培训”拖拽至【研究变量】框内,它将作为logistic回归的二结局因变量,特别注意水平编码,要求是1表示处理组,0表示对照组。

“初始成绩”、“工作经验”、“职位类别”拖拽至【特征项】框。

图4 SPSSAU倾向评分匹配具体操作

倾向得分匹配PSM案例分析(倾向得分匹配后怎么进行回归)

同时,本例建议将结果变量“当前成绩”拖拽至【结果变量】框。此操作展现了SPSSAU的特有优势,可以帮我们一步到位,既实现匹配,同时也完成匹配后数据的效果分析。

匹配算法选择半径匹配,卡钳值0.05。为方便理解,采用不放回策略。同时勾选【保存信息】,即要求输出匹配指示数据。具体操作见图4,最后点击“开始分析”即可。

4.倾向评分匹配结果解读4.1 匹配概况

参加培训员工17人,因此需要匹配个数为17。采用卡钳值0.05的半径匹配后,匹配成功16人,SPSSAU此时进行的是1:1匹配,因此匹配后的数据总人数为32人。

通俗讲,匹配算法从未参加培训的61人中寻找到16人一一匹配给参加过培训的员工。

图5 PSM匹配概括

4.2 均衡性评价

匹配后,一定要进行均衡性、或平衡性评价,满足均衡条件后才表示匹配成功,如果均衡性不达标,应当返回重新进行匹配,直到满意为止。

在SPSSAU中,至少可以完成四项平衡性评价,本案例选择其中三项进行重点解读。

首先来看第一项:标准化偏差变化条形图

图6标准化偏差变化条形图

一般匹配后“标准化偏差”绝对值小于20%,则匹配效果较好。本例中,初始成绩、工作经验、职位类别匹配前的标准化偏差均在55%以上,匹配后,标准化偏差均低于20%,表明匹配后两组人群在这三个特征项上达到均衡。

第二项:核密度图

SPSSAU【倾向评分匹配】并未直接提供该图形,需要我们自己根据另存到原始数据中的匹配指示变量进行绘制。

新增的匹配指示变量中,Weight变量大于0,即匹配成功次数大于0,表明该样本为匹配成功的有效样本。

在SPSSAU的“可视化”栏目下,选择【核密度图】,打开【筛选样本】,输入条件:Weight > 0 ,这样做从数据集中筛选出匹配成功的32人数据,用于绘图。

图7 核密度前筛选匹配成功样本

“是否培训”拖拽至【定类X】框,其他特征项或其他变量可拖入【定类Y】框。

限于篇幅,本案例只展示“初始成绩”特征的匹配后核密度图。由图可见,匹配后两组密度曲线十分相似,能满足均衡要求。

图8 匹配后初始工作成绩核密度图

第三项:匹配后基线分析

匹配前我们已经讨论过基线比较,匹配后也可以继续做基线分析,以判断匹配后两组数据在各特征项上有无差异。

连续型特征项用t检验,类别性特征项用卡方检验,我们直接看结果(t检验、卡方检验汇总后):

图9 匹配后特征项基线分析

如上表所示,匹配后,两组人群在初始成绩、工作经验、职位类别上差异无统计学意义(均P值>0.05)。即,匹配后基线特征由有差异趋于一致、均衡。综合以上三项结果,本例认为匹配后培训组、未培训组两组在特征上达到均衡,匹配效果良好。

5.效果分析

我们已经为17人的培训组,匹配到了一批特征类似,基线一致的对照(未培训组)。

本例的分析目的是考察培训的效果,结果变量“当前工作成绩”为连续型数据,因此执行t检验即可评价培训的效果。

但是我们并不需要去单独做t检验,因为SPSSAU在【倾向评分匹配】中包含了这一项重要工作。我们此前将当前成绩移入【结果变量】框,就是为了直截了当获得该项结果。

在SPSSAU中,这项工作称之为ATT效应分析。本例的结果:

图10 匹配后ATT效应分析

“Unmatched匹配前”第1行数据是指在匹配之前,两组的当前工作成绩有统计学差异。

“ATT效应”第2行数据是指在匹配之后,两组的当前工作成绩存在显著差异(P值<0.05)。

说明在控制了干扰因素后,我们认为培训是有效果的。

6.总结

本例采用半径匹配算法,卡钳值多少合适呢?原则上并没有严格的规定或标准。

可以通过多次遍历的形式,比如第一次执行卡钳值0.3,然后评估匹配后平衡性及样本损失是否满足要求;如果不平衡,则返回调低卡钳值到0.1(或其他值)再进行同样操作,若仍不平衡,继续返回拉低卡钳值,比如0.05,或0.02,直至组间满足平衡要求,而且样本损失也在可接受水平。本例最终设定卡钳值为0.05。最近邻算法在没有卡钳值限定时,处理组样本通常会全部匹配成功,读者可以自行实践。

本文链接地址:https://www.jiuchutong.com/zhishi/300338.html 转载请保留说明!

上一篇:〖大前端 - 基础入门三大核心之CSS篇⑱〗- CSS中的背景(大前端最新)

下一篇:深度学习分析NASA电池数据(1 数据读取)

  • htmlcss网页设计网站的策划要符合网站的性质

    htmlcss网页设计网站的策划要符合网站的性质

  • 红米g2021有小爱同学吗(红米上的小爱怎么用)

    红米g2021有小爱同学吗(红米上的小爱怎么用)

  • 怎么设置ipad和手机不同步(怎么设置ipad和手机短信不同步)

    怎么设置ipad和手机不同步(怎么设置ipad和手机短信不同步)

  • 华为Mate X2机身接口是什么

    华为Mate X2机身接口是什么

  • iphone7充电背部麻麻的(苹果7充电感觉背后麻麻的)

    iphone7充电背部麻麻的(苹果7充电感觉背后麻麻的)

  • 微信连续异常闪退如何修复(微信连续异常闪退无法正常使用)

    微信连续异常闪退如何修复(微信连续异常闪退无法正常使用)

  • 苹果x侧面看屏幕发红(苹果x手机侧面)

    苹果x侧面看屏幕发红(苹果x手机侧面)

  • 芒果tv投屏为什么这么卡(芒果tv投屏为什么不能连续播放)

    芒果tv投屏为什么这么卡(芒果tv投屏为什么不能连续播放)

  • 苹果手机微信声音小怎么回事(苹果手机微信声音明明开了却不响怎么回事)

    苹果手机微信声音小怎么回事(苹果手机微信声音明明开了却不响怎么回事)

  • 笔记本有麦克风吗(笔记本有麦克风功能吗)

    笔记本有麦克风吗(笔记本有麦克风功能吗)

  • airpodspro后面按键干嘛的(airpodspro后面按键没反应)

    airpodspro后面按键干嘛的(airpodspro后面按键没反应)

  • 流速屏是什么意思(流速屏手机有哪些)

    流速屏是什么意思(流速屏手机有哪些)

  • 锐龙三代有哪些型号(锐龙三代参数一览)

    锐龙三代有哪些型号(锐龙三代参数一览)

  • 如何把视频压缩到最小(如何把视频压缩时间变短)

    如何把视频压缩到最小(如何把视频压缩时间变短)

  • 华为p30怎么开启otg(华为p30怎么开启hd模式)

    华为p30怎么开启otg(华为p30怎么开启hd模式)

  • oppo r11怎么关机(OPPO R11怎么关机?)

    oppo r11怎么关机(OPPO R11怎么关机?)

  • iqooneo855有nfc吗(iqooneo855nfc功能在哪里打开)

    iqooneo855有nfc吗(iqooneo855nfc功能在哪里打开)

  • 华为荣耀9怎么实现AI识屏购物(华为荣耀9怎么退出程序)

    华为荣耀9怎么实现AI识屏购物(华为荣耀9怎么退出程序)

  • vceal00是什么机型(vce-aloo是什么手机型号)

    vceal00是什么机型(vce-aloo是什么手机型号)

  • 全民k歌手机型号隐藏(全民k歌手机型号以前发的怎么隐藏)

    全民k歌手机型号隐藏(全民k歌手机型号以前发的怎么隐藏)

  • 电脑恢复到某个时间点(电脑恢复到某个时间点,还能恢复回来吗)

    电脑恢复到某个时间点(电脑恢复到某个时间点,还能恢复回来吗)

  • 微信支付收款受限七天(微信支付收款受限多久解除)

    微信支付收款受限七天(微信支付收款受限多久解除)

  • 默认网关和dns怎么设置详情(默认网关和dns怎么填)

    默认网关和dns怎么设置详情(默认网关和dns怎么填)

  • phpcms v9如何安装(phpcms教程)

    phpcms v9如何安装(phpcms教程)

  • 一般纳税人转小规模最新政策2022
  • 金蝶财务系统录入发票
  • 本月发生费用下月收到发票
  • 一般纳税人什么时候用简易计税
  • 支付招聘费收到专票怎么记账
  • 小微企业增值税减免账务处理
  • 购进国产设备的增值税处理规定
  • 期初建账库存少录数量会计怎么处理
  • 借款合同的印花税税率
  • 补税款的分录应该怎么写
  • 营改增后如何纳税
  • 小规模和一般纳税人的区别
  • 境外派遣员工境外所得税是什么时候申报?
  • 上海房产税如何退税
  • 一般纳税人开技术服务费
  • 增值税扣税项目
  • 月饼税收分类属于哪一类食品
  • 增值税发票的开具问题
  • 个税多申报了实发没有这么多,如何处理
  • 新开办筹建费企业所得税申报填写
  • 小规模所得税申报表填写样本
  • 超市里销售
  • 软件企业销售服务符合增值税即征即退吗
  • 个税免缴款
  • 管理费用金额多做了,如何减少
  • 国税增值税定额计算公式
  • 补交以前年度的城建税会计分录
  • php的pdo
  • 如何用php制作表格
  • 北海道的鱼
  • 个体户对公账户的钱怎么取出来
  • react router教程
  • vue清空页面数据
  • 最新版本金铲铲强势阵容
  • 什么行业需要生产许可
  • 使用sm4js进行加密和国密sm4的总结
  • 结构体基本知识
  • mysql常用命令行大全
  • GCC strict aliasing – 嫉妒就是承认自己不如别人
  • 个人劳务所得年终汇算清缴
  • 公司的钱借给个人必须要有利息吗
  • 施工企业应承担的主要责任和义务
  • 11个点的是什么星座
  • 三代手续费的税率
  • 资产负债表不平衡能结账吗
  • 公司车辆固定资产转移税
  • 建筑业成本核算流程
  • 增值税发票的规范
  • 债务豁免会计核算
  • 企业所得税是指利润的税吗
  • 商贸企业的存货周转率什么水平属于正常
  • 企业回购本公司股票会导致所有者权益增加
  • 国际货运代理一个月大概有多少收入
  • 汽油发票怎么开专票
  • 无形资产达到可使用状态前如何入账
  • 当月没开发票
  • 冲减上年度多计提所得税
  • 旅游服务会议费发票
  • 开户一定要去银行吗
  • 资产状况信息公示还是不公示
  • 在建工程转固定资产的账务处理
  • win8怎么设置
  • windows2008r2无线网卡不可用
  • shwiconem.exe - shwiconem是什么进程 有什么用
  • onionwormimmune.exe是什么
  • windows mobile10
  • linux打包压缩文件的命令
  • win7系统连不了网络
  • windows10运用
  • pebble框架
  • 表单提交servlet
  • Android自定义对话框
  • 批处理图像
  • nodejs使用视频教程
  • 打造自己的庭院花园游戏
  • linux用yum
  • python编写一个模块
  • 如何在国税网上做企业会计制度备
  • 提高税务管理水平,降低税务风险
  • 中药生产与加工和中药制药技术区别
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设