為什么傾向評(píng)分匹配比單純匹配好?
高水平的傾向性得分匹配使用以下框架:從協(xié)變量中識(shí)別潛在的混雜因素,即可能影響作為實(shí)驗(yàn)組一部分的受試者的所有因素Calculate Profensity Score=Pr(受試者作
解答動(dòng)態(tài)
協(xié)變量)創(chuàng)建一個(gè)模型來(lái)估計(jì)每個(gè)受試者的成員資格存在的主題治療。受試者根據(jù)傾向性得分分為多個(gè)控制層/實(shí)驗(yàn)層。這將使各組在co方有相似特征的受試者之間保持平衡-變量。計(jì)算通過(guò)平均每個(gè)階層因變量差異的總和來(lái)獲得治療效果。 我的問(wèn)題是:為什么這比僅僅將接受治療的受試者與接受類似非治療的受試者進(jìn)行匹配更好距離度量和協(xié)變量值?然后平均每對(duì)接受治療和未接受治療的受試者之間的差值之和?
這似乎更簡(jiǎn)單,似乎可以解決PSM旨在減少/消除的自我選擇偏差。
我在這里遺漏了什么?
讓我們退一步,更廣泛地考慮如何匹配給定的一些數(shù)據(jù)X.
精確或單元格匹配
這對(duì)于連續(xù)的Xs很難做到。您可以嘗試舍入/離散化每個(gè)變量,但這會(huì)引入一些測(cè)量誤差。如果仍然選擇繼續(xù),則可以與這些新變量交互以定義單元格。當(dāng)X變大時(shí),你會(huì)遇到維度的詛咒。如果有五個(gè)變量,每個(gè)變量有三個(gè)值,那么就有$3^5=243$cells。那么怎么辦呢?
不精確匹配
不精確匹配過(guò)程通過(guò)在X上定義距離度量,然后使用距離而不是X進(jìn)行匹配來(lái)降低問(wèn)題的維數(shù)。馬氏距離是一種常見(jiàn)的匹配方法。但是你可以有兩個(gè)觀察結(jié)果,這兩個(gè)結(jié)果在MD中相當(dāng)遙遠(yuǎn),但治療的可能性相同。在許多應(yīng)用中,如果禿頂和胖乎乎都會(huì)增加尋求治療的傾向,那么可以比較一個(gè)因?yàn)槎d頂而可能接受治療的受治療者和一個(gè)因?yàn)榕趾鹾醵蓄愃聘怕实膶?duì)照者。在PSM框架中,這會(huì)創(chuàng)建一個(gè)更大的匹配池。
隨著樣本的增大,所有不精確匹配方案都趨向于精確匹配(在X或傾向性得分上),因此所有不精確匹配方案都是一致的。然而,它們?cè)谟邢迾颖局锌梢缘玫椒浅2煌拇鸢,并且在有限樣本中都有偏差。PSM可能不如尋找相似的人直觀,但目標(biāo)不是尋找相似的人。你所描述的程序不是傾向評(píng)分匹配,而是傾向評(píng)分子分類。在傾向得分匹配中,根據(jù)傾向得分之間的差異選擇成對(duì)的單位,并刪除未配對(duì)的單位。這兩種方法都是在觀察性研究中使用傾向得分來(lái)減少導(dǎo)致混淆偏差的不平衡的流行方法。
在傾向得分匹配中,兩個(gè)單位之間的距離是他們傾向得分之間的差異,傾向得分是從協(xié)變量計(jì)算出來(lái)的,因此通過(guò)傾向得分匹配,您將基于距離度量和協(xié)變量值進(jìn)行匹配。還有其他一些距離度量不涉及匹配中經(jīng)常使用的傾向性得分,比如馬氏距離。一些研究表明,作為一種距離度量,馬氏距離比傾向得分差更有效,而一些研究表明并非如此。每種方法的相對(duì)性能取決于數(shù)據(jù)集的獨(dú)特特性;對(duì)于哪種方法更好,沒(méi)有辦法提供一條始終正確的規(guī)則。兩者都應(yīng)該嘗試。你也可以把傾向得分作為馬氏距離的協(xié)變量包含進(jìn)來(lái)。
如果你的問(wèn)題更多的是為什么我們會(huì)在傾向得分匹配的時(shí)候做傾向得分子分類,那么有一些考慮因素。和以前一樣,您應(yīng)該始終使用在您的樣本中產(chǎn)生最佳平衡的任何方法。傾向評(píng)分子分類可以更好地實(shí)現(xiàn)一些數(shù)據(jù)集的平衡和其他數(shù)據(jù)集的傾向評(píng)分匹配。沒(méi)有理由單方面決定使用一種方法而不是另一種方法。子分類允許您估計(jì)ATT或ATE,而大多數(shù)匹配方法只允許ATT。子分類與傾向評(píng)分權(quán)重密切相關(guān),當(dāng)以某些方式使用時(shí),而匹配通常不會(huì)為個(gè)體分配不均勻的權(quán)重。通過(guò)匹配,您可以更多地定制規(guī)范(例如,通過(guò)使用卡尺、通過(guò)更改控制與處理的比率等),而通過(guò)子分類,定制的機(jī)會(huì)更加有限。在完全匹配的情況下,匹配和子分類之間的區(qū)別是模糊的,完全匹配是兩者的混合,通常表現(xiàn)得比兩者都好。一些比較了這兩種方法的性能,但是正如我之前提到的,不要依賴一般的結(jié)果,而是在示例中嘗試這兩種方法,這一點(diǎn)很重要。
請(qǐng)查看MatchIt R軟件包的文檔,其中詳細(xì)介紹了幾種匹配方法,并討論了它們的一些相對(duì)優(yōu)點(diǎn)和自定義方法。- End
免責(zé)聲明:
本頁(yè)內(nèi)容僅代表作者本人意見(jiàn),若因此產(chǎn)生任何糾紛由作者本人負(fù)責(zé),概與琴島網(wǎng)公司無(wú)關(guān)。本頁(yè)內(nèi)容僅供參考,請(qǐng)您根據(jù)自身實(shí)際情況謹(jǐn)慎操作。尤其涉及您或第三方利益等事項(xiàng),請(qǐng)咨詢專業(yè)人士處理。