【例會預(yù)告】
會議名稱:數(shù)據(jù)科學(xué)與創(chuàng)新管理團(tuán)隊(duì)例會
會議時間:2025年11月20日(周四)15:00-17:00
會議地點(diǎn):經(jīng)管樓609會議室
匯報人:李虎峰
匯報題目:
一種基于DAC方法的統(tǒng)計(jì)學(xué)檢驗(yàn)思路
匯報摘要:
相較于傳統(tǒng)的實(shí)證、案例等研究方法,數(shù)據(jù)驅(qū)動分析方法(Data-driven Analysis for studying the influence mechanism of Complex factors,DAC)綜合了定量和定性研究的優(yōu)勢,通過機(jī)器學(xué)習(xí)的方法研究復(fù)雜系統(tǒng)關(guān)鍵核心因素的機(jī)制。有助于提供基于企業(yè)異質(zhì)性的高度細(xì)分的管理建議,通過CART決策樹有助于理解要素間存在的高階交互作用。但是,DAC方法在方法層面也存在一些不足:例如缺乏統(tǒng)計(jì)學(xué)推斷方面的嚴(yán)謹(jǐn)性、模型的不穩(wěn)定和高方差問題,單棵CART樹對訓(xùn)練數(shù)據(jù)的微小變動非常敏感。數(shù)據(jù)集中的少量變化可能導(dǎo)致樹的結(jié)構(gòu)發(fā)生巨大變化,降低了模型的穩(wěn)定性。此外,當(dāng)缺乏有效剪枝策略時,還可能導(dǎo)致模型的過擬合問題。基于上述問題,借鑒統(tǒng)計(jì)學(xué)和計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域的假設(shè)檢驗(yàn)及“處理效應(yīng)的思路”,針對DAC方法進(jìn)行一定的補(bǔ)充。具體而言,通過Kruskal-Wallis H檢驗(yàn)和事后檢驗(yàn)(Dunn’s Test)檢驗(yàn)K-Means聚類分組間的差異性。針對具體決策規(guī)則,引入卡方檢驗(yàn)驗(yàn)證規(guī)則的顯著性,通過替換模型超參數(shù)、重復(fù)隨機(jī)子樣本抽樣檢驗(yàn)和安慰劑檢驗(yàn)研究決策路徑的穩(wěn)健性。以驗(yàn)證具體決策路徑(即分類規(guī)則)的實(shí)際區(qū)分能力,以及生成的分類規(guī)則是來源于數(shù)據(jù)內(nèi)在規(guī)律而非隨機(jī)偶然。

圖1 自由度為2的卡方檢驗(yàn)

圖2 雙側(cè)檢驗(yàn)結(jié)果

圖3 安慰劑檢驗(yàn)結(jié)果