AAAI人工智能會議(AAAI Conference on Artificial Intelligence)由人工智能促進會(AAAI)主辦,是人工智能領(lǐng)域歷史最悠久的國際學術(shù)會議之一。AAAI2026將于2026年1月20日-27日在新加坡舉辦。PKU-DAIR實驗室的論文《 PSEO: Optimizing Post-hoc Stacking Ensemble Through Hyperparameter Tuning》被AAAI 2026 錄用為Oral。
PSEO: Optimizing Post-hoc Stacking Ensemble Through Hyperparameter Tuning
作者:Beicheng Xu, Wei Liu, Keyao Ding, Yupeng Lu, Bin Cui
Github鏈接:https://github.com/PKU-DAIR/mindware
Arxiv鏈接:https://arxiv.org/pdf/2508.05144
一、問題背景與動機
核心問題:AutoML中的CASH(Combined Algorithm Selection and Hyperparameter Optimization)問題旨在自動化選擇最優(yōu)算法及其超參數(shù)?,F(xiàn)代AutoML系統(tǒng)(如Auto-sklearn, AutoGluon, VolcanoML)普遍采用優(yōu)化后集成(Post-Hoc Ensemble)策略,將搜索過程中產(chǎn)生的多個基模型組合,而非僅依賴單一最優(yōu)模型。
主流AutoML系統(tǒng)(如AutoGluon、LightAutoML、H2O)已廣泛采用stacking作為后驗集成策略。 Stacking集成是一種分層的模型融合策略:它首先訓練一組基模型(base models),然后使用一個融合模型(blender)來聚合這些基模型的預測結(jié)果。我們選擇研究stacking的原因有三點:① 性能卓越:實驗表明stacking效果優(yōu)于bagging、boosting等主流集成方法。② 靈活性高:與依賴固定規(guī)則的集成方式不同,stacking的融合模型可以是任意算法,提供了豐富的設(shè)計空間。③ 通用性強:多數(shù)常見方法(如簡單的加權(quán)平均或單層融合)本質(zhì)上是one-layer stacking的特例。
從現(xiàn)有前沿AutoML系統(tǒng)的Stacking策略中,我們可以總結(jié)出三個缺陷:① 策略固定:現(xiàn)有系統(tǒng)在集成階段普遍采用固定策略,無法適應具體任務(wù)特性。② 基模型選擇低效:缺乏有效的基模型選擇機制,未能平衡模型性能與多樣性。③ 多層堆疊潛力未釋放:雖支持多層堆疊,但層數(shù)受限且缺乏應對過擬合和特征退化的有效機制。
核心動機:提出PSEO(Post-hoc Stacking Ensemble Optimization)框架,首次將后驗堆疊集成構(gòu)建本身視為一個超參數(shù)優(yōu)化問題,通過系統(tǒng)性調(diào)優(yōu)釋放集成學習的全部潛力。
二、集成優(yōu)化流程

圖 1. PSEO算法流程圖
1. 流程概述
PSEO會先收集候選池中所有基模型在驗證集上的預測結(jié)果,然后進入集成優(yōu)化階段,① 貝葉斯優(yōu)化器首先基于已觀測的配置-性能對集合擬合一個代理模型,隨后通過最大化采集函數(shù)EI(x)在集成搜索空間內(nèi)主動探尋最有潛力的下一組超參數(shù)配置。② 依據(jù)配置中指定的集成規(guī)模和多樣性權(quán)重等參數(shù),框架執(zhí)行基模型子集選擇并構(gòu)建對應的堆疊集成。③對集成進行訓練與評估以獲得性能指標,并將新觀測擴充至觀測集中。如此迭代直至搜索預算耗盡,最終返回觀測歷史中表現(xiàn)最優(yōu)的配置。具體實現(xiàn)上,PSEO采用概率隨機森林作為貝葉斯優(yōu)化的代理模型,并以期望改進作為采集函數(shù)來定量估計未探索配置可能帶來的性能增益。
2. 基模型子集選擇
在PSEO框架中,基模型子集選擇作為首要環(huán)節(jié)被形式化為一個兼顧性能與多樣性的組合優(yōu)化問題。傳統(tǒng)做法要么將所有候選模型納入集成,導致計算開銷巨大且可擴展性差;要么僅挑選每類算法中的最優(yōu)個體,卻忽視了多樣性對 ensemble 泛化能力的關(guān)鍵作用。為此,PSEO提出了一種基于二元二次規(guī)劃(BQP)的近似求解策略。
具體而言,方法首先構(gòu)建一個誤差協(xié)方差矩陣 G,其中對角線元素表示各模型在驗證數(shù)據(jù)上的均方誤差,非對角線元素則捕捉成對模型間預測誤差的一致性程度——誤差越不一致,意味著兩者的錯誤模式差異越大,從而蘊含更高的多樣性。為了在個體精度與模型間多樣性之間實現(xiàn)可控權(quán)衡,引入超參數(shù) ω 對協(xié)方差矩陣進行加權(quán)重塑,其中多樣性項權(quán)重為 ω,性能項權(quán)重為 1−ω。最終,選擇 n' 個基模型的子集被建模為最小化二次型 z?Gz 的 BQP 問題,其中二元向量 z 的每個元素指示對應模型是否被選中??紤]到該問題的 NP-hard 特性,PSEO 采用半定規(guī)劃(SDP)松弛技術(shù)進行高效求解。
3. 深度堆疊集成
基模型子集確定后,PSEO構(gòu)建了一個層次化的深度堆疊結(jié)構(gòu)。然而,隨著堆疊層數(shù)加深,結(jié)構(gòu)復雜度會帶來兩個問題:
- 過擬合——指某些訓練損失極低的預測特征在訓練中占據(jù)主導地位,導致后續(xù)模型過度依賴而喪失泛化能力;解決方案:Dropout機制,借鑒神經(jīng)網(wǎng)絡(luò)的思想:對每個來自前一層的預測特征,基于其與訓練標簽的損失比值計算丟棄概率,訓練損失越低的特征越可能被隨機剔除,從而強制當前stacker從多樣化特征中學習。
- 特征退化——當某層stacker在樣本外數(shù)據(jù)上產(chǎn)生低質(zhì)量預測時,錯誤會在層級間逐級累積,造成性能持續(xù)衰減。解決方案:Retain機制,每層stacker的驗證集性能將被與其層同位模型進行比較,若表現(xiàn)更差,則直接沿用前一層輸出,否則保留當前結(jié)果。這種動態(tài)糾錯策略確保了預測特征質(zhì)量在層級間持續(xù)改進而非衰減。
4. 集成優(yōu)化
表 1. 后驗堆疊集成優(yōu)化搜索空間

在上面的基礎(chǔ)上,PSEO將整個集成構(gòu)建過程形式化為一個超參數(shù)優(yōu)化問題。如表2所示,我們有六個決定集成行為的關(guān)鍵超參數(shù),PSEO采用貝葉斯優(yōu)化進行系統(tǒng)性尋優(yōu)。
三、實驗結(jié)果
1. 實驗設(shè)置
PSEO在80個OpenML真實數(shù)據(jù)集(50分類+30回歸)上,與16種方法對比,包括單最優(yōu)模型、3種單步集成學習方法、2種后驗集成選擇方法和9種現(xiàn)有AutoML的固定堆疊策略。
我們對所有數(shù)據(jù)集進行60%/20%/20%訓練/驗證/測試集劃分。對于優(yōu)化后集成的方案,我們首先使用VolcanoML運行3600秒CASH搜索,平均每任務(wù)生成437個基模型,作為所有這類方法的輸入。然后這類方法會再進行3600秒的集成優(yōu)化。而對于單步集成學習的方法,會直接進行7200秒的調(diào)優(yōu)。
2. 基模型選擇有效性驗證

圖 2. 不同基模型選擇方案進行集成的平均測試集排名
我們首先驗證基模型選擇方案的有效性。在集成規(guī)模n'與多樣性權(quán)重ω構(gòu)成的30種固定組合下進行單層堆疊,并基于驗證性能挑選最優(yōu)組合(OPT)作為代表。同時納入AutoML常用策略ALL(全部模型)和BEST(每類最優(yōu))作為基線。
實驗結(jié)論表明:PSEO選擇算法在18/29種配置下分別優(yōu)于ALL/BEST策略,調(diào)優(yōu)后的OPT組合以8.8的平均測試排名顯著超越次優(yōu)基線(12.3)。
3. Dropout與Retain有效性驗證

圖 3. Dropout和Retain的效果
為驗證Dropout與Retain機制的有效性,實驗選取30個基模型(多樣性權(quán)重0.3)與集成選擇(ES)作為融合模型進行測試。如圖3(a)所示,在Dropout評估中,將丟棄率從0遞增至0.4,每次訓練ES五次并平均權(quán)重,結(jié)果顯示主導模型的最大權(quán)重占比隨丟棄率增加持續(xù)下降,且訓練-測試誤差差距同步縮小,證實其對過擬合的抑制作用。如圖3(b)所示,Retain評估則通過計算每層stacker的測試誤差改進率發(fā)現(xiàn):未啟用Retain時,特征質(zhì)量在第二層達峰后迅速退化;啟用后,跨層特征質(zhì)量持續(xù)提升且無明顯衰減。
4. 端到端比較
表 2. 集成算法在80個數(shù)據(jù)集的平均測試集表現(xiàn)排名

本節(jié)在80個真實CASH問題上將PSEO與最先進的基線方法進行比較。表3展示了不同數(shù)據(jù)集上的平均測試排名,在所有方法中,PSEO顯著優(yōu)于其他方法。 第二優(yōu)的基線排名為6.19,而PSEO的排名為2.96。

圖 4. 各算法歸一化提升
歸一化提升。 為進一步研究我們的結(jié)果,我們使用歸一化改進的箱線圖在圖4中可視化所有方法在80個數(shù)據(jù)集上的相對性能分布。PSEO的相對性能分布優(yōu)于所有基線。
5. 與AutoGluon比較
表 3. AutoGluon搜索空間上平均測試集表現(xiàn)排名

AutoGluon代表了具有多層堆疊的最先進AutoML系統(tǒng)。為更公平比較,我們復現(xiàn)了其搜索空間(包含108個帶優(yōu)先級的零樣本模型)。我們使用AutoGluon訓練基模型最長1小時,然后比較其與PSEO的集成算法。表4展示了在80個數(shù)據(jù)集上的平均測試排名。我們可以發(fā)現(xiàn)PSEO最優(yōu),平均排名為1.36。 綜上所述,PSEO在兩個系統(tǒng)(VolcanoML和AutoGluon)產(chǎn)生的候選池上取得持續(xù)成功,凸顯了其魯棒性和廣泛適用性。
四、總結(jié)
在本文中,我們提出了 PSEO,一種高效優(yōu)化框架,用于調(diào)整后處理堆疊集成。在 PSEO 中,我們提出了三個組件:一個基礎(chǔ)模型子集選擇算法,權(quán)衡單個模型性能與模型間的多樣性;一個具有 Dropout 和 Retain 機制的深度堆疊集成;最后,一個貝葉斯優(yōu)化器,用于尋找最佳集成策略。我們在 80 個公共數(shù)據(jù)集上評估了 PSEO,并證明了其優(yōu)于競爭基線。
實驗室簡介
北京大學數(shù)據(jù)與智能實驗室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實驗室)由北京大學計算機學院崔斌教授領(lǐng)導,長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項成果,已在國際頂級學術(shù)會議和期刊發(fā)表學術(shù)論文200余篇,發(fā)布多個開源項目。課題組同學曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學者、蘋果獎學金、谷歌獎學金等榮譽。PKU-DAIR實驗室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項目合作和前沿探索,解決實際問題,進行科研成果的轉(zhuǎn)化落地。

評論 0