AAAI人工智能會議（AAAI Conference on Artificial Intelligence）由人工智能促進(jìn)會（AAAI）主辦，是人工智能領(lǐng)域歷史最悠久的國際學(xué)術(shù)會議之一。AAAI2026將于2026年1月20日-27日在新加坡舉辦。PKU-DAIR實(shí)驗室的論文《 PSEO: Optimizing Post-hoc Stacking Ensemble Through Hyperparameter Tuning》被AAAI 2026 錄用為Oral。

PSEO: Optimizing Post-hoc Stacking Ensemble Through Hyperparameter Tuning

作者：Beicheng Xu, Wei Liu, Keyao Ding, Yupeng Lu, Bin Cui

Github鏈接：https://github.com/PKU-DAIR/mindware
Arxiv鏈接：https://arxiv.org/pdf/2508.05144

一、問題背景與動機(jī)

核心問題：AutoML中的CASH（Combined Algorithm Selection and Hyperparameter Optimization）問題旨在自動化選擇最優(yōu)算法及其超參數(shù)。現(xiàn)代AutoML系統(tǒng)（如Auto-sklearn, AutoGluon, VolcanoML）普遍采用優(yōu)化后集成（Post-Hoc Ensemble）策略，將搜索過程中產(chǎn)生的多個基模型組合，而非僅依賴單一最優(yōu)模型。

主流AutoML系統(tǒng)（如AutoGluon、LightAutoML、H2O）已廣泛采用stacking作為后驗集成策略。 Stacking集成是一種分層的模型融合策略：它首先訓(xùn)練一組基模型（base models），然后使用一個融合模型（blender）來聚合這些基模型的預(yù)測結(jié)果。我們選擇研究stacking的原因有三點(diǎn)：① 性能卓越：實(shí)驗表明stacking效果優(yōu)于bagging、boosting等主流集成方法。② 靈活性高：與依賴固定規(guī)則的集成方式不同，stacking的融合模型可以是任意算法，提供了豐富的設(shè)計空間。③ 通用性強(qiáng)：多數(shù)常見方法（如簡單的加權(quán)平均或單層融合）本質(zhì)上是one-layer stacking的特例。

從現(xiàn)有前沿AutoML系統(tǒng)的Stacking策略中，我們可以總結(jié)出三個缺陷：① 策略固定：現(xiàn)有系統(tǒng)在集成階段普遍采用固定策略，無法適應(yīng)具體任務(wù)特性。② 基模型選擇低效：缺乏有效的基模型選擇機(jī)制，未能平衡模型性能與多樣性。③ 多層堆疊潛力未釋放：雖支持多層堆疊，但層數(shù)受限且缺乏應(yīng)對過擬合和特征退化的有效機(jī)制。

核心動機(jī)：提出PSEO（Post-hoc Stacking Ensemble Optimization）框架，首次將后驗堆疊集成構(gòu)建本身視為一個超參數(shù)優(yōu)化問題，通過系統(tǒng)性調(diào)優(yōu)釋放集成學(xué)習(xí)的全部潛力。

二、集成優(yōu)化流程

圖 1. PSEO算法流程圖

1. 流程概述

PSEO會先收集候選池中所有基模型在驗證集上的預(yù)測結(jié)果，然后進(jìn)入集成優(yōu)化階段，① 貝葉斯優(yōu)化器首先基于已觀測的配置-性能對集合擬合一個代理模型，隨后通過最大化采集函數(shù)EI(x)在集成搜索空間內(nèi)主動探尋最有潛力的下一組超參數(shù)配置。② 依據(jù)配置中指定的集成規(guī)模和多樣性權(quán)重等參數(shù)，框架執(zhí)行基模型子集選擇并構(gòu)建對應(yīng)的堆疊集成。③對集成進(jìn)行訓(xùn)練與評估以獲得性能指標(biāo)，并將新觀測擴(kuò)充至觀測集中。如此迭代直至搜索預(yù)算耗盡，最終返回觀測歷史中表現(xiàn)最優(yōu)的配置。具體實(shí)現(xiàn)上，PSEO采用概率隨機(jī)森林作為貝葉斯優(yōu)化的代理模型，并以期望改進(jìn)作為采集函數(shù)來定量估計未探索配置可能帶來的性能增益。

2. 基模型子集選擇

在PSEO框架中，基模型子集選擇作為首要環(huán)節(jié)被形式化為一個兼顧性能與多樣性的組合優(yōu)化問題。傳統(tǒng)做法要么將所有候選模型納入集成，導(dǎo)致計算開銷巨大且可擴(kuò)展性差；要么僅挑選每類算法中的最優(yōu)個體，卻忽視了多樣性對 ensemble 泛化能力的關(guān)鍵作用。為此，PSEO提出了一種基于二元二次規(guī)劃（BQP）的近似求解策略。

具體而言，方法首先構(gòu)建一個誤差協(xié)方差矩陣 G，其中對角線元素表示各模型在驗證數(shù)據(jù)上的均方誤差，非對角線元素則捕捉成對模型間預(yù)測誤差的一致性程度——誤差越不一致，意味著兩者的錯誤模式差異越大，從而蘊(yùn)含更高的多樣性。為了在個體精度與模型間多樣性之間實(shí)現(xiàn)可控權(quán)衡，引入超參數(shù) ω 對協(xié)方差矩陣進(jìn)行加權(quán)重塑，其中多樣性項權(quán)重為 ω，性能項權(quán)重為 1−ω。最終，選擇 n' 個基模型的子集被建模為最小化二次型 z?Gz 的 BQP 問題，其中二元向量 z 的每個元素指示對應(yīng)模型是否被選中。考慮到該問題的 NP-hard 特性，PSEO 采用半定規(guī)劃（SDP）松弛技術(shù)進(jìn)行高效求解。

3. 深度堆疊集成

基模型子集確定后，PSEO構(gòu)建了一個層次化的深度堆疊結(jié)構(gòu)。然而，隨著堆疊層數(shù)加深，結(jié)構(gòu)復(fù)雜度會帶來兩個問題：

過擬合——指某些訓(xùn)練損失極低的預(yù)測特征在訓(xùn)練中占據(jù)主導(dǎo)地位，導(dǎo)致后續(xù)模型過度依賴而喪失泛化能力；解決方案：Dropout機(jī)制，借鑒神經(jīng)網(wǎng)絡(luò)的思想：對每個來自前一層的預(yù)測特征，基于其與訓(xùn)練標(biāo)簽的損失比值計算丟棄概率，訓(xùn)練損失越低的特征越可能被隨機(jī)剔除，從而強(qiáng)制當(dāng)前stacker從多樣化特征中學(xué)習(xí)。
特征退化——當(dāng)某層stacker在樣本外數(shù)據(jù)上產(chǎn)生低質(zhì)量預(yù)測時，錯誤會在層級間逐級累積，造成性能持續(xù)衰減。解決方案：Retain機(jī)制，每層stacker的驗證集性能將被與其層同位模型進(jìn)行比較，若表現(xiàn)更差，則直接沿用前一層輸出，否則保留當(dāng)前結(jié)果。這種動態(tài)糾錯策略確保了預(yù)測特征質(zhì)量在層級間持續(xù)改進(jìn)而非衰減。

4. 集成優(yōu)化

表 1. 后驗堆疊集成優(yōu)化搜索空間

在上面的基礎(chǔ)上，PSEO將整個集成構(gòu)建過程形式化為一個超參數(shù)優(yōu)化問題。如表2所示，我們有六個決定集成行為的關(guān)鍵超參數(shù)，PSEO采用貝葉斯優(yōu)化進(jìn)行系統(tǒng)性尋優(yōu)。

三、實(shí)驗結(jié)果

1. 實(shí)驗設(shè)置

PSEO在80個OpenML真實(shí)數(shù)據(jù)集（50分類+30回歸）上，與16種方法對比，包括單最優(yōu)模型、3種單步集成學(xué)習(xí)方法、2種后驗集成選擇方法和9種現(xiàn)有AutoML的固定堆疊策略。

我們對所有數(shù)據(jù)集進(jìn)行60%/20%/20%訓(xùn)練/驗證/測試集劃分。對于優(yōu)化后集成的方案，我們首先使用VolcanoML運(yùn)行3600秒CASH搜索，平均每任務(wù)生成437個基模型，作為所有這類方法的輸入。然后這類方法會再進(jìn)行3600秒的集成優(yōu)化。而對于單步集成學(xué)習(xí)的方法，會直接進(jìn)行7200秒的調(diào)優(yōu)。

2. 基模型選擇有效性驗證

圖 2. 不同基模型選擇方案進(jìn)行集成的平均測試集排名

我們首先驗證基模型選擇方案的有效性。在集成規(guī)模n'與多樣性權(quán)重ω構(gòu)成的30種固定組合下進(jìn)行單層堆疊，并基于驗證性能挑選最優(yōu)組合（OPT）作為代表。同時納入AutoML常用策略ALL（全部模型）和BEST（每類最優(yōu)）作為基線。

實(shí)驗結(jié)論表明：PSEO選擇算法在18/29種配置下分別優(yōu)于ALL/BEST策略，調(diào)優(yōu)后的OPT組合以8.8的平均測試排名顯著超越次優(yōu)基線（12.3）。

3. Dropout與Retain有效性驗證

圖 3. Dropout和Retain的效果

為驗證Dropout與Retain機(jī)制的有效性，實(shí)驗選取30個基模型（多樣性權(quán)重0.3）與集成選擇（ES）作為融合模型進(jìn)行測試。如圖3(a)所示，在Dropout評估中，將丟棄率從0遞增至0.4，每次訓(xùn)練ES五次并平均權(quán)重，結(jié)果顯示主導(dǎo)模型的最大權(quán)重占比隨丟棄率增加持續(xù)下降，且訓(xùn)練-測試誤差差距同步縮小，證實(shí)其對過擬合的抑制作用。如圖3(b)所示，Retain評估則通過計算每層stacker的測試誤差改進(jìn)率發(fā)現(xiàn)：未啟用Retain時，特征質(zhì)量在第二層達(dá)峰后迅速退化；啟用后，跨層特征質(zhì)量持續(xù)提升且無明顯衰減。

4. 端到端比較

表 2. 集成算法在80個數(shù)據(jù)集的平均測試集表現(xiàn)排名

本節(jié)在80個真實(shí)CASH問題上將PSEO與最先進(jìn)的基線方法進(jìn)行比較。表3展示了不同數(shù)據(jù)集上的平均測試排名，在所有方法中，PSEO顯著優(yōu)于其他方法。第二優(yōu)的基線排名為6.19，而PSEO的排名為2.96。

圖 4. 各算法歸一化提升

歸一化提升。為進(jìn)一步研究我們的結(jié)果，我們使用歸一化改進(jìn)的箱線圖在圖4中可視化所有方法在80個數(shù)據(jù)集上的相對性能分布。PSEO的相對性能分布優(yōu)于所有基線。

5. 與AutoGluon比較

表 3. AutoGluon搜索空間上平均測試集表現(xiàn)排名

AutoGluon代表了具有多層堆疊的最先進(jìn)AutoML系統(tǒng)。為更公平比較，我們復(fù)現(xiàn)了其搜索空間（包含108個帶優(yōu)先級的零樣本模型）。我們使用AutoGluon訓(xùn)練基模型最長1小時，然后比較其與PSEO的集成算法。表4展示了在80個數(shù)據(jù)集上的平均測試排名。我們可以發(fā)現(xiàn)PSEO最優(yōu)，平均排名為1.36。綜上所述，PSEO在兩個系統(tǒng)（VolcanoML和AutoGluon）產(chǎn)生的候選池上取得持續(xù)成功，凸顯了其魯棒性和廣泛適用性。

四、總結(jié)

在本文中，我們提出了 PSEO，一種高效優(yōu)化框架，用于調(diào)整后處理堆疊集成。在 PSEO 中，我們提出了三個組件：一個基礎(chǔ)模型子集選擇算法，權(quán)衡單個模型性能與模型間的多樣性；一個具有 Dropout 和 Retain 機(jī)制的深度堆疊集成；最后，一個貝葉斯優(yōu)化器，用于尋找最佳集成策略。我們在 80 個公共數(shù)據(jù)集上評估了 PSEO，并證明了其優(yōu)于競爭基線。

實(shí)驗室簡介

北京大學(xué)數(shù)據(jù)與智能實(shí)驗室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR實(shí)驗室）由北京大學(xué)計算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo)，長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究，在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項成果，已在國際頂級學(xué)術(shù)會議和期刊發(fā)表學(xué)術(shù)論文200余篇，發(fā)布多個開源項目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎學(xué)金、谷歌獎學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗室持續(xù)與工業(yè)界展開卓有成效的合作，與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項目合作和前沿探索，解決實(shí)際問題，進(jìn)行科研成果的轉(zhuǎn)化落地。

国产亚洲AV自拍|av中文字幕一区|资源在线观看一区二区|亚洲影视久久亚洲特级性交|一级做一级a做片爱免费观看|欧美另类亚洲色婷婷精品无码|亚洲青青草免费一区|青青草免费成人网|91久久国内视频|五月天丁香久久

AAAI 2026 | PSEO: 基于超參數(shù)調(diào)優(yōu)的后驗堆疊集成優(yōu)化框架

一、問題背景與動機(jī)

二、集成優(yōu)化流程

三、實(shí)驗結(jié)果

四、總結(jié)

實(shí)驗室簡介

評論 0

近期熱門新聞

下一篇

国产亚洲AV自拍|av中文字幕一区|资源在线观看一区二区|亚洲影视久久亚洲特级性交|一级做一级a做片爱免费观看|欧美另类亚洲色婷婷精品无码|亚洲青青草免费一区|青青草免费成人网|91久久国内视频|五月天丁香久久

AAAI 2026 | PSEO: 基于超參數(shù)調(diào)優(yōu)的后驗堆疊集成優(yōu)化框架

一、問題背景與動機(jī)

二、集成優(yōu)化流程

三、實(shí)驗結(jié)果

四、總結(jié)

實(shí)驗室簡介

評論 0

近期熱門新聞

下一篇

一、問題背景與動機(jī)

三、實(shí)驗結(jié)果

四、總結(jié)