国产亚洲AV自拍|av中文字幕一区|资源在线观看一区二区|亚洲影视久久亚洲特级性交|一级做一级a做片爱免费观看|欧美另类亚洲色婷婷精品无码|亚洲青青草免费一区|青青草免费成人网|91久久国内视频|五月天丁香久久

AAAI 2025 | 多到一:通過對比學(xué)習(xí)降低情緒識別中的多模態(tài)依賴

該論文發(fā)表于The Thirty-Ninth AAAI Conference on Artificial Intelligence (AAAI-25,CCF-A),題目為《Multi-to-Single: Reducing Multimodal Dependency in Emotion Recognition Through Contrastive Learning》。

上海交通大學(xué)的劉彥楷為此文的第一作者,上海交通大學(xué)的鄭偉龍副教授為此文的通訊作者。

論文鏈接:

https://doi.org/10.1609/aaai.v39i2.32134

論文概要

該研究提出了一種名為“Multi-to-Single”(M2S)的情緒識別模型,旨在解決多模態(tài)情緒識別在實際應(yīng)用中難以同時獲取所有模態(tài)數(shù)據(jù)的挑戰(zhàn)。研究的核心思想是通過對比學(xué)習(xí),在預(yù)訓(xùn)練階段最小化模態(tài)內(nèi)情緒相關(guān)特征與情緒無關(guān)特征的互信息,最大化模態(tài)間情緒相關(guān)特征的互信息,并使用單模態(tài)數(shù)據(jù)進(jìn)行微調(diào),從而在測試階段僅使用單一模態(tài)數(shù)據(jù)即可達(dá)到甚至超越傳統(tǒng)多模態(tài)方法的性能,以此降低對多模態(tài)數(shù)據(jù)的依賴性。為實現(xiàn)此目標(biāo),該模型引入了兩個創(chuàng)新模塊:一個空間和時間稀疏(STS)注意力機制,用于增強編碼器對EEG等信號的特征提取能力 ;以及一個新穎的多對多對比預(yù)測編碼(M2M CPC)模塊,用于學(xué)習(xí)和融合跨模態(tài)特征。在五個公開數(shù)據(jù)集上的大量實驗證明,該模型在跨模態(tài)任務(wù)中取得了當(dāng)前最優(yōu)(state-of-the-art)的性能。為了應(yīng)對這一挑戰(zhàn),研究人員開始探索跨模態(tài)學(xué)習(xí)方法,其目標(biāo)是在訓(xùn)練和測試階段使用不同的模態(tài)組合。盡管在計算機視覺等領(lǐng)域已有較多研究,但在情感腦機接口領(lǐng)域,相關(guān)工作仍處于早期階段,且大多僅關(guān)注從眼動信號生成其他模態(tài)特征,未能實現(xiàn)任意模態(tài)間的轉(zhuǎn)換和充分利用多模態(tài)特征。因此,本研究旨在開發(fā)一個能夠用單模態(tài)數(shù)據(jù)實現(xiàn)多模態(tài)效果的模型,以解決上述局限性。

研究背景

多模態(tài)情緒識別是情感腦機接口領(lǐng)域的一個關(guān)鍵研究方向。通過融合來自EEG、EYE、ECG等多種生理信號的特征,多模態(tài)模型的性能顯著優(yōu)于單模態(tài)模型。然而,在實際應(yīng)用場景中,同時獲取高質(zhì)量的多模態(tài)數(shù)據(jù)存在顯著難。EEG信號對環(huán)境干擾和被試者的微小動作極為敏感,容易導(dǎo)致信號質(zhì)量下降甚至數(shù)據(jù)不可用。對于EYE信號,雖然采集過程相對便捷,但對距離敏感,要求眼動儀與被試者保持特定距離,且被試者需持續(xù)注視屏幕,這在長時間采集中難以維持。ECG和PPS信號,也面臨著電極采集帶來的相似問題。

方法

圖1 多到一框架的總體概覽。(a) 預(yù)訓(xùn)練階段。(b) 模型微調(diào)階段。(c) 時空稀疏注意力機制。

多到一情緒識別模型

模型的整體架構(gòu)如圖1(a)所示,包含預(yù)訓(xùn)練和微調(diào)兩個階段。在預(yù)訓(xùn)練階段,模型使用成對但無標(biāo)簽的多模態(tài)數(shù)據(jù)。針對每種模態(tài),模型設(shè)計了兩個編碼器:一個基于Transformer的情感相關(guān)(Emotion-Related, ER)編碼器,用于提取情緒特征;一個基于MLP的情感無關(guān)(Emotion-Independent, EI)編碼器,用于提取與情緒無關(guān)的特征。為了使兩組特征盡可能獨立,研究采用對比對數(shù)比上界(CLUB)方法來最小化ER和EI編碼器輸出特征之間的互信息 。CLUB損失函數(shù)定義為:

其中,zx和z’x分別是ER和EI的輸出。q(z’x|zx)是參數(shù)θ近似p(z’x|zx)的變分分布。

為了驗證編碼器是否提取了數(shù)據(jù)的有效特征,我們?yōu)槊糠N模態(tài)添加了一個解碼器,并計算了每種模態(tài)的重構(gòu)損失。模態(tài)X的重構(gòu)損失定義為:

其中,DX是模態(tài)X的解碼器。

為了學(xué)習(xí)和融合不同模態(tài)的特征,我們應(yīng)用了兩種對比學(xué)習(xí)的方法:InfoNCE損失和創(chuàng)新的M2M CPC模塊。首先介紹InfoNCE損失的計算,M2M CPC會在下面進(jìn)行介紹。對于任意嵌入zx,通過在時間維度進(jìn)行平均池化和一層線性層,將嵌入投影到一個新的嵌入空間中,得到模態(tài)X的最終嵌入,其中S表示樣本數(shù)量,Df表示最終嵌入維度。因此可以得到S個正樣本對,S^2-S個負(fù)樣本對。根據(jù)InfoNCE思想,可以將其視為一個S類別的分類任務(wù)。以EEG和EYE為例,可以定義真實標(biāo)簽GT為 [0, 1, …, S-1],然后計算對比損失Lcontra:

空間和時間稀疏注意力機制(STS)

像EEG、ECG和PPC等信號,它們都是通過位于人體固定位置的電極進(jìn)行長時間采集的。因此,這些信號在空間和時間兩個維度上都有很強的內(nèi)部特征。為了充分利用信號的時空特征,我們設(shè)計了STS注意力機制。其核心思想是在計算注意力時,不僅考慮當(dāng)前時間點的信息,還融合了前一時間點和初始時間點的數(shù)據(jù),以捕捉時間序列的基本信息和動態(tài)變化。Query、Key、Value的計算方式如下:

其中,⊕表示相加和平均操作。注意力計算如下:

多到多對比預(yù)測編碼(M2M CPC)

圖2 M2M CPC模塊結(jié)構(gòu),黃色和綠色分別表示不同模態(tài)。

M2M CPC是本研究提出的一個新穎模塊,其改進(jìn)了傳統(tǒng)的CPC。傳統(tǒng)CPC通過自回歸模型預(yù)測序列的未來信息??紤]到人的情緒變化通常會引發(fā)多種生理信號的同步改變,M2M CPC模塊利用多種模態(tài)的當(dāng)前嵌入向量來共同預(yù)測每一種模態(tài)的未來向量。以EEG和EYE為例,將它們輸入情緒相關(guān)編碼器后,可以得到嵌入向量:

其中,T表示時間窗口長度,S表示數(shù)據(jù)樣本數(shù)量,D表示嵌入維度。作者使用一個雙層LSTM作為每個模態(tài)的自回歸模型。定義M為觀測序列長度,N為預(yù)測步長,可以得到:

其中,D’是LSTM的隱藏層維度,且M+N≤T。將Zeeg和Zeye進(jìn)行拼接,以預(yù)測每個模態(tài)未來的N個時間步。使用InfoNCE損失函數(shù)來優(yōu)化該模塊,包括四部分損失:同模態(tài)下預(yù)測向量與真實向量的損失,異模態(tài)下預(yù)測向量與真實向量的損失。定義ZA和ZB為包含負(fù)樣本和一個正樣本的集合,A,B∈{eeg, eye}。那么:

其中,[·]表示拼接操作。因此完整的M2M CPC損失定義為:

預(yù)訓(xùn)練和微調(diào)

預(yù)訓(xùn)練的損失為上述所有損失的加和:

在微調(diào)階段,模型僅需輸入單一模態(tài)數(shù)據(jù)。此時,對應(yīng)模態(tài)的預(yù)訓(xùn)練ER編碼器被凍結(jié),僅需優(yōu)化一個新添加的分類器。對于跨模態(tài)任務(wù),模型使用一種模態(tài)進(jìn)行微調(diào),再用另一種模態(tài)進(jìn)行測試。

實驗結(jié)果

該研究在五個公開多模態(tài)情緒數(shù)據(jù)集上(SEED、SEED-IV、SEED-V、DEAP、DREAMER)進(jìn)行了廣泛實驗。研究選取了balanced accuracies和kappa scores作為SEED系列數(shù)據(jù)集的評估指標(biāo),選取了balanced accuracies和F1 scores作為DEAP和DREAMER兩個數(shù)據(jù)集的評估指標(biāo)。

與跨模態(tài)方法比較

實驗結(jié)果如表1和表2所示,M2S模型在所有跨模態(tài)和單模態(tài)任務(wù)設(shè)置中均顯著優(yōu)于所有基線方法。在跨模態(tài)任務(wù)中,M2S的性能比次優(yōu)方法普遍高出5個百分點以上,最大提升超過10個百分點(p < 0.05)。

表1 在 SEED、SEED-IV 和 SEED-V 數(shù)據(jù)集上,跨模態(tài)和單模態(tài)下的被試內(nèi)(subject-dependent)準(zhǔn)確率(%)和 Kappa 分?jǐn)?shù)(%)。其中,“EEG → EYE” 表示使用 EEG 數(shù)據(jù)進(jìn)行微調(diào),并使用 EYE數(shù)據(jù)進(jìn)行測試。

表2 在DEAP、FREAMER數(shù)據(jù)集上,跨模態(tài)和單模態(tài)下的被試內(nèi)準(zhǔn)確率(%)和F1 分?jǐn)?shù)(%)。

與多模態(tài)方法比較

實驗結(jié)果如表3所示,僅使用單模態(tài)(EEG)進(jìn)行微調(diào)和測試,M2S模型的性能也優(yōu)于大多數(shù)監(jiān)督學(xué)習(xí)下的多模態(tài)方法。同時,該研究還進(jìn)行了對ER編碼器的監(jiān)督訓(xùn)練實驗,該實驗僅使用EEG單模態(tài)數(shù)據(jù)。其準(zhǔn)確率略低于使用預(yù)訓(xùn)練模型的結(jié)果,但仍能達(dá)到多模態(tài)方法的性能。這些實驗結(jié)果表明,預(yù)訓(xùn)練過程發(fā)揮了作用,并且對比學(xué)習(xí)模塊的引入也實現(xiàn)了不同模態(tài)特征的有效融合。

表3 多模態(tài)方法與 M2S 方法在 SEED、SEED-IV 和 SEED-V 數(shù)據(jù)集上的平衡準(zhǔn)確率(%)和 Kappa 分?jǐn)?shù)(%)比較。其中,(S) 表示該方法使用了相同的編碼器進(jìn)行單模態(tài)監(jiān)督學(xué)習(xí)。

消融實驗

損失函數(shù)

實驗結(jié)果如表1所示,移除預(yù)訓(xùn)練中的任何一個損失函數(shù)(CLUB、Recon、Contra、CPC)都會導(dǎo)致模型性能不同程度的下降 。其中,移除對比學(xué)習(xí)相關(guān)的損失對跨模態(tài)任務(wù)的影響最為嚴(yán)重

STS注意力機制

實驗結(jié)果如圖3所示,與不使用注意力或使用標(biāo)準(zhǔn)多頭注意力機制相比,采用STS注意力機制顯著提升了模型在EEG單模態(tài)任務(wù)上的性能。

圖3 基于 EEG單模態(tài)微調(diào)的多種注意力機制在 SEED、SEED-IV 和 SEED-V 數(shù)據(jù)集上的性能結(jié)果。

M2M CPC模塊

如圖4所示,將M2M CPC應(yīng)用于其他現(xiàn)有模型,也能提升它們的性能,證明了該模塊的通用性和有效性。如圖 5 所示,在相同的超參數(shù)調(diào)整范圍內(nèi),當(dāng)時間窗口長度固定時,模型的準(zhǔn)確率隨著預(yù)測步數(shù)的增加,通常表現(xiàn)出先上升后下降的趨勢。而當(dāng)預(yù)測步長固定時,更長的時間窗口有助于模型獲得更好的性能。

圖4 將 M2M CPC 模塊添加到 CLIP 和 ECO-FET 模型后,它們在 SEED、SEED-IV 和 SEED-V 數(shù)據(jù)集上的跨模態(tài)任務(wù) (EEG → EYE) 準(zhǔn)確率。

圖5 SEED 數(shù)據(jù)集上跨模態(tài)任務(wù) (EEG → EYE) 的熱力圖。

結(jié)論

本研究成功提出并驗證了一種新穎的跨模態(tài)學(xué)習(xí)方法M2S,該方法能夠有效降低情緒識別任務(wù)對多模態(tài)數(shù)據(jù)的依賴,僅用單一模態(tài)便可達(dá)到甚至超越多模態(tài)的性能。研究引入的STS注意力機制和M2M CPC模塊被證明是提升模型性能的關(guān)鍵。特別是M2M CPC模塊,它具有良好的通用性,可以被整合到其他模型中以學(xué)習(xí)和融合不同模態(tài)的特征,從而幫助現(xiàn)有方法取得更好的表現(xiàn)。該研究為解決情感腦機接口在真實場景下的數(shù)據(jù)采集難題提供了有效的解決方案。

撰稿人:黃華星

審稿人:黃海云


登錄用戶可以查看和發(fā)表評論, 請前往  登錄 或  注冊。
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: