近日,華南師范大學人工智能學院黃俊端副研究員聯(lián)合華南理工大學、瑞士Idiap 研究所團隊,在信息安全領域頂刊IEEE Transactions on Information Forensics and Security(CCF-A,JCR Q1,中科院一區(qū) Top,IF: 8)發(fā)表題為《Study of Full-View Finger Vein Biometrics on Redundancy Analysis and Dynamic Feature Extraction》的研究論文。論文第一作者為黃俊端副研究員,通訊作者為華南理工大學康文雄教授,主要合作方包括Idiap研究所生物特征識別安全與隱私組/生物特征識別與測試中心的Sushil Bhattacharjee副研究員和Sébastien Marcel教授。
論文:https://ieeexplore.ieee.org/document/11236466
開源代碼:https://github.com/SCUT-BIP-Lab/FDT
研究背景
在身份認證安全應用中,生物識別技術正成為核心支撐,其中手指靜脈(FV)生物識別因具備活體檢測能力、抗偽造難度高、用戶友好性強三大優(yōu)勢,近年來關注度持續(xù)攀升。多視圖手指靜脈認證作為該領域的重要發(fā)展方向,相比單視圖技術展現(xiàn)出顯著優(yōu)勢:一是能捕捉更豐富的靜脈信息,有效提升識別準確率;二是大幅增加偽造攻擊的難度,安全性更高;三是從本質上解決了應用過程中的姿態(tài)變化問題,讓識別系統(tǒng)更穩(wěn)健。以鏡面式全視圖手指靜脈(MFFV)成像設備為例,其通過多相機與鏡面組合,可實現(xiàn)手指全表面靜脈圖像采集,為高精度識別奠定基礎。
當前多視圖手指靜脈研究主要分為基于模態(tài)(偏多視圖、全視圖、三維)和基于成像技術(多相機、移動相機)兩類,所有多視圖系統(tǒng)都需同時處理多張靜脈圖像,這導致了兩大核心挑戰(zhàn):一方面,多圖像特征提取過程會顯著增加計算復雜度,增加系統(tǒng)運行成本;另一方面,手指靜脈不同視圖、不同區(qū)域的靜脈信息差異極大,部分區(qū)域的信息價值極低,若對所有圖像區(qū)域采用相同處理方式,會造成部分視圖或區(qū)域的性能成本比偏低。
本文認為這兩大挑戰(zhàn)本質上均源于多視圖手指靜脈圖像中固有的信息冗余:計算復雜度增加是冗余問題的宏觀體現(xiàn),而性能成本比低是冗余問題的微觀表現(xiàn)。這一冗余問題使得現(xiàn)有手指靜脈研究多局限于單視圖范式,成為制約多視圖手指靜脈技術發(fā)展與實用化的主要障礙,亟需針對性的創(chuàng)新解決方案。
論文貢獻與研究方法
基于上述內容,本文聚焦全視圖指靜脈生物識別的冗余問題,提出首個指靜脈冗余分析方法FVRA(FV redundancy analysis),用于量化圖像中的信息冗余度?;贔VRA冗余分析的結果,本文提出了一個新型特征提取模型FDT(FV dynamic Transformer),該模型在不同處理階段同時關注局部信息和全局信息,有效提升去噪性能。
1. 指靜脈冗余分析FVRA (FV redundancy analysis)
針對目前全視圖指靜脈識別中信息冗余無量化標準、無系統(tǒng)分析方法的空白,文章提出首個指靜脈冗余分析方法,為后續(xù)模型設計提供量化依據(jù)。
1) 由于指靜脈圖像存在明顯區(qū)域信息差異,該方法將單張320×240像素的靜脈圖像分割為100個32×24像素的非重疊圖像塊(分量),對于覆蓋手指全表面的全視圖場景則整合3個視角的所有補丁塊形成300個分量,以此完整保留靜脈圖像空間紋理特征并精準定位不同區(qū)域信息價值。
2) FVRA以“保留99%核心身份信息”為關鍵指標,通過主成分分析(PCA)計算維持99%信息所需的主成分(PC)和數(shù)量(P99)與總主成分數(shù)量(Pt)的比例,通過公式(1)得到冗余率R。
(1)
實驗結果顯示,單視圖靜脈圖像冗余率達 70%-80%,而全視圖場景下冗余率提高至 83%-87%。該結果清晰展示了全視圖技術中冗余問題更突出的特性,為模型優(yōu)化指明核心方向。
2. 全視圖指靜脈動態(tài)特征提取FDT(FV dynamic Transformer)
基于冗余分析的結果,文章提出了包含單視圖處理(SV)和全視圖耦合(FVC)兩階段的動態(tài)特征提取模型FDT。該模型在特征提取過程中逐步剔除對身份識別貢獻小的標記,保留關鍵特征,以減小指靜脈圖像冗余率。同時模型為全視圖FV圖像集提供端到端處理解決方案,無需額外預處理和特征融合步驟,大大簡化了識別流程。FDT模型由五大核心模塊組成:
3. 多層感知機補丁嵌入(MLP-P)模塊
MLP-P模塊是FDT模型的基礎預處理單元,核心功能是將輸入的全視圖指靜脈圖像轉換為可用于后續(xù)特征處理的標記序列。MLP-P通過特定操作序列實現(xiàn)標記轉換:首先是一個核尺寸和步長與圖像塊尺寸相匹配的卷積層,接著是Leaky ReLU激活層,最后是一個1×1卷積層。這種設計彌補了傳統(tǒng)線性映射無法充分提取補丁內部細節(jié)的缺陷,為后續(xù)操作提供高質量特征基礎。
4. 位置嵌入生成器(PEG)模塊
該模塊采用條件位置嵌入機制,解決FDT模型中標記序列動態(tài)變化導致的位置信息丟失問題。模塊基于位置嵌入生成器(PEG)的工作原理,其生成機制不僅考慮標記本身,還結合其鄰近標記的信息。由于模型在特征提取過程中會持續(xù)剔除冗余標記,導致標記的位置不斷動態(tài)調整,PEG模塊在每個動態(tài)Transformer單元中會重新計算嵌入位置,確保空間信息的實時更新。該模塊僅對普通標記進行位置編碼,類別標記與聚合標記因不涉及局部空間交互而無需處理,避免不必要的計算開銷。
5. 去冗余多頭自注意力(DeRedun-MHSA)模塊
該模塊是FDT模型實現(xiàn)冗余抑制的核心模塊,通過類別標記引導的動態(tài)標記篩選機制,剔除對身份判別貢獻微弱的冗余信息。其工作流程分為五步:先對輸入標記進行多頭自注意力(MHSA)處理與線性映射,生成中間標記;再以類別標記與普通標記的注意力值作為重要性評分,按分值降序排序;隨后篩選出前K個標記為正常標記(XNom),剩余低分值標記為冗余標記(XR);接著利用類別標記與冗余標記的注意力值作為聚合權重Watt,將所有冗余標記聚合為單個聚合標記,保留潛在有用信息;最后將正常標記、聚合標記與類別標記組合為下一層輸入序列。
6. 局部增強前饋網絡(LFFN)模塊
LFFN 模塊的核心目標是進一步優(yōu)化MHSA階段提取的特征。LFFN將每個標記與其鄰近標記進行聯(lián)合處理,顯著增強了相鄰標記間的局部交互作用,能夠從靜脈血管圖像中提取身份識別所需的上下文信息。模塊僅對正常標記進行局部增強處理,類別標記和聚合標記均直接傳遞至下一階段,避免了無關處理對核心特征的干擾。
7. 批量注意力(BatchAtten)模塊



BatchAtten模塊是訓練階段的輔助單元,核心功能是通過注意力融合促進類別標記間的交互。該模塊接收訓練批次中的類別標記作為輸入,通過注意力融合實現(xiàn)不同樣本類別標記間的信息交互,隨后生成與原始數(shù)量相等的新類別標記,與原始類標記拼接形成雙倍數(shù)量的類別標記輸入至分類器。該模塊僅在訓練階段生效,且僅采用單個 MHSA 層,額外計算負載可忽略不計,不會影響推理階段的運行效率,卻能顯著提升模型的泛化性能與身份識別準確率。
實驗設計
本研究在兩個公開全視角指靜脈數(shù)據(jù)集(MFFV-N 和 LEMB-3DFB)上對模型進行了系統(tǒng)評估,并與多種基線方法進行了對比,具體實驗設計如下:
1. 實驗數(shù)據(jù)集
MFFV-N數(shù)據(jù)集:選取MFFV數(shù)據(jù)集的正常姿態(tài)子集,包含320根手指的生物特征數(shù)據(jù)。每根手指對應3個相機視角、6種光照強度下的采集樣本,正常姿態(tài)下每根手指含540張圖像。實驗采用數(shù)據(jù)集提供的平衡協(xié)議與正常協(xié)議,訓練集、開發(fā)集、測試集分別包含160根、64根、96根手指的樣本。
LFMB-3DFB 數(shù)據(jù)集:涵蓋695根手指的多模態(tài)生物特征數(shù)據(jù),包含6個視角的圖像采集。為適配全視角指靜脈輸入需求,選取A、C、E三個互補視角的圖像組成實驗樣本,采用數(shù)據(jù)集標準平衡協(xié)議進行跨域泛化驗證。
2. 評價指標與標準
核心指標:采用錯誤匹配率(FMR)、錯誤不匹配率(FNMR)、半總錯誤率(HTER)、等錯誤率(EER)和真實匹配率(TMR)作為核心評價指標,全面衡量識別性能。
評價標準:
3. 實驗環(huán)境與參數(shù)設置
實驗基于PyTorch框架搭建,在NVIDIA RTX 3090 GPU上完成訓練與測試。關鍵參數(shù)設置如下:
數(shù)據(jù)增強策略包括隨機顏色抖動(亮度、對比度等系數(shù)0.2)、隨機平移(水平 / 垂直系數(shù)0.2)和隨機透視變換(縮放系數(shù)0.8-1.2)。
關鍵實驗與結果
1. 指靜脈冗余分析實驗
圖5展示了指靜脈圖像成分的累積信息分布

結果顯示,單視角指靜脈圖像的冗余率達70%-80%,全視角指靜脈圖像的冗余率進一步提升至83%-87%,僅需13%-17%的主成分即可保留99%的身份鑒別信息。這一結果驗證了全視角指靜脈數(shù)據(jù)中存在顯著冗余,為后續(xù)特征提取模型的優(yōu)化提供了量化依據(jù)。
2. FDT模型配置與性能驗證
基于冗余分析結果,F(xiàn)DT模型采用動態(tài)標記剔除策略,在單視角階段(SV)與全視角耦合階段(FVC)逐步減少冗余標記。模型配置如表2:初始標記數(shù)100×3(三視角),經6個階段處理后最終保留49個核心標記,整體標記縮減率達83.67%。
在MFFV-N數(shù)據(jù)集上的實驗結果如表3所示:

結果表明,F(xiàn)DT模型表現(xiàn)優(yōu)異:
與MC+MM+SVM、MVCNN、MVT等基線模型相比,F(xiàn)DT在各項指標上均實現(xiàn)顯著提升,其中EER較傳統(tǒng)方法降低50%以上,展現(xiàn)出優(yōu)秀的身份鑒別能力。
3. 消融實驗
為驗證FDT各核心模塊的有效性,分別對MLP-P(補丁嵌入)、PEG(位置編碼生成器)、DeRedun-MHSA(去冗余多頭自注意力)、LFFN(局部增強前饋網絡)和BatchAtten(批處理注意力)進行消融測試,結果如表4:
結果表明,所有核心模塊均對模型性能有正向貢獻:
移除LFFN后,開發(fā)集EER升至3.65%,測試集HTER增至5.28%,性能下降最為顯著;4. 跨域泛化實驗
在LFMB-3DFB數(shù)據(jù)集上驗證FDT的跨域適應性,模型僅基于MFFV-N數(shù)據(jù)集訓練,直接應用于新數(shù)據(jù)集,結果如表5:
結果顯示,F(xiàn)DT在平衡協(xié)議下的開發(fā)集EER為7.24%,測試集HTER為7.34%,遠優(yōu)于MC+MM+SVM基線模型(測試集HTER為34.08%)。即使在LFMB-3DFB數(shù)據(jù)集存在手指姿態(tài)變化的情況下,F(xiàn)DT仍保持穩(wěn)定性能,驗證了其良好的跨域泛化能力。
5. 復雜度分析實驗
對FDT模型的計算復雜度進行評估,如表6所示:
結果顯示:模型參數(shù)僅11.11M,浮點運算量(FLOPs)為0.87G,生成的生物特征模板維度為128維。相較于MVCNN(21.28M參數(shù)、16.72GFLOPs)和MVT(50.92M參數(shù)、6.53GFLOPs),F(xiàn)DT在保持高性能的同時,計算成本顯著降低,更適合實際應用場景。
總結
撰稿:林信翰
審核:黃俊端