實(shí)驗(yàn)室楊起豪同學(xué)一作論文獲人工智能頂級(jí)會(huì)議AAAI2026錄用。
Qihao Yang, Xuelin Wang, Jiale Chen, Xuelian Dong, Yuxin Hao, Tianyong Hao. HSKBenchmark: Modeling and Benchmarking Chinese Second Language Acquisition in Large Language Models through Curriculum Tuning. AAAI 2026 Artificial Intelligence for Social Impact Track. 2025 (CCF-A)
簡介:語言習(xí)得對于揭示人類語言智能的本質(zhì)至關(guān)重要,并已成為提升大語言模型可解釋性的新興研究視角。然而,在倫理和實(shí)踐層面均難以實(shí)施需要控制人類學(xué)習(xí)者語言輸入的實(shí)驗(yàn),這為語言習(xí)得建模(特別是漢語二語習(xí)得領(lǐng)域)的可驗(yàn)證性與可擴(kuò)展性帶來挑戰(zhàn)。盡管大語言模型提供了可控且可復(fù)現(xiàn)的替代方案,但目前仍缺乏支持分階段建模與評(píng)估的系統(tǒng)化基準(zhǔn)。為解決這些問題,提出首個(gè)面向漢語二語習(xí)得的分階段建模與寫作能力評(píng)估基準(zhǔn)HSKBenchmark。該基準(zhǔn)涵蓋HSK3-6級(jí),包含676萬字符的真實(shí)教材語料、1.6萬條合成指令數(shù)據(jù)、30個(gè)測試主題及基于語言學(xué)的評(píng)估體系。為模擬人類習(xí)得軌跡,提出課程調(diào)整框架,使大語言模型按從初級(jí)到高級(jí)的路徑進(jìn)行學(xué)習(xí)。鑒于寫作中的語言輸出是觀測二語習(xí)得發(fā)展的關(guān)鍵視角,我們建立了從語法項(xiàng)目覆蓋率、寫作錯(cuò)誤、詞匯復(fù)雜度、句法復(fù)雜度到整體評(píng)分的多維評(píng)估體系,并基于萬名漢語二語學(xué)習(xí)者的作文微調(diào)出HSKAgent以實(shí)現(xiàn)自動(dòng)化評(píng)估。大量實(shí)驗(yàn)結(jié)果表明,HSKBenchmark不僅能有效建模漢語二語習(xí)得過程,還可作為動(dòng)態(tài)寫作評(píng)估的可靠基準(zhǔn)。我們微調(diào)后的大語言模型寫作能力已達(dá)到高級(jí)人類學(xué)習(xí)者水平,并展現(xiàn)出類人的習(xí)得特征。HSKBenchmark、HSKAgent及相關(guān)模型參數(shù)將作為基礎(chǔ)工具與資源,為語言習(xí)得建模與大語言模型可解釋性研究開辟新路徑。
迄今為止,楊起豪同學(xué)已發(fā)表ICASSP(CCF-B)、ACL(CCF-A)、IJCAI(CCF-A)、EMNLP(CCF-B)、AAAI(CCF-A)論文及其他國際論文9篇。