清華與上海ai lab聯(lián)合開源測試時(shí)強(qiáng)化學(xué)習(xí)框架TTRL,通過動(dòng)態(tài)構(gòu)建偽標(biāo)簽獎(jiǎng)勵(lì)信號,使LLM在推理階段無需標(biāo)注數(shù)據(jù)即可實(shí)現(xiàn)性能提升。該方法利用預(yù)訓(xùn)練模型的先驗(yàn)知識(shí),在測試時(shí)通過多次采樣生成候選輸出,采用多數(shù)投票機(jī)制生成共識(shí)答案作為偽標(biāo)簽,并基于預(yù)測與偽標(biāo)簽的一致性構(gòu)建稀疏獎(jiǎng)勵(lì)函數(shù)。通過梯度上升策略優(yōu)化模型參數(shù),TTRL在保持原有模型結(jié)構(gòu)的同時(shí),實(shí)現(xiàn)了對新數(shù)據(jù)分布的自適應(yīng)調(diào)整。實(shí)驗(yàn)顯示,在AIME 2024數(shù)學(xué)推理任務(wù)中,Qwen-2.5-Math-7B模型經(jīng)TTRL優(yōu)化后,pass@1指標(biāo)提升159.3%,性能接近基于標(biāo)注數(shù)據(jù)訓(xùn)練的監(jiān)督模型;在AMC等基準(zhǔn)測試中,平均性能提升達(dá)84.1%。 該框架突破傳統(tǒng)TTS/TTT對標(biāo)注數(shù)據(jù)或人工干預(yù)的依賴,兼容PPO、GRPO等RL算法,且具備跨任務(wù)泛化能力。研究顯示其在分布外任務(wù)中仍保持性能提升,未發(fā)生過擬合。但方法依賴預(yù)訓(xùn)練模型質(zhì)量,對高難度任務(wù)或小規(guī)模模型存在瓶頸。
轉(zhuǎn)載此文于“量子位”,轉(zhuǎn)載是出于傳遞更多信息之目的,若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間更正、刪除,謝謝。