在專有領(lǐng)域如何訓(xùn)練自己的BERT?
時(shí)間:2023-04-04 01:12:01 | 來源:電子商務(wù)
時(shí)間:2023-04-04 01:12:01 來源:電子商務(wù)
現(xiàn)在預(yù)訓(xùn)練BERT應(yīng)該不是很難了(當(dāng)然前提是
有卡有數(shù)據(jù)),如果是第一次嘗試的話,可以谷歌關(guān)鍵詞『
BERT from scratch』,應(yīng)該能找到不少手把手的教程。
領(lǐng)域適應(yīng)BERT預(yù)訓(xùn)練標(biāo)準(zhǔn)套路
想在專有領(lǐng)域上訓(xùn)練自己的BERT,本質(zhì)就是初始的BERT學(xué)出來的知識(shí)太general,與需要應(yīng)用的專有領(lǐng)域產(chǎn)生偏差。需要加入特定領(lǐng)域的知識(shí),當(dāng)然,建議是在BERT的基礎(chǔ)上做
post-training,然后再
finetune 。推薦論文(實(shí)驗(yàn)報(bào)告):『
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks』
BERT之后有很多工作都是『BERT Initialization --> Domain Post-trainging --> Finetune』的套路,以 BioBERT 為例,
另外,如果想更絲滑一些,可以嘗試『
Train No Evil: Selective Masking for Task-Guided Pre-Training』這篇論文里的思路,結(jié)合了
領(lǐng)域 和
任務(wù) 相關(guān)知識(shí)到BERT中。
關(guān)鍵詞:訓(xùn)練,領(lǐng)域