綜合三大模型,多維度提升識別準(zhǔn)確率
時間:2022-03-16 20:42:01 | 來源:行業(yè)動態(tài)
時間:2022-03-16 20:42:01 來源:行業(yè)動態(tài)
基于此,知乎團(tuán)隊(duì)從情感傾向性、親密關(guān)系、文本特征三方面入手,構(gòu)建了情感模型、用戶親密度模型和文本識別模型三大模型,通過多維度交叉分析的方式對算法進(jìn)行訓(xùn)練,大大提升了瓦力的陰陽怪氣識別準(zhǔn)確率。
具體是怎么回事?據(jù)知乎內(nèi)容質(zhì)量管理團(tuán)隊(duì)技術(shù)負(fù)責(zé)人劉兆來介紹,首先是通過知乎社區(qū)里的舉報(bào)、反踩等負(fù)向用戶行為進(jìn)行收集和標(biāo)注,為機(jī)器提供訓(xùn)練數(shù)據(jù);隨后在訓(xùn)練中把文本特征、數(shù)值特征、反諷詞表,以及一些表現(xiàn)符特征等融入到模型中,并通過各種同義替換、規(guī)則模版方式對訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)展和增強(qiáng),以緩解訓(xùn)練數(shù)據(jù)不足的問題。
知乎內(nèi)容質(zhì)量管理團(tuán)隊(duì)技術(shù)負(fù)責(zé)人劉兆來
與此同時,瓦力還會提取文本、句法、表情符等特征,并利用一個帶attention的CNN和LSTM融合模型進(jìn)行分類,最終判斷出內(nèi)容是否為陰陽怪氣語料。
知乎運(yùn)營總監(jiān)孫達(dá)云表示,目前瓦力對陰陽怪氣評論文本的識別準(zhǔn)確率已非常接近社區(qū)最大公約數(shù),能夠?qū)崿F(xiàn)對95%以上違法違規(guī)、垃圾廣告信息和不友善內(nèi)容的主動打擊、覆蓋和篩選,每日可處理內(nèi)容近萬條。