常見的網(wǎng)站分類方法有哪些?
時間:2023-04-01 17:12:01 | 來源:電子商務(wù)
時間:2023-04-01 17:12:01 來源:電子商務(wù)
個人對資訊分類方法的經(jīng)驗:
整體思路上是拿高置信度的規(guī)則(PM側(cè)輸出)和算法結(jié)合使用。
高置信度規(guī)則主要是一些詞表和加權(quán)(基于內(nèi)容來源等的源綁定,類別強(qiáng)加權(quán)等)
算法方法主要用
1)TF*IDF(詞頻*逆文檔頻率)分詞
2)LR模型/maxent+W2V+SVM訓(xùn)練
開發(fā)到一定程度,業(yè)務(wù)方會出現(xiàn)更多更細(xì)更高的要求,比如消除歧義,尋找核心關(guān)鍵詞等
這塊主要用知識圖譜+doc2v