時(shí)間:2022-05-28 22:30:02 | 來源:網(wǎng)絡(luò)營銷
時(shí)間:2022-05-28 22:30:02 來源:網(wǎng)絡(luò)營銷
我一直覺得要想做好SEO,要做大一個(gè)網(wǎng)站,需要的不光是我們的堅(jiān)持,也更需要一個(gè)正確的SEO技術(shù),一個(gè)可行的SEO方法,一個(gè)合理的SEO策略,這也就是我一直提倡是SEO思維。雖說搜索引擎有著自己很復(fù)雜的算法,可有的時(shí)候,一個(gè)很簡單的數(shù)學(xué)方法,就可以完成很復(fù)雜的任務(wù)。比如前面我在億企邦上跟大家分享的依靠統(tǒng)計(jì)詞頻和余弦相似性,就能找出文章的關(guān)鍵詞和判定相似文章。雖然它們在效果方面算不上最好的方法,但肯定是最簡便易行的方法。Summarizer(originalText, maxSummarySize):其實(shí),如上面類似的算法也早已被廣泛使用了,有的也已經(jīng)被寫成了工具,比如基于Java的Classifier4J庫的SimpleSummariser模塊、基于C語言的OTS庫、以及基于classifier4J的C#實(shí)現(xiàn)和python實(shí)現(xiàn)。
// 計(jì)算原始文本的詞頻,生成一個(gè)數(shù)組,比如[(10,'the'), (3,'language'), (8,'code')...]
wordFrequences = getWordCounts(originalText)
// 過濾掉停用詞,數(shù)組變成[(3, 'language'), (8, 'code')...]
contentWordFrequences = filtStopWords(wordFrequences)
// 按照詞頻進(jìn)行排序,數(shù)組變成['code', 'language'...]
contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)
// 將文章分成句子
sentences = getSentences(originalText)
// 選擇關(guān)鍵詞首先出現(xiàn)的句子
setSummarySentences = {}
foreach word in contentWordsSortbyFreq:
firstMatchingSentence = search(sentences, word)
setSummarySentences.add(firstMatchingSentence)
if setSummarySentences.size() = maxSummarySize:
break
// 將選中的句子按照出現(xiàn)順序,組成摘要
summary = ""
foreach sentence in sentences:
if sentence in setSummarySentences:
summary = summary + " " + sentence
return summary
關(guān)鍵詞:提取,文章,原理
客戶&案例
營銷資訊
關(guān)于我們
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。