時(shí)間:2022-07-22 02:06:02 | 來源:建站知識(shí)
時(shí)間:2022-07-22 02:06:02 來源:建站知識(shí)
最近有站長(zhǎng)在網(wǎng)上發(fā)文吐槽表示,字節(jié)跳動(dòng)為了快速發(fā)展搜索業(yè)務(wù)派出爬蟲四處暴力抓取網(wǎng)站內(nèi)容,部分配置較低的網(wǎng)站已經(jīng)直接癱瘓,給中小網(wǎng)站主們?cè)斐闪撕艽蟮膿p失和困擾,嚴(yán)重影響了網(wǎng)站正常的用戶訪問。
該站長(zhǎng)表示,今年7月份,他突然發(fā)現(xiàn)公司的網(wǎng)站經(jīng)常性打不開,網(wǎng)頁加載極其緩慢,有時(shí)甚至直接癱瘓。經(jīng)過一系列排查后,在服務(wù)器日志上發(fā)現(xiàn)了bytespider爬蟲的痕跡。該爬蟲抓取的頻率每天達(dá)幾百萬次,高則上千萬次,服務(wù)器帶寬負(fù)載飆至100%,而且該爬蟲在抓取時(shí)完全不遵守網(wǎng)站的robots協(xié)議。
該站長(zhǎng)順著該爬蟲的IP地址查詢,證實(shí),該爬蟲就是字節(jié)跳動(dòng)的搜索爬蟲。
并且,在CSDN、V2EX等技術(shù)論壇也了解到,從字節(jié)跳動(dòng)開始做搜索之后,其實(shí)網(wǎng)絡(luò)上就一直有站長(zhǎng)抱怨頭條搜索爬蟲抓取過于暴力的聲音,遭受字節(jié)跳動(dòng)的搜索爬蟲暴力抓取的不是個(gè)例,很多小網(wǎng)站他們也沒放過。
有小網(wǎng)站主抱怨表示:字節(jié)跳動(dòng)的爬蟲“一上午對(duì)網(wǎng)站發(fā)出46萬次請(qǐng)求”,網(wǎng)站都癱瘓了,百度也沒有這么折騰的!
最后,該站長(zhǎng)表示,像我們這樣做SEO的人來說,主要工作目標(biāo)就是希望自己家網(wǎng)站能在主流搜索引擎的搜索結(jié)果中排在前面的位置,“對(duì)于像百度、搜狗、360等搜索引擎的規(guī)范抓取和收錄各位站長(zhǎng)都是非常歡迎的,但是頭條搜索爬蟲這樣瘋狂爬取內(nèi)容網(wǎng)站都給整癱瘓了,不僅沒給網(wǎng)站帶來流量,還影響了正常的用戶訪問,這就很不“講究”了。
但是對(duì)此,字節(jié)跳動(dòng)的回應(yīng)則是,“網(wǎng)絡(luò)報(bào)道不實(shí),目前頭條搜索設(shè)有反饋機(jī)制,網(wǎng)站因?yàn)榕老x受到影響,可以直接通過郵件反饋處理。”明是不準(zhǔn)備正面回應(yīng)的。
所以通過頭條搜索爬蟲暴力抓取網(wǎng)站內(nèi)容來看,磊哥個(gè)人覺得,字節(jié)跳動(dòng)入局全網(wǎng)搜索攪動(dòng)搜素市場(chǎng)是好事,但是為了快速崛起讓自己家爬蟲四處暴力抓取,就有問題了,大網(wǎng)站服務(wù)器配置高,技術(shù)人員多還好,很多小網(wǎng)站根本就頂不住字節(jié)跳動(dòng)的搜索爬蟲這么折騰。
搜索引擎的索引數(shù)據(jù)是靠點(diǎn)滴積累起來的,百度、搜狗.360經(jīng)歷了那么多年的發(fā)展積累才走到今天,頭條搜索想要瘋狂爬取內(nèi)容,“一口吃個(gè)胖子”,只會(huì)讓站長(zhǎng)們遠(yuǎn)離!
作者:磊哥
來源:盧松松博客,歡迎分享。
關(guān)鍵詞:暴力,內(nèi)容,爬蟲
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。