国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁 > 營銷資訊 > 網(wǎng)站運(yùn)營 > 【百度站長平臺(tái)】如何搭建SEO喜好的站點(diǎn)

【百度站長平臺(tái)】如何搭建SEO喜好的站點(diǎn)

時(shí)間:2023-08-13 17:30:01 | 來源:網(wǎng)站運(yùn)營

時(shí)間:2023-08-13 17:30:01 來源:網(wǎng)站運(yùn)營

【百度站長平臺(tái)】如何搭建SEO喜好的站點(diǎn):搜索引擎技術(shù)飛速發(fā)展,對(duì)網(wǎng)站的解析越來越充分,而各家網(wǎng)站也面臨著強(qiáng)勁的對(duì)手競品,如何讓自己的網(wǎng)站對(duì)搜索引擎對(duì)百度更加友好,是站長要充分考慮的問題。 本篇的主旨就告訴站長:怎樣建設(shè)對(duì)搜索引擎友好的站點(diǎn),目前分為五個(gè)章節(jié):友好抓??;鏈接建設(shè);網(wǎng)站安全;網(wǎng)站變更;其他。

友好抓取

如何正確識(shí)別Baiduspider移動(dòng)ua

新版移動(dòng)ua:


Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)PC ua:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)之前通過“+http://www.baidu.com/search/spider.html”進(jìn)行識(shí)別的網(wǎng)站請(qǐng)注意!您需要修改識(shí)別方式,新的正確的識(shí)別Baiduspider移動(dòng)ua的方法如下:

  1. 通過關(guān)鍵詞“Android”或者“Mobile”來進(jìn)行識(shí)別,判斷為移動(dòng)訪問或者抓取。
  2. 通過關(guān)鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。
另外需要強(qiáng)調(diào)的是,對(duì)于robots封禁,如果封禁的agent是Baiduspider,會(huì)對(duì)PC和移動(dòng)同時(shí)生效。即,無論是PC還是移動(dòng)Baiduspider,都不會(huì)對(duì)封禁對(duì)象進(jìn)行抓取。之所以要強(qiáng)調(diào)這一點(diǎn),是發(fā)現(xiàn)有些代碼適配站點(diǎn)(同一個(gè)url,PC ua打開的時(shí)候是PC頁,移動(dòng)ua打開的時(shí)候是移動(dòng)頁),想通過設(shè)置robots的agent封禁達(dá)到只讓移動(dòng)Baiduspider抓取的目的,但由于PC和移動(dòng)Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。

如何識(shí)別百度蜘蛛

百度蜘蛛對(duì)于站長來說可謂上賓,可是我們?cè)?jīng)遇到站長這樣提問:我們?nèi)绾闻袛喁偪褡ノ覀兙W(wǎng)站內(nèi)容的蜘蛛是不是百度的?其實(shí)站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據(jù)平臺(tái)不同驗(yàn)證方法不同,如linux/windows/os三種平臺(tái)下的驗(yàn)證方法分別如下:

  1. 在linux平臺(tái)下,您可以使用host?ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以?*.http://baidu.com?或?*.baidu.jp?的格式命名,非?*.baidu.com?或?*.baidu.jp?即為冒充。
  1. 在windows平臺(tái)或者IBM?OS/2平臺(tái)下,您可以使用nslookup?ip命令反解ip來?判斷是否來自Baiduspider的抓取。打開命令處理器?輸入nslookup?http://xxx.xxx.xxx.xxx(IP地?址)就能解析ip,?來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.http://baidu.com?或*.http://baidu.jp?的格式命名,非?*.baidu.com?或?*.baidu.jp?即為冒充。
  2. 在mac?os平臺(tái)下,您可以使用dig?命令反解ip來?判斷是否來自Baiduspider的抓取。打開命令處理器?輸入dig?http://xxx.xxx.xxx.xxx(IP地?址)就能解析ip,?來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以?*.http://baidu.com?或*.http://baidu.jp?的格式命名,非?*.baidu.com?或?*.baidu.jp?即為冒充。

Baiduspider IP是多少

即便很多站長知道了如何判斷百度蜘蛛,仍然會(huì)不斷地問“百度蜘蛛IP是多少”。我們理解站長的意思,是想將百度蜘蛛所在IP加入白名單,只準(zhǔn)白名單下IP對(duì)網(wǎng)站進(jìn)行抓取,避免被采集等行為。

但我們不建議站長這樣做。雖然百度蜘蛛的確有一個(gè)IP池,真實(shí)IP在這個(gè)IP池內(nèi)切換,但是我們無法保證這個(gè)IP池整體不會(huì)發(fā)生變化。所以,我們建議站長勤看日志,發(fā)現(xiàn)惡意蜘蛛后放入黑名單,以保證百度的正常抓取。同時(shí),我們?cè)俅螐?qiáng)調(diào),通過IP來分辨百度蜘蛛的屬性是非??尚Φ氖虑椋^的“沙盒蜘蛛”“降權(quán)蜘蛛”等等是從來都不存在的。

robots寫法

robots是站點(diǎn)與spider溝通的重要渠道,站點(diǎn)通過robots文件聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請(qǐng)注意,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請(qǐng)勿建立robots.txt文件。

?robots文件往往放置于根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL,?or?NL作為結(jié)束符),每一條記錄的格式如下所示:

"<field>:<optional?space><value><optionalspace>"在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細(xì)情況如下:

User-agent:該項(xiàng)的值用于描述搜索引擎robot的名字。

在"robots.txt"文件中,如果有多條User-agent記錄說明有多個(gè)robot會(huì)受到"robots.txt"的限制,

對(duì)該文件來說,至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則對(duì)任何robot均有效,

在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。

如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名為"SomeBot"只受到"User-agent:SomeBot"后面的?Disallow和Allow行的限制。

Disallow:該項(xiàng)的值用于描述不希望被訪問的一組URL,這個(gè)值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項(xiàng)的值開頭的URL不會(huì)被?robot訪問。

例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html,

而"Disallow:/help/"則允許robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。

"Disallow:"說明允許robot訪問該網(wǎng)站的所有url,

在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件,則對(duì)于所有的搜索引擎robot,該網(wǎng)站都是開放的。

Allow:該項(xiàng)的值用于描述希望被訪問的一組URL,與Disallow項(xiàng)相似,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項(xiàng)的值開頭的URL?是允許robot訪問的。

例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個(gè)網(wǎng)站的所有URL默認(rèn)是Allow的,所以Allow通常與Disallow搭配使用,實(shí)現(xiàn)允許訪問一部分網(wǎng)頁同時(shí)禁止訪問其它所有URL的功能。

使用"*"and"$":Baiduspider支持使用通配符"*"和"$"來模糊匹配url。

最后需要說明的是:百度會(huì)嚴(yán)格遵守robots的相關(guān)協(xié)議,請(qǐng)注意區(qū)分您不想被抓取或收錄的目錄的大小寫,百度會(huì)對(duì)robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則robots協(xié)議無法生效。

robots需求用法對(duì)應(yīng)表

上面說了那么多理論,有沒有簡單對(duì)照表格告訴我,怎樣的需求場景下應(yīng)該怎樣撰寫robots文件?有的:


除robots外其它禁止百度收錄的方法

Meta robots標(biāo)簽是頁面head部分標(biāo)簽的一種,也是一種用于禁止搜索引擎索引頁面內(nèi)容的指令。目前百度僅支持nofollow和noarchive

nofollow:禁止搜索引擎跟蹤本頁面上的鏈接

如果您不想搜索引擎追蹤此網(wǎng)頁上的鏈接,且不傳遞鏈接的權(quán)重,請(qǐng)將此元標(biāo)記置入網(wǎng)頁的<HEAD>?部分:

<meta?name="robots"?content="nofollow">如果您不想百度追蹤某一條特定鏈接,百度還支持更精確的控制,請(qǐng)將此標(biāo)記直接寫在某條鏈接上:

<a?href="signin.php"?rel="nofollow">signin</a>要允許其他搜索引擎跟蹤,但僅防止百度跟蹤您網(wǎng)頁的鏈接,請(qǐng)將此元標(biāo)記置入網(wǎng)頁的<HEAD>?部分:

<meta?name="Baiduspider"?content="nofollow">noarchive:禁止搜索引擎在搜索結(jié)果中顯示網(wǎng)頁快照 要防止所有搜索引擎顯示您網(wǎng)站的快照,請(qǐng)將此元標(biāo)記置入網(wǎng)頁的<HEAD>部分:

<meta?name="robots"?content="noarchive">要允許其他搜索引擎顯示快照,但僅防止百度顯示,請(qǐng)使用以下標(biāo)記:

<meta?name="Baiduspider"?content="noarchive">注:此標(biāo)記只是禁止百度顯示該網(wǎng)頁的快照,百度會(huì)繼續(xù)為網(wǎng)頁建索引,并在搜索結(jié)果中顯示網(wǎng)頁摘要。

使用robots巧妙避免蜘蛛黑洞

對(duì)于百度搜索引擎來說,蜘蛛黑洞特指網(wǎng)站通過極低的成本制造出大量參數(shù)過多、內(nèi)容類同但url不同的動(dòng)態(tài)URL ,就像一個(gè)無限循環(huán)的“黑洞“,將spider困住。spider浪費(fèi)了大量資源抓取的卻是無效網(wǎng)頁。

如很多網(wǎng)站都有篩選功能,通過篩選功能產(chǎn)生的網(wǎng)頁經(jīng)常會(huì)被搜索引擎大量抓取,而這其中很大一部分是檢索價(jià)值低質(zhì)的頁面。如“500-1000之間價(jià)格的租房”,首先網(wǎng)站(包括現(xiàn)實(shí)中)上基本沒有相關(guān)資源,其次站內(nèi)用戶和搜索引擎用戶都沒有這種檢索習(xí)慣。這種網(wǎng)頁被搜索引擎大量抓取,只能是占用網(wǎng)站寶貴的抓取配額,那么該如何避免這種情況呢?

我們以杭州美團(tuán)網(wǎng)為例,看看美團(tuán)網(wǎng)是如何利用robots巧妙避免這種蜘蛛黑洞的:

對(duì)于普通的篩選結(jié)果頁,使用了靜態(tài)鏈接,如:

http://bj.meituan.com/category/zizhucan/weigongcun同樣是條件篩選結(jié)果頁,當(dāng)用戶選擇不同排序條件后,會(huì)生成帶有不同參數(shù)的動(dòng)態(tài)鏈接,而且即使是同一種排序條件(如:都是按銷量降序排列),生成的參數(shù)也都是不同的。如:

http://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c對(duì)于美團(tuán)網(wǎng)來說,只讓搜索引擎抓取篩選結(jié)果頁就可以了,而各種帶參數(shù)的結(jié)果排序頁面則通過robots規(guī)則拒絕提供給搜索引擎。在robots.txt的文件用法中有這樣一條規(guī)則:Disallow: /*?* ,即禁止搜索引擎訪問網(wǎng)站中所有的動(dòng)態(tài)頁面。美團(tuán)網(wǎng)恰是通過這種方式,對(duì)spider優(yōu)先展示高質(zhì)量頁面、屏蔽了低質(zhì)量頁面,為spider提供了更友好的網(wǎng)站結(jié)構(gòu),避免了黑洞的形成。

禁止百度圖片搜索收錄某些圖片的方法

目前百度圖片搜索也使用了與百度網(wǎng)頁搜索相同的spider,如果想禁止Baiduspider抓取網(wǎng)站上所有圖片、禁止或允許Baiduspider抓取網(wǎng)站上的某種特定格式的圖片文件可以通過設(shè)置robots實(shí)現(xiàn):

?禁止Baiduspider抓取網(wǎng)站上所有圖片
僅允許抓取網(wǎng)頁,禁止抓取任何圖片。
User-agent:?Baiduspider
Disallow:?/*.jpg$
Disallow:?/*.jpeg$
Disallow:?/*.gif$
Disallow:?/*.png$
Disallow:?/*.bmp$
僅允許Baiduspider抓取網(wǎng)頁和.gif格式圖片
允許抓取網(wǎng)頁和gif格式圖片,不允許抓取其他格式圖片
User-agent:?Baiduspider
Allow:?/*.gif$
Disallow:?/*.jpg$
Disallow:?/*.jpeg$
Disallow:?/*.png$
Disallow:?/*.bmp$
僅禁止Baiduspider抓取.jpg格式圖片User-agent:?Baiduspider
Disallow:?/*.jpg$

503狀態(tài)碼的使用場景及與404的區(qū)別

Html狀態(tài)碼也是網(wǎng)站與spider進(jìn)行交流的渠道之一,會(huì)告訴spider網(wǎng)頁目前的狀態(tài),spider再來決定下一步該怎么做——抓or不抓or下次再來看看。對(duì)于200狀態(tài)碼大家已經(jīng)很熟了,那么我們來介紹幾種常見的失效網(wǎng)頁使用的狀態(tài)碼:

【404】404返回碼的含義是“NOT?FOUND”,百度會(huì)認(rèn)為網(wǎng)頁已經(jīng)失效,那么通常會(huì)從搜索結(jié)果中刪除,并且短期內(nèi)spider再次發(fā)現(xiàn)這條url也不會(huì)抓取。

【503】503返回碼的含義是“Service?Unavailable”,百度會(huì)認(rèn)為該網(wǎng)頁臨時(shí)不可訪問,通常網(wǎng)站臨時(shí)關(guān)閉,帶寬有限等會(huì)產(chǎn)生這種情況。對(duì)于網(wǎng)頁返回503,百度spider不會(huì)把這條url直接刪除,短期內(nèi)會(huì)再訪問。屆時(shí)如果網(wǎng)頁已恢復(fù),則正常抓?。蝗绻^續(xù)返回503,短期內(nèi)還會(huì)反復(fù)訪問幾次。但是如果網(wǎng)頁長期返回503,那么這個(gè)url仍會(huì)被百度認(rèn)為是失效鏈接,從搜索結(jié)果中刪除。

【301】301返回碼的含義是“Moved?Permanently”,百度會(huì)認(rèn)為網(wǎng)頁當(dāng)前跳轉(zhuǎn)至新url。當(dāng)遇到站點(diǎn)遷移,域名更換、站點(diǎn)改版的情況時(shí),推薦使用301返回碼,盡量減少改版帶來的流量損失。雖然百度spider現(xiàn)在對(duì)301跳轉(zhuǎn)的響應(yīng)周期較長,但我們還是推薦大家這么做。

一些網(wǎng)站把未建好的頁面放到線上,并且這些頁面在被百度抓取的時(shí)候返回碼是404,于是頁面被百度抓取后會(huì)被當(dāng)成死鏈直接刪除。但是這個(gè)頁面在第二天或者過幾天就會(huì)建好,并上線到網(wǎng)站內(nèi)展現(xiàn)出來,但是由于之前已經(jīng)被百度當(dāng)做死鏈刪除,所以要再次等這些鏈接被發(fā)現(xiàn),然后抓取才能展現(xiàn),這樣的操作最終會(huì)導(dǎo)致一些頁面在一段時(shí)間內(nèi)不會(huì)在百度出現(xiàn)。比如某個(gè)大型門戶網(wǎng)站爆出大量新聞時(shí)效性很強(qiáng)的專題未被百度及時(shí)收錄的問題,經(jīng)檢查驗(yàn)證后發(fā)現(xiàn)就是因?yàn)轫撁嫖唇ǔ删头胖迷诰€上,并返回404狀態(tài)碼,被百度當(dāng)成死鏈刪除,造成收錄和流量損失。

對(duì)于這樣的問題,建議網(wǎng)站使用503返回碼,這樣百度的抓取器接到503返回碼后,會(huì)在隔一段時(shí)間再去訪問這個(gè)地址,在您的頁面建好上線后,就又能被重新抓取,保證頁面及時(shí)被抓取和索引,避免未建好的內(nèi)容設(shè)為404后帶來不必要的收錄和流量損失。

其它建議和總結(jié):

  1. 如果百度spider對(duì)您的站點(diǎn)抓取壓力過大,請(qǐng)盡量不要使用404,同樣建議返回503。這樣百度spider會(huì)過段時(shí)間再來嘗試抓取這個(gè)鏈接,如果那個(gè)時(shí)間站點(diǎn)空閑,那它就會(huì)被成功抓取了
  2. 如果站點(diǎn)臨時(shí)關(guān)閉或者頁面暫未建好上線,當(dāng)網(wǎng)頁不能打開時(shí)以及沒有建好時(shí),不要立即返回404,建議使用503狀態(tài)。503可以告知百度spider該頁面臨時(shí)不可訪問,請(qǐng)過段時(shí)間再重試。

連通率為0的前因后果及預(yù)防補(bǔ)救措施

在百度site站點(diǎn)時(shí),遇到“連通率為0”說明Baiduspider在訪問站點(diǎn)時(shí)發(fā)現(xiàn)了問題,該問題非常嚴(yán)重,如果Baiduspider持續(xù)一天時(shí)間無法訪問有可能給站點(diǎn)帶來災(zāi)難性的損失。

一、何謂連通率

既然為率,那么就是一個(gè)統(tǒng)計(jì)相關(guān)概念。我們不妨可以這樣理解一個(gè)網(wǎng)站的連通率:百度蜘蛛在抓取網(wǎng)站頁面的時(shí)候計(jì)算的一個(gè)概率,比如它抓取某網(wǎng)站中的N個(gè)頁面,這N個(gè)頁面都能打開并被蜘蛛成功抓取,這樣的連通率就是N/N=100%,反之蜘蛛抓取N個(gè)頁面有M個(gè)頁面能成功抓取,連通率就是M/N

這里先說明幾個(gè)常識(shí):

  1. 不是網(wǎng)站被某算法懲罰而導(dǎo)致連通率為0,也不是網(wǎng)站流量下降而導(dǎo)致連通率數(shù)值很低;
  2. 連通率代表著百度蜘蛛獲取網(wǎng)站數(shù)據(jù)的情況,如果連通率數(shù)值很低或?yàn)?,那么可能連維持網(wǎng)站的正常收錄等都成問題;
  3. 假如網(wǎng)站被判定連通不了,那么如果讓一個(gè)連通不了的站點(diǎn)在百度中獲取排名,就會(huì)大大影響搜索用戶的體驗(yàn),于是百度就會(huì)采取對(duì)該站點(diǎn)有效引流的索引清除操作,一些站長就會(huì)發(fā)現(xiàn)自己的網(wǎng)站索引量突然大幅度下降,甚至索引被短暫清0了,接著就是網(wǎng)站百度搜索流量大幅度下降,這種突發(fā)性的事件又會(huì)造成站長們的揣測,以為自己的網(wǎng)站被百度懲罰了,其實(shí)站長們先應(yīng)該注意的是站點(diǎn)的連通情況。
二、提取核心詞

上述概念中,我們需要注意的幾個(gè)詞有:”百度蜘蛛”; ”在抓取”; ”N個(gè)頁面”; ”M個(gè)頁面”; ”都能打開并被成功抓取”。





三、連通率很低或?yàn)?時(shí)

我們抓住上述5個(gè)提取出的核心詞進(jìn)行分析。

(一)百度蜘蛛

1、謹(jǐn)防百度蜘蛛訪問被操控或禁止

2、預(yù)防措施

(1)完善聯(lián)系方式獲得百度站長工具消息提醒





雖然一些網(wǎng)站異常情況會(huì)收到百度站長工具消息提醒,然而我想告訴大家不是所有自己站點(diǎn)異常都可以寄希望于消息提醒的,自己心里要知道連發(fā)郵件都可能出現(xiàn)收不到的情況,更何況各種復(fù)雜的異常情況,因此不要出問題了只會(huì)問“為什么站長工具沒有給我發(fā)消息”。

(2)利用抓取異常和抓取頻次工具觀察抓取情況

抓取異常工具的網(wǎng)址異常情況




↓抓取頻次工具的抓取統(tǒng)計(jì)情況










↓每個(gè)工具頁面的右側(cè)下方都有使用說明,如下





(3)抓取診斷工具是重中之重




為了保證網(wǎng)站對(duì)百度蜘蛛的穩(wěn)定訪問性能,日常我們需要養(yǎng)成定期抓取診斷的習(xí)慣,另外抓取診斷不是說光看看狀態(tài)是否“抓取成功”就行了。有下面幾步進(jìn)行:

第一步:下拉選擇分”pc”、 ”移動(dòng)”進(jìn)行抓取,”pc”意味著一般意義上的電腦端訪問診斷,”移動(dòng)”則是如手機(jī)、平板等移動(dòng)設(shè)備端訪問診斷;




第二步:網(wǎng)站主要的引流頁,如首頁、詳情頁、內(nèi)容頁、專題頁等都要進(jìn)行抓取,另外可以重點(diǎn)幾個(gè)時(shí)間段(比如網(wǎng)站高峰時(shí)間段)每天定期進(jìn)行測試;

第三步:抓取失敗了,點(diǎn)擊”抓取失敗”查看提示信息,如果自己沒有技術(shù)能力解決問題,可以跟空間商進(jìn)行溝通,然后向工具提交報(bào)錯(cuò);



第四步:抓取成功后,也不能說就萬事大吉了,還要點(diǎn)擊”抓取成功”進(jìn)去注意:提交網(wǎng)址、抓取網(wǎng)址、抓取UA、網(wǎng)站ip、下載時(shí)長、頭部信息(服務(wù)器返回狀態(tài)碼、gzip等相關(guān)信息)、網(wǎng)頁源碼是否都正常。











特別說明:有很多站長就光注意抓取成功,卻不知網(wǎng)站ip可能并非自己的實(shí)際ip,被網(wǎng)絡(luò)商搞到哪里去了都不知道,還可能每隔一段時(shí)間都變。當(dāng)發(fā)現(xiàn)ip有問題,及時(shí)跟網(wǎng)絡(luò)商溝通,并在網(wǎng)站ip旁點(diǎn)擊“報(bào)錯(cuò)”按鈕,百度會(huì)更新網(wǎng)站ip,但是切記不要ip變化頻繁。此外當(dāng)然還可能出現(xiàn)實(shí)際抓取網(wǎng)址、頭部信息、網(wǎng)頁源碼等都不是自己本來設(shè)置的。

(二)在抓取

這是反映百度蜘蛛在抓取時(shí)的狀態(tài),百度的工具顯示的數(shù)值肯定都是抓取后計(jì)算出來的數(shù)據(jù),因此任何工具的連通率數(shù)據(jù)必定存在延遲性,另外這個(gè)計(jì)算過程也存在一定可能的錯(cuò)誤,所以我們看到任何工具中關(guān)于連通率的數(shù)據(jù),不要說“我網(wǎng)站用抓取診斷等工具檢查訪問情況都好好的,為什么連通率還是0”,因此除了上述建議的多抓取診斷測試外,自己可以加些監(jiān)控網(wǎng)站連接狀態(tài)的措施,筆者本人就曾經(jīng)接收了不少關(guān)于網(wǎng)站連接不通的提醒。這時(shí)我會(huì)及時(shí)跟網(wǎng)絡(luò)商溝通,然后及時(shí)用抓取診斷檢查蜘蛛的情況。





(三)N個(gè)頁面與M個(gè)頁面

這N、M個(gè)頁面,可能百度蜘蛛很湊巧就趕上高峰的時(shí)候或者一些假死頁面(執(zhí)行時(shí)間較長,超過蜘蛛的耐心),那么M這個(gè)數(shù)值就會(huì)很低,統(tǒng)計(jì)概率的東西大家都懂的,那么這時(shí)網(wǎng)站的連通率依舊很低或?yàn)?。因此若連通率為0,我們還可以知道自己應(yīng)該注意查看訪問日志,及時(shí)清理死鏈,或者并發(fā)連接數(shù)增大,或者增加內(nèi)存等等。

(四)都能打開并被成功抓取

這里主要注意DNS和空間的穩(wěn)定性。

1、DNS的問題

參考當(dāng)心 dns服務(wù)器不穩(wěn)導(dǎo)致站點(diǎn)被屏

提醒大家注意的是現(xiàn)在不少云類ns服務(wù)器,這個(gè)過程中由于處理機(jī)制問題,包括回源障礙等等,較容易造成這個(gè)問題。另外國內(nèi)大型服務(wù)商提供,比如你使用了dnspod,并不代表你的dns就應(yīng)該是ok的。有的站長存在著對(duì)大型服務(wù)商的錯(cuò)誤認(rèn)識(shí),如 “新網(wǎng)的dns就是不可靠的,我都用百度云加速”。我們要明白廉價(jià)的東西質(zhì)量都有一定局限性,所以需要自己檢查dns解析情況,具體上網(wǎng)找找相關(guān)資料或平臺(tái),看看dns解析出的ip以及解析延遲情況等等。

2、空間的穩(wěn)定性

很多人都會(huì)用超級(jí)ping了,這個(gè)不多說了。但是我還要告訴大家有下面兩點(diǎn)需要注意:

A、不良的網(wǎng)絡(luò)商會(huì)對(duì)不同用戶ip進(jìn)行不同處理,自己可以用vpn等工具觀察下不同地區(qū)ip段的網(wǎng)站訪問情況與返回內(nèi)容;

B、空間的資源不足,內(nèi)存、并發(fā)連接等等,當(dāng)訪問量很少的時(shí)候,自己察覺不出,需要提高訪問量,增加連接時(shí)間。因此使用一些監(jiān)控工具時(shí),發(fā)現(xiàn)監(jiān)控工具訪問測試量巨大,或者被人刷流量時(shí),你應(yīng)該慶幸,而不是著急拒絕,因?yàn)槟憧梢粤私獾阶约旱目臻g承壓能力。

四、連通率問題處理完畢后

如果你的網(wǎng)站索引由于連通率而非懲罰原因被清理了,處理完畢問題,可以在抓取頻次工具中提交增加抓取頻次的請(qǐng)求,將抓取頻次增加到一定額度(建議自己查看工具中對(duì)抓取頻次的說明后再根據(jù)網(wǎng)站實(shí)際情況調(diào)整),然后增加自己的網(wǎng)站數(shù)據(jù)更新頻率與質(zhì)量,加強(qiáng)與百度的數(shù)據(jù)溝通(如url提交、sitemap等等),很快就能恢復(fù)。相關(guān)工具展示如下(每個(gè)工具頁面的右側(cè)下方都有相關(guān)說明鏈接,可以點(diǎn)擊去了解使用注意事項(xiàng)):

1、抓取頻次中的頻次調(diào)整工具:





2、鏈接提交工具:




3、鏈接提交工具中的主動(dòng)推送、sitemap、手動(dòng)提交方式:




https站點(diǎn)如何做才能對(duì)百度友好

2015年5月25日,百度站長平臺(tái)發(fā)布公告,宣布全面放開對(duì)https站點(diǎn)的收錄,https站點(diǎn)不再需要做任何額外工作即可被百度抓收。采用了本文之前建議的https站點(diǎn)可以關(guān)閉http版,或者將http頁面跳轉(zhuǎn)到對(duì)應(yīng)的https頁面。

百度搜索引擎目前不主動(dòng)抓取https網(wǎng)頁,導(dǎo)致大部分https網(wǎng)頁無法收錄。但是如果網(wǎng)站一定要使用https加密協(xié)議的話該如何做到對(duì)百度搜索引擎友好呢。其實(shí)很簡單:

1,為需要被百度搜索引擎收錄的https頁面制作http可訪問版。

2,通過user-agent判斷來訪者,將Baiduspider定向到http頁面,普通用戶通過百度搜索引擎訪問該頁面時(shí),通過301重定向至相應(yīng)的https頁面。如圖所示,上圖為百度收錄的http版本,下圖為用戶點(diǎn)擊后會(huì)自動(dòng)跳入https版本。



3,http版本不是只為首頁制作,其它重要頁面也需要制作http版本,且互相鏈接,切不要出現(xiàn)這種情況:首頁http頁面上的鏈接依然鏈向https頁面,導(dǎo)致Baiduspider無法繼續(xù)抓取——我們?cè)?jīng)遇到這種情況,導(dǎo)致整個(gè)網(wǎng)點(diǎn)我們只能收錄一個(gè)首頁。如下面這個(gè)做法就是錯(cuò)誤的:http://www.abc.com/?鏈向https://www.adc.com/bbs/

4,可以將部分不需要加密的內(nèi)容,如資訊等使用二級(jí)域名承載。比如支付寶站點(diǎn),核心加密內(nèi)容放在https上,可以讓Baiduspider直接抓取的內(nèi)容都放置在二級(jí)域名上。


站點(diǎn)切換https不會(huì)對(duì)流量產(chǎn)生負(fù)面影響

問:對(duì)于http和https,Baiduspider會(huì)不會(huì)區(qū)別對(duì)待?

答:不會(huì)區(qū)別對(duì)待。說得再全整專業(yè)一些:Baiduspider在對(duì)于http和https站點(diǎn)的調(diào)度和解析方面沒有任何區(qū)別。至于建索引庫,年初的時(shí)候百度進(jìn)行過升級(jí),目前對(duì)https站點(diǎn)也是全力支持的。

問:Baiduspider可以抓取https網(wǎng)站嗎?站點(diǎn)https以后應(yīng)該做些什么?

答:在抓取方面,Baiduspider完全支持https鏈接的抓取。站長需要注意的一點(diǎn)是要保證http鏈接到https鏈接良好的重定向(使用301或302),這樣百度可以做到無縫切換。另外可以使用鏈接提交工具提交https鏈接,盡快通知百度。

問:站點(diǎn)切換https以后,新產(chǎn)生的https頁面,百度會(huì)將其視為新頁面重新收錄?重新計(jì)算排名?

答:不是的,不涉及重新收錄的問題。

問:https以后可以使用改版工具向百度提交http與https的對(duì)應(yīng)關(guān)系嗎?

答:http站和https站會(huì)被百度視為同一個(gè)站點(diǎn),不屬于改版,不適用改版工具。

問:https以后,排序有可能發(fā)生什么變化?

答:在rank方面,現(xiàn)在對(duì)兩種鏈接無區(qū)別對(duì)待,從安全性考慮,以后可能會(huì)優(yōu)待https的鏈接。

禁止百度保留快照的代碼:noarchive

很多站點(diǎn)出于隱私的考慮不希望百度保留快照,網(wǎng)上也在討論如何禁止百度保留快照的方法。其實(shí)百度早已對(duì)此有過說明,但藏在一篇不起眼的文章中不引人注目,導(dǎo)致依然非常多的人不清楚該如何操作。上周恰好又有人問到這個(gè)問題,特意進(jìn)行說明。
要防止所有搜索引擎顯示您網(wǎng)站的快照,請(qǐng)將此元標(biāo)記置入網(wǎng)頁的<HEAD>部分:

<meta?name="robots"?content="noarchive">要允許其他搜索引擎顯示快照,但僅防止百度顯示,請(qǐng)使用以下標(biāo)記:

<meta?name="Baiduspider"?content="noarchive">注:此標(biāo)記只是禁止百度顯示該網(wǎng)頁的快照,并不會(huì)影響網(wǎng)頁建入索引,同時(shí)垃圾網(wǎng)頁也不可能依靠此手段逃避百度的判罰。

鏈接建設(shè)

買賣鏈接對(duì)站點(diǎn)的危害

眾所周知,搜索引擎會(huì)對(duì)站點(diǎn)獲得鏈接的數(shù)量和質(zhì)量進(jìn)行分析,從而做出對(duì)網(wǎng)站的評(píng)價(jià),最終影響站點(diǎn)在搜索結(jié)果中的表現(xiàn)。在搜索引擎看來,站點(diǎn)的鏈接質(zhì)量比數(shù)量更為重要,然而愈演愈烈的鏈接買賣風(fēng)潮,已經(jīng)開始威脅到搜索引擎的公正性。為此百度質(zhì)量團(tuán)隊(duì)推出了綠蘿算法對(duì)買賣鏈接行為進(jìn)行打擊。

搜索引擎認(rèn)為站點(diǎn)每發(fā)出一個(gè)鏈接指向另一個(gè)站點(diǎn),都是一次投票行為,請(qǐng)您珍惜每一次投票的權(quán)力,而不是將這個(gè)權(quán)力出售,更不應(yīng)該打包賣給鏈接中介公司。如果搜索引索發(fā)現(xiàn)站點(diǎn)有出售鏈接的行為,則會(huì)影響到站點(diǎn)在搜索引擎系統(tǒng)中的整體表現(xiàn)。對(duì)于廣告類的鏈接,請(qǐng)您使用nofollow屬性進(jìn)行設(shè)置。除不出售鏈接外,您還應(yīng)該關(guān)注建站程序的安全更新,及時(shí)安裝補(bǔ)丁程序;經(jīng)常對(duì)網(wǎng)站發(fā)出的鏈接進(jìn)行檢查,看是否有多余的、非主觀意愿存在的鏈接,以免站點(diǎn)在不知情的情況下被黑帽SEO添加鏈接。

建議您不要企圖求助于黑帽SEO和鏈接中介公司,他們很有可能使用極不正當(dāng)?shù)氖侄瘟钫军c(diǎn)在短時(shí)間內(nèi)獲得一定效果,但是搜索引擎有專門的程序去識(shí)別各種手段和行為,一旦被發(fā)現(xiàn),站點(diǎn)會(huì)無法得到預(yù)期的效果,甚至被搜索引擎懲罰處理。最后,希望各位站長放眼于長遠(yuǎn)的未來,不要為眼前的蠅頭小利所迷惑。將精力放在在自身內(nèi)容和品牌建設(shè)上,拓展更多良性發(fā)展的盈利模式。

內(nèi)鏈建設(shè)的大忌

在《百度搜索引擎工作原理》課程中我們提到過,Baiduspider需要知道站點(diǎn)里哪個(gè)頁面更重要,其中一個(gè)渠道就是內(nèi)鏈。那么內(nèi)鏈建設(shè)有哪些大忌呢:

死循環(huán)鏈接:

死循環(huán)鏈接是搜索引擎蜘蛛最郁悶的事情了,往往會(huì)把搜索引擎蜘蛛卡在一個(gè)角落中,無限的循環(huán)而走不出來,不僅白白浪費(fèi)蜘蛛體力,也會(huì)占用網(wǎng)站大量爬取頻率,造成有價(jià)值的網(wǎng)頁抓取不全。比如萬年歷等非常實(shí)用的工具網(wǎng)站,很多時(shí)候這些工具你都可以無限的點(diǎn)擊,每次點(diǎn)擊都產(chǎn)生一個(gè)新的url,如果你沒有屏蔽蜘蛛爬取這些內(nèi)容,那么蜘蛛有可能會(huì)被帶入到一個(gè)無限循環(huán)的境地,這樣的做法對(duì)任何一個(gè)搜索引擎都是不友好的。

還有一種就是動(dòng)態(tài)、帶“?”號(hào)的url。這是由于動(dòng)態(tài)網(wǎng)站的一個(gè)動(dòng)態(tài)文件(如.php)可以產(chǎn)生上萬個(gè)或者無數(shù)個(gè)鏈接,如果部分php文件內(nèi)部又再次鏈向自己。蜘蛛進(jìn)去就很難再爬出來。

鏈接404后不消除內(nèi)鏈入口:

頁面404后,除了需要向百度站長平臺(tái)提交外,應(yīng)該盡量關(guān)閉其在網(wǎng)站內(nèi)部的入口,一來死鏈對(duì)用戶的傷害是極大的,二來避免令蜘蛛產(chǎn)生錯(cuò)覺,認(rèn)為你網(wǎng)站死鏈嚴(yán)重。

只有入鏈沒有出鏈:

有些人認(rèn)為網(wǎng)頁上的出鏈太多會(huì)分散頁面本身的得分,所以在重要頁面上不設(shè)計(jì)出鏈,實(shí)際這與百度的認(rèn)知是相悖的,百度認(rèn)為一個(gè)優(yōu)質(zhì)的網(wǎng)站結(jié)構(gòu)應(yīng)該像一張網(wǎng),所有頁面都會(huì)與其他頁面產(chǎn)生鏈接,蜘蛛會(huì)順著一個(gè)頁面遍歷所以頁面。只有入鏈而沒有出鏈的結(jié)構(gòu)對(duì)蜘蛛來說是不友好的。當(dāng)然,整個(gè)網(wǎng)站僅一兩個(gè)網(wǎng)頁只有入鏈沒有出鏈?zhǔn)菬o所謂的,但數(shù)量千萬不要多。

無返回上級(jí)目錄的鏈接:

我們提倡盡量在每個(gè)頁面上使用面包屑導(dǎo)航,以告訴搜索引擎頁面內(nèi)容與首頁的關(guān)系及距離;同時(shí)對(duì)于用戶來說,面包屑導(dǎo)航也是延長用戶平均訪問時(shí)長的重要工具。只有內(nèi)容而沒有返回上級(jí)目錄的頁面就像一本永遠(yuǎn)無法訪問目錄的書,聽起來是不是怪怪的?

錯(cuò)誤的錨文本:

內(nèi)鏈的作用并不僅僅是頁面權(quán)值傳遞和內(nèi)部投票,百度還會(huì)通過錨文本輔助判斷網(wǎng)頁的內(nèi)容,錯(cuò)誤的錨文本很可能會(huì)誤導(dǎo)百度對(duì)于相關(guān)性的計(jì)算,對(duì)搜索排序產(chǎn)生負(fù)面影響。同時(shí)對(duì)于只能通過錨文本來判斷是否要點(diǎn)擊打開新網(wǎng)頁的用戶來說,無疑也是一種傷害。

網(wǎng)站應(yīng)該拒絕哪些外鏈

百度搜索引擎雖然降低了對(duì)超鏈的依賴,但依然沒有放棄對(duì)不同質(zhì)量鏈接的識(shí)別,制定了一套針對(duì)優(yōu)質(zhì)外鏈、普通外鏈、垃圾外鏈、作弊外鏈的識(shí)別原則和方法。在繼續(xù)信任優(yōu)質(zhì)外鏈的同時(shí),加大對(duì)作弊外鏈的打擊,同時(shí)對(duì)部分作弊外鏈的受益站點(diǎn)進(jìn)行打擊。為了避免被百度搜索引擎懷疑為超鏈作弊,建議站長定期檢查站點(diǎn)的外鏈情況,發(fā)現(xiàn)異常及時(shí)通過百度站長平臺(tái)的拒絕外鏈工具進(jìn)行自我保護(hù)。同時(shí)如果你之前有過購買鏈接、群發(fā)外鏈的行為,可以通過拒絕外鏈工具進(jìn)行修正。

那么除了要拒絕被黑網(wǎng)頁發(fā)出的鏈接、買來的鏈接外,還有哪些鏈接應(yīng)該被拒絕呢。

  1. 來自垃圾站群的鏈接:有些黑帽會(huì)通過非法手段在你的站點(diǎn)產(chǎn)生大量頁面,再組織站群發(fā)送外鏈至這批頁面上。這樣的鏈接必須及時(shí)處理。
  2. 來自不相關(guān)低質(zhì)站點(diǎn)群的鏈接:百度認(rèn)為相同主題網(wǎng)站之間的鏈接更友好,所以,如果你的網(wǎng)站被一批其它主題網(wǎng)站鏈接了,一定要及時(shí)查看這批網(wǎng)站的質(zhì)量,如果質(zhì)量不高,盡量拒絕。
使用拒絕外鏈工具還有一些注意事項(xiàng):

  1. 您通過工具拒絕外鏈的需求將無法撤銷或刪除,所以需要謹(jǐn)慎使用
  2. 我們不能保證短時(shí)間內(nèi)就能去掉垃圾作弊外鏈對(duì)網(wǎng)站的負(fù)面影響,清理過程可能長達(dá)數(shù)周,請(qǐng)站長耐心等待

網(wǎng)站變更

網(wǎng)站改版該如何通知百度

為了改變站點(diǎn)運(yùn)營效果,部分站長會(huì)選擇對(duì)網(wǎng)站進(jìn)行改版。百度站長平臺(tái)站在搜索引擎的角度給站長朋友一些建議:首先站長們應(yīng)該明確,網(wǎng)站只要發(fā)生大大的變化(如換域名、子目錄改版為二級(jí)域名等),流量就會(huì)受到損失;其次,百度站長平臺(tái)會(huì)幫助站長盡量將損失降到最低。請(qǐng)站長依次走完以下步驟以減少損失。

第一步:設(shè)置301跳轉(zhuǎn)

使用301跳轉(zhuǎn)進(jìn)行重定向,跳轉(zhuǎn)最好有規(guī)律可循,百度搜索引擎會(huì)自動(dòng)進(jìn)行處理

提醒:301跳轉(zhuǎn)要保持一段時(shí)間,直至新網(wǎng)頁的抓取、收錄、排序達(dá)到預(yù)期。

第二步:使用改版工具

使用百度站長平臺(tái)工具,可加速百度搜索引擎對(duì)301跳轉(zhuǎn)的處理,盡快完成新舊內(nèi)容的銜接。目前改版工具除了支持換域名外,還可以支持站點(diǎn)級(jí)改版和目錄級(jí)改版,都是通過工具的“目錄改版”功能實(shí)現(xiàn)的。

工具地址:http://zhanzhang.baidu.com/rewrite/index

  1. 當(dāng)站點(diǎn)級(jí)改版時(shí),需要在“目錄改版 改版范圍”處提交站點(diǎn)級(jí)首頁URL
    如http://www.example.com/,百度將會(huì)對(duì)該站點(diǎn)下的所有頁面進(jìn)行改版處理。
  2. 當(dāng)站點(diǎn)要進(jìn)行目錄級(jí)改版時(shí),依然在“目錄改版 改版范圍”處進(jìn)行提交,但提交的應(yīng)該是需要改版的目錄,而非站點(diǎn)級(jí)首頁URL。
如提交“http://www.example.com/a/”,百度會(huì)對(duì)http://www.example.com/a/,包括http://www.example.com/a/b/進(jìn)行改版處理。
具體使用方法可參考百度站長平臺(tái)已有的文章《網(wǎng)站改版工具幫助》

網(wǎng)站換域名該如何通知百度

部分站長會(huì)選擇通過換域名來提高站點(diǎn)運(yùn)營效果,但站長們應(yīng)該明確一點(diǎn):網(wǎng)站只要發(fā)生大大的變化(如換域名、子目錄改版為二級(jí)域名等),流量就會(huì)受到損失;其次,百度站長平臺(tái)會(huì)幫助站長盡量將損失降到最低。請(qǐng)站長依次走完以下步驟以減少損失。

第一步:通過301完成新舊內(nèi)容跳轉(zhuǎn)

使用301跳轉(zhuǎn)對(duì)頁面進(jìn)行重定向,不僅首頁需要設(shè)置,舊域名所有頁面都應(yīng)該301指向新域名的相應(yīng)頁面。百度搜索引擎會(huì)自動(dòng)進(jìn)行處理

提醒:原網(wǎng)頁301跳轉(zhuǎn)要保持一段時(shí)間,直至新網(wǎng)頁的抓取、收錄、排序達(dá)到預(yù)期。

第二步:使用改版工具

使用改版工具,可加速百度搜索引擎對(duì)301跳轉(zhuǎn)的處理,盡快完成新舊內(nèi)容的銜接。

工具地址:http://zhanzhang.baidu.com/rewrite/index

要求站長在百度站長平臺(tái)驗(yàn)證舊網(wǎng)站和新網(wǎng)站,驗(yàn)證生效后在改版工具中選擇“域名改版”,填入舊網(wǎng)站域名后進(jìn)行確認(rèn)提交。

*改版工具還提供站點(diǎn)級(jí)改版、目錄級(jí)改版。具體使用方法可參考百度站長平臺(tái)已有的文章《網(wǎng)站改版工具幫助》

第三步:使用抓取異常工具

已在改版工具中提交改版規(guī)則后,隨時(shí)關(guān)注新內(nèi)容的抓取情況。如果不符合預(yù)期,可使用抓取異常工具查找部分原因,排除由服務(wù)器、運(yùn)營商、DNS、IP、UA等導(dǎo)致的抓取不及時(shí)。

工具地址: http://zhanzhang.baidu.com/crawl/index

具體可參考百度站長平臺(tái)已有文章《抓取異常工具幫助》,里面對(duì)每項(xiàng)因素都有詳細(xì)說明和解決辦法。

第四步:使用抓取頻次工具

抓取頻次工具提供站點(diǎn)在百度近一個(gè)月的天級(jí)抓取量曲線圖,如果新內(nèi)容抓取量不符合預(yù)期可在工具中進(jìn)行反饋,spider會(huì)根據(jù)站長的申請(qǐng)和實(shí)際情況對(duì)抓取頻次進(jìn)行調(diào)整。

工具地址:http://zhanzhang.baidu.com/pressure/index

具體使用方法可參考百度站長平臺(tái)已有文章《抓取頻次工具幫助》

第五步:使用百度索引量工具

一個(gè)站點(diǎn)的被抓取量多與少并不是重點(diǎn),重點(diǎn)是索引量,只有被建為索引的頁面才有可能展現(xiàn)在用戶面前。站長可以通過百度索引量工具來對(duì)比新舊內(nèi)容被建索引的數(shù)量,來確認(rèn)改版后站點(diǎn)在百度搜索引擎的收錄是否已恢復(fù)正常。

工具地址:http://zhanzhang.baidu.com/indexs/index

該工具使用起來非常簡單,可參考百度站長平臺(tái)之前的文章《百度索引量工具幫助》

網(wǎng)站換空間(IP)該如何通知百度

在與站長朋友私下交流中,站長表示:最怕改版,最怕?lián)Q空間換IP,每次都是萬不得已身不由己。改版還好些,有改版工具可以使用。換了空間和IP都不知道怎么通知百度。其實(shí),登錄百度站長平臺(tái),使用抓取診斷工具,換空間和IP真的不是愁事。

抓取診斷工具會(huì)檢查站點(diǎn)與百度的連接是否暢通,若站長發(fā)現(xiàn)IP信息還是老舊的,可以通過“報(bào)錯(cuò)”通知百度搜索引擎更新IP,如下圖所示:


重要提示:由于spider精力有限,如遇報(bào)錯(cuò)后網(wǎng)站IP依舊沒有變化,站長可進(jìn)行多次嘗試,直至達(dá)到預(yù)期。
網(wǎng)站安全
UGC站點(diǎn)如何進(jìn)行防護(hù)工作
由于大多數(shù)UGC建站系統(tǒng)存在漏洞,攻克技術(shù)成本較低,且群發(fā)軟件價(jià)格低廉,容易被作弊者利用,近期我們發(fā)現(xiàn)大量UGC站點(diǎn)被群發(fā)的垃圾信息困擾。這些垃圾群發(fā)內(nèi)容無孔不入,除論壇、博客等傳統(tǒng)的UGC站點(diǎn)受到困擾外,現(xiàn)已蔓延到微博、SNS、B2B商情頁、公司黃頁、分類信息、視頻站、網(wǎng)盤等更多領(lǐng)域內(nèi),甚至連新興的分享社區(qū)也受到了影響。從以前的論壇帖子、博客日志,擴(kuò)展到供求信息頁、視頻頁、用戶資料頁,這些任何由用戶填寫和生成內(nèi)容的地方,都會(huì)被作弊者發(fā)掘利用,形成大量的UGC性質(zhì)的垃圾頁面。
搜索引擎在發(fā)現(xiàn)UGC性質(zhì)的垃圾頁面后必將做出相應(yīng)應(yīng)對(duì),但對(duì)真正操作群發(fā)的作弊者很難有效的打擊,所以作弊者容易利用UGC站點(diǎn)極低成本且自身安全這些特點(diǎn),做出更多危害網(wǎng)站、危害用戶、危害搜索引擎的行為。若網(wǎng)站自身管理不嚴(yán)控制不力,很容易成為垃圾內(nèi)容的溫床;有些網(wǎng)站為了短期流量而對(duì)垃圾內(nèi)容置之不理,這無異于飲鴆止渴。網(wǎng)站不應(yīng)僅僅是平臺(tái)的提供者,更應(yīng)該是內(nèi)容的管理者,積極維護(hù)網(wǎng)站自身質(zhì)量非常重要。若網(wǎng)站任由垃圾內(nèi)容滋長,不僅會(huì)影響網(wǎng)站的用戶體驗(yàn),同時(shí)也會(huì)破壞網(wǎng)站口碑和自身品牌建設(shè),造成正常用戶流失,嚴(yán)重時(shí),還會(huì)使搜索引擎降低對(duì)網(wǎng)站的評(píng)價(jià)。
對(duì)于作弊者來說,在UGC站點(diǎn)上發(fā)布垃圾內(nèi)容的目的就是被搜索引擎收錄,如果不能讓垃圾頁面在網(wǎng)站和搜索引擎上消失,他們依然會(huì)持續(xù)不斷地產(chǎn)生更多垃圾內(nèi)容。百度站長平臺(tái)希望和站長一起打擊垃圾頁面,幫助網(wǎng)站良性發(fā)展,共同維護(hù)互聯(lián)網(wǎng)生態(tài)環(huán)境。

一,UGC垃圾典型case
1、與網(wǎng)站或論壇版塊主題不符的內(nèi)容
2、欺騙搜索引擎用戶的內(nèi)容

二,UGC管理員該怎么做

1,刪除垃圾內(nèi)容,并將這些頁面設(shè)置為404頁面后,及時(shí)通過百度站長平臺(tái)的死鏈工具提交死鏈列表
2,提高注冊(cè)用戶門檻,限制機(jī)器注冊(cè)

3,嚴(yán)控機(jī)器發(fā)帖行為,如使用驗(yàn)證碼、限制短時(shí)間內(nèi)連續(xù)發(fā)帖等
4,建立黑名單機(jī)制,將群發(fā)常用詞、廣告電話和網(wǎng)址等加入黑名單,對(duì)含有黑名單內(nèi)容的帖子進(jìn)行限制或清除。黑名單應(yīng)該不斷維護(hù)
5,對(duì)站內(nèi)異常內(nèi)容進(jìn)行監(jiān)控,發(fā)現(xiàn)爆增數(shù)據(jù)后及時(shí)查找原因
6,對(duì)站點(diǎn)內(nèi)用戶的行為進(jìn)行監(jiān)控

7,不允許發(fā)布帶有可執(zhí)行代碼的內(nèi)容,避免彈窗、跳轉(zhuǎn)等嚴(yán)重影響用戶體驗(yàn)的情況發(fā)生。
8,對(duì)部分UGC位置提及的鏈接,使用“nofollow”進(jìn)行標(biāo)記,如:bbs簽名內(nèi)的鏈接、BLOG回復(fù)ID自置的鏈接
9,論壇中的廣告、灌水版塊,建議加上權(quán)限限制,或者禁止搜索引擎收錄。
10,關(guān)注建站程序的安全更新,及時(shí)安裝補(bǔ)丁程序。保障用戶賬號(hào)安全,避免發(fā)生盜用正常用戶賬號(hào)或歷史沉寂用戶賬號(hào)發(fā)布垃圾內(nèi)容的情況發(fā)生。
網(wǎng)站安全之防止被黑
這里所說的被黑,指黑客通過網(wǎng)站漏洞篡改網(wǎng)頁內(nèi)容、為網(wǎng)站惡意添加許多垃圾頁面,內(nèi)容往往與博彩、游戲等熱門關(guān)鍵詞有關(guān),然后利于網(wǎng)站在搜索引擎中的天然優(yōu)勢騙取更多流量?;ヂ?lián)網(wǎng)上所有網(wǎng)站其實(shí)都存在被黑的可能,尤其是已在搜索引擎中獲得較好表現(xiàn)的站點(diǎn)更要注意,千萬不要讓被黑令自己的心血付之東流。
一,如何判斷網(wǎng)站被黑
先通過外界對(duì)網(wǎng)站進(jìn)行觀察,如果有如下現(xiàn)象,那您的網(wǎng)站可能被黑了

  1. 通過百度站長平臺(tái)的索引量工具,發(fā)現(xiàn)站點(diǎn)收錄量大增;再通過搜索關(guān)鍵詞工具發(fā)現(xiàn),站點(diǎn)獲得流量的關(guān)鍵詞中有很多與本站點(diǎn)無關(guān)。
  2. 通過Site語法查詢站點(diǎn),顯示搜索引擎收錄了大量非本站應(yīng)有的頁面。
    注:site查詢結(jié)合一些常見的色情、游戲、境外博彩類關(guān)鍵字,可幫助站長更快的找到異常頁面,例如“site:http://www.abcxyz.com 博彩”
  3. 從百度搜索結(jié)果中點(diǎn)擊站點(diǎn)頁面,跳轉(zhuǎn)到了其他站點(diǎn)。
  4. 站點(diǎn)內(nèi)容在搜索結(jié)果中被提示存在風(fēng)險(xiǎn)。
從搜索引擎帶來的流量短時(shí)間內(nèi)異常暴增。

二,進(jìn)一步驗(yàn)證網(wǎng)站是否被黑
通過上述方法站長懷疑自己的網(wǎng)站被黑了,那么該如何對(duì)黑出來的內(nèi)容進(jìn)行排查呢?

  1. 分析系統(tǒng)和服務(wù)器日志,檢查自己站點(diǎn)的頁面數(shù)量、用戶訪問流量等是否有異常波動(dòng),是否存在異常訪問或操作日志;
  2. 檢查網(wǎng)站文件是否有不正常的修改,尤其是首頁等重點(diǎn)頁面;
  3. 網(wǎng)站頁面是否引用了未知站點(diǎn)的資源(圖片、JS等),是否被放置了異常鏈接;
  4. 檢查網(wǎng)站是否有不正常增加的文件或目錄;
  5. 檢查網(wǎng)站目錄中是否有非管理員打包的網(wǎng)站源碼、未知txt文件等;
  6. 使用百度站長平臺(tái)抓取診斷工具,診斷網(wǎng)頁是否被加了黒鏈、隱藏文本
    每個(gè)站點(diǎn)每月可使用300次,抓取結(jié)果只展現(xiàn)百度蜘蛛可見的前200KB內(nèi)容
【重要提示】若直接訪問網(wǎng)站時(shí)一切正常,但在百度的搜索結(jié)果展現(xiàn)了異常的快照內(nèi)容,這可能是黑客做了特殊處理,只讓百度蜘蛛抓取到異常的頁面,以此來增加隱蔽性,讓站長難以發(fā)現(xiàn);同理,若直接訪問網(wǎng)站正常,但從百度搜索結(jié)果頁進(jìn)行訪問時(shí),出現(xiàn)了異常頁面,這是黑客針對(duì)百度來源(refer)做了特殊處理

三,網(wǎng)站被黑怎么辦

  1. 立即停止網(wǎng)站服務(wù),避免用戶繼續(xù)受影響,防止繼續(xù)影響其他站點(diǎn)(建議使用503返回碼)。
  2. 如果同一主機(jī)提供商同期內(nèi)有多個(gè)站點(diǎn)被黑,您可以聯(lián)系主機(jī)提供商,敦促對(duì)方做出應(yīng)對(duì)。
  3. 清理已發(fā)現(xiàn)的被黑內(nèi)容,將被黑頁面設(shè)置為404死鏈,并通過百度站長平臺(tái)死鏈提交工具進(jìn)行提交。
  4. 排查出可能的被黑時(shí)間,和服務(wù)器上的文件修改時(shí)間相比對(duì),處理掉黑客上傳、修改過的文件;檢查服務(wù)器中的用戶管理設(shè)置,確認(rèn)是否存在異常的變化;更改服務(wù)器的用戶訪問密碼。
    注:可以從訪問日志中,確定可能的被黑時(shí)間。不過黑客可能也修改服務(wù)器的訪問日志。
  5. 做好安全工作,排查網(wǎng)站存在的漏洞,防止再次被黑。
網(wǎng)站安全之域名被劫持
2014年5月14日,前瞻網(wǎng)官方微博發(fā)布公告,宣布域名被盜損失過億。在黑客遍行的今天,域名被盜被劫持幾乎每天都在發(fā)生。百度搜索引擎希望站長在關(guān)注收錄、流量、變現(xiàn)的同時(shí),多多關(guān)注域名安全,畢竟域名安全是生存之本。在之前與站長接觸中,發(fā)現(xiàn)站長都有如下心理:域名控制權(quán)完全在服務(wù)商,我們處于被動(dòng)的一方。那么站長就真的什么都不用做、什么都無法做了么?

一,域名被劫持的嚴(yán)重后果

  1. 域名被解析到其它地址,用戶無法正常訪問,網(wǎng)站流量受損
  2. 通過泛解析生成大量子域名,共同指向其它地址(往往是惡意垃圾網(wǎng)站)
  3. 域名被解析到惡意釣魚網(wǎng)站,導(dǎo)致用戶財(cái)產(chǎn)損失
  4. 當(dāng)域名被劫持后的內(nèi)容干擾搜索結(jié)果時(shí),為保障用戶的使用體驗(yàn)和安全,百度搜索引擎會(huì)暫時(shí)關(guān)閉對(duì)域名的收錄和展示,待嚴(yán)格審核確認(rèn)后才會(huì)再度放開
二,如何降低域名被劫持風(fēng)險(xiǎn),減少損失

  1. 為域名注冊(cè)商和注冊(cè)用郵箱設(shè)置復(fù)雜密碼,且經(jīng)常更換。使用單獨(dú)的DNS服務(wù),也需要對(duì)密碼進(jìn)行上述設(shè)置。同時(shí)注意不要在多個(gè)重要注冊(cè)地使用相同的用戶名和密碼。
  2. 將域名更新設(shè)置為鎖定狀態(tài),不允許通過DNS服務(wù)商網(wǎng)站修改記錄
    ? ? ? ?*使用此方法后,需要做域名解析都要通過服務(wù)商來完成,時(shí)效性較差
  3. 定期檢查域名帳戶信息、域名whois信息,每天site網(wǎng)站檢查是否有預(yù)期外網(wǎng)頁,或使用百度云觀測進(jìn)行監(jiān)控——當(dāng)域名被解析到惡意站點(diǎn)時(shí)可以第一時(shí)間收到報(bào)警(百度云觀測關(guān)于域名安全的介紹)
  4. 網(wǎng)站運(yùn)營和優(yōu)化人員經(jīng)常詳細(xì)檢查網(wǎng)站索引和外鏈信息,有異常一定要檢查清楚
三,域名被劫持后該怎么做

  1. 立即修改域名服務(wù)商和郵箱密碼,使用復(fù)雜度高的密碼且經(jīng)常更換
  2. 刪除不屬于你的DNS解析,恢復(fù)DNS設(shè)置
  3. 如果使用的是第三方DNS服務(wù),應(yīng)立即修改第三方DNS服務(wù)端帳戶密碼,鎖定帳戶信息,開啟帳戶短信郵箱類提醒
  4. 收集全部被非法添加的頁面并設(shè)置404,使用百度站長平臺(tái)工具提交死鏈
  5. 如果該服務(wù)商下域名經(jīng)常出現(xiàn)被劫持事件,可考慮更換更安全穩(wěn)定的服務(wù)商。有能力的網(wǎng)站可自建DNS服務(wù),自主運(yùn)維自負(fù)風(fēng)險(xiǎn)
其他
關(guān)于網(wǎng)站建設(shè),其實(shí)還有很多零碎的問題要注意,所以在這里單啟一篇,日后再根據(jù)反饋不斷補(bǔ)充完善。
二級(jí)域名和子目錄,哪個(gè)更有利于SEO
一,二級(jí)域名的特點(diǎn)
搜索引擎往往將二級(jí)域名當(dāng)作一個(gè)獨(dú)立的網(wǎng)站看待,同時(shí)會(huì)視情況將主域名的評(píng)價(jià)傳遞一部分給二級(jí)域名。使用二級(jí)域名會(huì)使同domain下站點(diǎn)變多,但是每個(gè)站點(diǎn)的體量變小。二級(jí)域名的SEO特點(diǎn)是:

  1. 二級(jí)域名對(duì)用戶來說也是一個(gè)完整的域名,顯得更有權(quán)威性
  2. 二級(jí)域名網(wǎng)頁之間相關(guān)性更強(qiáng),對(duì)于搜索引擎來說主題更集中
  3. 相較子目錄更易形成品牌
二,子目錄的特點(diǎn)
將不同內(nèi)容通過子目錄的情況放在同一個(gè)網(wǎng)站下,會(huì)使網(wǎng)站體量變得越來越大,可以使網(wǎng)站積累更多的投票:

  1. 相較二級(jí)域名,可以更好地繼承主域名的評(píng)價(jià)數(shù)據(jù)
  2. 與站點(diǎn)關(guān)系更密切,同時(shí)不失靈活,搜索引擎對(duì)站點(diǎn)內(nèi)容的識(shí)別早以細(xì)化到目錄級(jí)別
三,二級(jí)域名與子目錄的選擇
選擇使用二級(jí)域名還是子目錄來分配網(wǎng)站內(nèi)容,對(duì)網(wǎng)站在搜索引擎中的表現(xiàn)會(huì)有較大的影響,為此百度站長平臺(tái)建議:

  1. 在某個(gè)頻道的內(nèi)容沒有豐富到可以當(dāng)作一個(gè)獨(dú)立站點(diǎn)存在之前,使用目錄形式;等頻道下積累了足夠的內(nèi)容,再通過改版成二級(jí)域名的形式。
    一個(gè)網(wǎng)頁能否排到搜索引擎結(jié)果的前面,“出身”很重要,如果出自一個(gè)站點(diǎn)評(píng)價(jià)較高的網(wǎng)站,那排到前面的可能性就較大,反之則越小。通常情況下,二級(jí)域名會(huì)從主站點(diǎn)繼承一部分權(quán)重,繼承多少視二級(jí)域名質(zhì)量而定。
    在內(nèi)容沒有豐富到可以作為一個(gè)獨(dú)立站點(diǎn)之前,使用子目錄更能在搜索引擎中獲得較好表現(xiàn)。
  2. 內(nèi)容差異較大、關(guān)聯(lián)度不高的內(nèi)容,建立使用二級(jí)域名的形式。
    搜索引擎會(huì)識(shí)別網(wǎng)站的主題,如果網(wǎng)站中各子目錄的內(nèi)容關(guān)聯(lián)度不高,可能導(dǎo)致搜索引擎錯(cuò)誤地判斷網(wǎng)站的主題。所以,關(guān)聯(lián)度不高的內(nèi)容放在不同的二級(jí)域名中,可以幫助搜索引擎更好的理解網(wǎng)站的主題。
  3. 二級(jí)域名間的服務(wù)器權(quán)限應(yīng)該嚴(yán)格控制,http://a.domain.com下的內(nèi)容,最好不能域名替換通過http://b.domain.com訪問。如:http://a.domain.com/abc.html? 不應(yīng)該通過http://b.domain.com/abc.html訪問到。
    二級(jí)域名的內(nèi)容能夠互相訪問,可能會(huì)被搜索引擎當(dāng)作重復(fù)內(nèi)容進(jìn)行去重處理,保留的URL不一定能符合站長預(yù)期。
  4. 不要濫用二級(jí)域名
    沒有豐富的內(nèi)容就大量啟用二級(jí)域名,極容易被搜索引擎當(dāng)作作弊行為懲罰。
多域名同內(nèi)容的常見問題
網(wǎng)站在生存發(fā)展中會(huì)遇到很多問題,會(huì)因?yàn)楦鞣N原因產(chǎn)生不同的域名,而這些域名的內(nèi)容卻都是相同的。百度一直在說拒絕重復(fù)內(nèi)容,那么,多域名同內(nèi)容是否會(huì)對(duì)SEO產(chǎn)生負(fù)影響呢?我們收集了眾多站長對(duì)多域名同內(nèi)容的問題后,請(qǐng)百度spider專家做了統(tǒng)一解答,現(xiàn)公布出來供各站長參考。
問:多個(gè)域名指向同一個(gè)域名算是作弊么?
答:如果某公司從品牌保護(hù)或長遠(yuǎn)發(fā)展角度出發(fā),注冊(cè)了多個(gè)域名,且多域名301重定向指向一個(gè)常用域名,那此行為本身不屬于作弊。但是如果進(jìn)行301重定向的多域名本身有作弊行為,那么被指向的域名有可能受到牽連。
問:多個(gè)域名同內(nèi)容是否有利于提高排名?
答:此舉非常不利于提高排名,因?yàn)槎鄠€(gè)域名會(huì)分散原本應(yīng)該屬于單獨(dú)域名的外鏈進(jìn)而影響權(quán)重,不利于單獨(dú)域名獲得更好的排名。
問:我們先推個(gè)測試域名,走上正軌后再啟用正式域名,會(huì)有什么影響嗎?
答:如果兩個(gè)域名的內(nèi)容完全一樣,對(duì)正式域名的收錄可能會(huì)有影響。搜索引擎會(huì)認(rèn)為這兩個(gè)網(wǎng)站重復(fù),在已經(jīng)收錄了前者的前提下,會(huì)對(duì)后者限制收錄。的確曾經(jīng)有某理財(cái)網(wǎng)站先搞一個(gè)臨時(shí)域名在搜索引擎試水,結(jié)果等正牌域名上線后卻遲遲得不到收錄的事情發(fā)生。
問:如果公司已經(jīng)有多個(gè)域名是相同內(nèi)容該怎么處理?
答:先確認(rèn)一個(gè)好記易懂的域名作為“唯一域名”,進(jìn)行重點(diǎn)宣傳推介,其余的域名也千萬不能放任自流,尤其是當(dāng)測試域名已經(jīng)有了較好的收錄和排位時(shí),可以設(shè)置301重定向,指向唯一域名。同時(shí)登錄百度站長平臺(tái)對(duì)新舊網(wǎng)站進(jìn)行驗(yàn)證,然后在網(wǎng)站改版工具中進(jìn)行相應(yīng)的操作,可以讓“唯一域名”繼承原域名已獲得的權(quán)重。

關(guān)鍵詞:平臺(tái)

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉