国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 建站知識 > 飛翔豬:揭秘搜索引擎收錄問題

飛翔豬:揭秘搜索引擎收錄問題

時間:2022-07-20 08:15:02 | 來源:建站知識

時間:2022-07-20 08:15:02 來源:建站知識

google04年推出sandbox后,百度終于也在去年提高了新站收錄的標(biāo)準(zhǔn),seo的門檻變得比以前更高了,很多時候新站的收錄都成了一個問題,為什么搜索引擎不收錄我的網(wǎng)站呢?為什么我的網(wǎng)站收錄比其他人慢?根據(jù)常見程度排序,搜索引擎收錄問題歸納起來有以下幾方面的原因,大家可以對照著看自己的網(wǎng)站屬于哪一種:

1、內(nèi)容違法

這種行為一般較罕見,違反國家法律以及法規(guī)的網(wǎng)頁,一般搜索引擎是不會收錄的,百度在"站長FAQ"()中明確指出不收錄"不符合國家法律和法規(guī)規(guī)定"的網(wǎng)頁, 谷歌在這方面還是在努力中,但是隨著google中國化進程的深入,對于違法內(nèi)容的打擊勢必越來越嚴(yán)厲,如果大家有興趣可以對照搜索幾個色情論壇……這個具體我就不舉例子了。

2、robots協(xié)議有誤

由于robots協(xié)議的復(fù)雜性,導(dǎo)致有小部分站長在創(chuàng)建robots協(xié)議的出現(xiàn)錯誤誤導(dǎo)了spider,常見的錯誤有以下幾種:

(1)、 顛倒了順序

錯誤寫成:

User-agent: *

Disallow: GoogleBot

正確的應(yīng)該是:

User-agent: GoogleBot

Disallow: *

(2)、把多個禁止命令放在一行中

例如錯誤寫成:

Disallow: /css/ /cgi-bin/ /images/

正確的應(yīng)該是:

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

(3)、行前有大量空格

例如寫成:

Disallow: /cgi-bin/

盡管在標(biāo)準(zhǔn)沒有談到這個,但是這種方式很容易出問題。

(4)、404重定向到另外一個頁面

當(dāng)Robot訪問很多沒有設(shè)置robots.txt文件的站點時,會被自動404重定向到另外一個Html頁面。這時Robot常常會以處理robots.txt文件的方式處理這個Html頁面文件。雖然一般這樣沒有什么問題,但是最好能放一個空白的robots.txt文件在站點根目錄下。

(5)、采用大寫。例如

USER-AGENT: EXCITE

DISALLOW:

雖然標(biāo)準(zhǔn)是沒有大小寫的,但是目錄和文件名應(yīng)該小寫:

user-agent:GoogleBot

disallow:

(6)、語法中只有Disallow,沒有Allow

錯誤的寫法是:

User-agent: Baiduspider

Disallow: /john/

allow: /jane/

(7)、忘記了斜杠/

錯誤寫作:

User-agent: Baiduspider

Disallow: css

正確的應(yīng)該是:

User-agent: Baiduspider

Disallow: /css/

……

對于robots協(xié)議,飛翔豬建議大家創(chuàng)建robots協(xié)議之前仔細閱讀一些robots協(xié)議的教程,例如百度的幫助文件"禁止搜索引擎收錄的方法()" 就十分詳細,google的網(wǎng)站管理員工具中,也有"分析 robots.txt","生成 robots.txt"兩個工具,大家可以充分利用起來。

3、網(wǎng)站設(shè)計問題

這種情況在前幾年的企業(yè)站中比較常見,最常見的情況是,整站flash,整站js,蜘蛛無法抓取,對于這樣的網(wǎng)站,改版是最好的選擇,相關(guān)討論很多,這邊就不贅述了

4、網(wǎng)站不穩(wěn)定

網(wǎng)站不穩(wěn)定影響收錄的情況是相對比較多見,他對spider的抓取有2種影響,一種是,剛好spider抓取頁面的時候你的網(wǎng)站無法訪問,spider認(rèn)為你的網(wǎng)站沒有內(nèi)容,相當(dāng)長的一段時間不會繼續(xù)訪問,造成收錄延遲,或者是spider抓取的過程中遇到了太多的錯誤,某一頁面時而可以被抓取時而不可以被抓取,讓搜索引擎認(rèn)為你無法為訪問者提供有用的內(nèi)容——畢竟如果用戶從搜索結(jié)果點擊進去以后出現(xiàn)一個404頁面是讓搜索引擎很難接受的——網(wǎng)站不穩(wěn)定的原因也包括2種情況,一種是服務(wù)器不穩(wěn)定,很多站長貪圖便宜,使用一些比較便宜的主機,往往每臺機子上放置了數(shù)百個網(wǎng)站,建議站長最好選擇一些比較知名的idc購買主機,譬如新網(wǎng)互聯(lián),時代互聯(lián),西部數(shù)碼。還有一種情況,網(wǎng)站的程序不穩(wěn)定,例如 長期無法被收錄,從iis訪問日志中,發(fā)現(xiàn)蜘蛛抓取的頁面出現(xiàn)了多次無法訪問的情況,原來該站上線之初,由于程序員在編寫程序時,不注意程序的執(zhí)行效率的優(yōu)化,導(dǎo)致一部分動態(tài)頁面占用了過多的資源,訪問用戶一多馬上出現(xiàn)Service Unavailable 提示。對于這種情況,思路就是排查占用過多資源的頁面,一般而言,程序的執(zhí)行時間越長,占用的資源也就越多,越容易出現(xiàn)Service Unavailable錯誤,一般的動態(tài)頁面執(zhí)行時間不應(yīng)該超過325ms,因此我建議該站管理員在動態(tài)頁面加入一段查看程序執(zhí)行時間的代碼,代碼如下

程序頂部:starttime=timer

程序尾部:response.Write (timer- starttime)&"ms"

經(jīng)過排查了幾個執(zhí)行時間超過350ms的問題頁面以后,網(wǎng)站訪問情況趨于穩(wěn)定,一個更新周期以后網(wǎng)站就被收錄了。

5、關(guān)聯(lián)懲罰

所謂城門失火,殃及池魚,如果某個網(wǎng)站被搜索引擎封殺,同時你的網(wǎng)站又不幸地被搜索引擎判定,2者之間有密切的關(guān)系,那么很遺憾,收錄就是不可能的事情了,特別是百度,對于一些站群,垃圾站,seo過度站點的封殺極為嚴(yán)厲。關(guān)聯(lián)懲罰分為三種,域名關(guān)聯(lián),服務(wù)器關(guān)聯(lián),鏈接關(guān)聯(lián)。

(1)、域名關(guān)聯(lián)。Google在早期的一項專利說明文檔中有提到,whois信息可以被搜索引擎檢索到并利用于結(jié)果排序中。因此,搜索引擎可以通過whois信息判斷某個網(wǎng)站的歸屬,譬如你制作了一個垃圾站被搜索引擎封殺,而后,又以相同的whois申請了一個、 的域名做另外一個網(wǎng)站,那么可能不會被收錄,因為搜索引擎根據(jù)whois資料里的信息判斷2個網(wǎng)站的所有者是相同的,當(dāng)然,這邊只是舉例而已,一般而言,因為1個站被懲罰而觸發(fā)域名關(guān)聯(lián)的幾率是比較小的。有個群友的網(wǎng)站,17washu點com,whois資料與他之前所做過的幾個被k的垃圾站相同,因此該站迄今仍未收錄,為了防止轉(zhuǎn)載的站點誤鏈此站上面域名做了處理。對于這種情況,建議各位站長在申請域名的時候,不要每個域名的whois信息都一樣。

(2)、服務(wù)器/ip關(guān)聯(lián)。如果你和被搜索引擎懲罰過的網(wǎng)站處于同一臺服務(wù)器,或者共用一個ip,那么搜索引擎可能不會收錄你的內(nèi)容。不過在國內(nèi),由于多數(shù)使用的是虛擬主機,因此幾百個站共用一個ip或者一臺服務(wù)器也是常見的,這種情況無需擔(dān)憂,但是如果是與朋友合租,一臺服務(wù)器只放了幾個站點,其中有個站點是被懲罰過的,那么就要小心了,應(yīng)當(dāng)考慮更換服務(wù)器。例如不久前朋友讓我看的一個站,長期以來一直沒有被收錄,排除了其他因素以后,通過的同ip反查功能發(fā)現(xiàn),該站和1個被k的qq空間站,還有一個幾個月沒被收錄的*站為鄰,這才知道未被收錄的原因。更換了服務(wù)器以后,本次更新周期就被收錄了。

(3)、鏈接關(guān)聯(lián)。Goolge 的"網(wǎng)站管理員指南"()中提到,"請不要參與旨在提高您的網(wǎng)站排名或 PageRank 的鏈接方案。 尤其要避免鏈接到違禁的網(wǎng)站或"惡鄰"",明確指出鏈接向有問題的網(wǎng)站,可能導(dǎo)致排名或者收錄問題。這就要求站長在選擇友情鏈接的時候擦亮眼睛,除了看pr以外,還應(yīng)該查看網(wǎng)站在百度等其他搜索引擎的收錄情況,網(wǎng)站本身的內(nèi)容質(zhì)量,避免與"惡鄰"為伍。

6、內(nèi)容質(zhì)量不高

百度在"站長FAQ"中指出,百度不收錄"復(fù)制自互聯(lián)網(wǎng)上的高度重復(fù)性的內(nèi)容。" Goolge 的"網(wǎng)站管理員指南"也用了專門一節(jié)談?wù)?quot;原創(chuàng)內(nèi)容很少或非原創(chuàng)內(nèi)容" ,如果你的網(wǎng)站內(nèi)容是互聯(lián)網(wǎng)上轉(zhuǎn)載過很多遍的,或者根本沒有內(nèi)容,那么spider可能會一去不復(fù)返,例如此站建立于今年7月初,baiduspider從7月14日光顧一次抓取了300多個頁面以后就沒有再光顧過,后來我仔細查看了該站的iis日志,發(fā)現(xiàn)了baiduspider光顧的日志如下:

[18822] 2008-07-14 08:48:32 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=畢節(jié) 80 - 61.135.168.160 Baiduspider+(+) 200 0 0

[18823] 2008-07-14 08:48:32 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=延安 80 - 61.135.168.160 Baiduspider+(+) 200 0 0

[18837] 2008-07-14 08:48:36 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=鄂州 80 - 61.135.168.160 Baiduspider+(+) 200 0 0

[18839] 2008-07-14 08:48:38 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /bus.asp id=136 80 - 61.135.168.160 Baiduspider+(+) 200 0 0

[18840] 2008-07-14 08:48:38 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=陽江 80 - 61.135.168.160 Baiduspider+(+) 200 0 0

非常遺憾的是,baiduspider所抓取的頁面都只是程序自動生成的一個框架頁(如/station.asp?c=陽江),并沒有實質(zhì)的內(nèi)容!這就導(dǎo)致了百度認(rèn)為這個網(wǎng)站目前根本沒有價值,長達22天未再訪問此站。對此,我建議大家,網(wǎng)站還未做好,內(nèi)容還未填充的框架,盡量不要給提交給百度或者與朋友交換友情鏈接,這樣將導(dǎo)致搜索引擎認(rèn)為你網(wǎng)站當(dāng)前不具備收錄價格,而無法在當(dāng)次收錄周期中被收錄。

7、spider入口不足

有部分網(wǎng)站能夠很快被搜索引擎收錄,而有部分網(wǎng)站在內(nèi)容完全的情況下,卻要一兩個月才會被搜索引擎收錄,這里面,牽引蜘蛛去抓取網(wǎng)站是一個很重要的方面,一個新站建成以后,比如告知搜索引擎該站的網(wǎng)址,以往都是采用向搜索引擎提交網(wǎng)址的方式告知,如百度的提交入口,google的網(wǎng)站提交入口,但是傳說,手工提交網(wǎng)址容易遭到人工審核,遭遇不必要的麻煩,因此現(xiàn)在更多的是不提交,在一些網(wǎng)站上做個鏈接,讓spider自然地循著鏈接抓取到新網(wǎng)站的內(nèi)容,這里有一個常見的錯誤是,很多人以為隨便做個鏈接就可以,結(jié)果是蜘蛛在你鏈接做好以后1,2個月才姍姍來遲,收錄那更是遙遠的事情了,指向新站的鏈接來源,應(yīng)該是spider訪問頻繁,而且最好內(nèi)容和你的網(wǎng)站相關(guān)的,spider訪問頻繁,你的鏈接才會更快地被spider所識別,內(nèi)容和新站相關(guān),鏈接才會被spider認(rèn)為比較有抓取價值。

以上7個方面,是筆者在工作中遇到的一些搜索引擎收錄問題整理而成,成文倉促難免遺漏,敬請高手不吝賜教,歡迎到筆者博客 多提寶貴意見,同時,Seo暨網(wǎng)站運營交流qq群54338195,歡迎您的加入,以上內(nèi)容為本文不可分割之部分,轉(zhuǎn)載須保留。

關(guān)鍵詞:收錄,索引,飛翔

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉