国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 電子商務(wù) > 火車(chē)頭談網(wǎng)站的采集與防采集

火車(chē)頭談網(wǎng)站的采集與防采集

時(shí)間:2023-02-16 22:28:02 | 來(lái)源:電子商務(wù)

時(shí)間:2023-02-16 22:28:02 來(lái)源:電子商務(wù)

安徽互聯(lián)網(wǎng)聯(lián)盟(ahunion.org)主辦的站長(zhǎng)講座不知不覺(jué)到了第十二期。上期的講座獲得了眾多參與站長(zhǎng)很高的贊譽(yù)也讓更多的站長(zhǎng)積極的加入到講座群內(nèi)來(lái),目前在國(guó)內(nèi)最知名的網(wǎng)站采集軟件肯定就似乎火車(chē)頭采集器(locoy.com)了,火車(chē)采集器(LocoySpider)是一個(gè)功能強(qiáng)大的數(shù)據(jù)采集軟件.使用它,您可以很容易的從網(wǎng)頁(yè)上抓取文字,圖片,文件等資源.目前是國(guó)內(nèi)使用率最高的網(wǎng)站采集軟件,前不久剛推出了2009的最新版,深受廣大站長(zhǎng)的喜愛(ài)。由于該采集器的創(chuàng)始人李進(jìn)斌正好是安徽老鄉(xiāng),前不久去年底的安徽站長(zhǎng)聚會(huì)上有過(guò)合作,所以李兄很爽快的就答應(yīng)了老K我來(lái)和站長(zhǎng)朋友們聊聊,由于李兄是技術(shù)出生打字速度不快,所以在算算的一個(gè)半小時(shí)內(nèi)說(shuō)的內(nèi)容不太多,但是非常精辟,大家看了便明白了,希望能給諸位站長(zhǎng)帶來(lái)幫助。由于講座主群已滿 新到站長(zhǎng)可加直播群:47744157進(jìn)行專題講座 我們隨時(shí)會(huì)T從來(lái)不發(fā)言的站長(zhǎng) 讓更多想學(xué)習(xí)的站長(zhǎng)進(jìn)來(lái)。

本次講座文字直播地址:

一、談火車(chē)頭采集器的由來(lái)

火車(chē)頭:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當(dāng)時(shí)也是和大家一樣,個(gè)人站長(zhǎng),添加管理維護(hù)網(wǎng)站很辛苦,一篇篇修改復(fù)制發(fā)布最開(kāi)始也是接觸dede 然后發(fā)現(xiàn)他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì)php和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現(xiàn)在的采集,其實(shí)采集只能替代站長(zhǎng)部分手工的操作。我們不建議大規(guī)模得制造垃圾站(全盤(pán)得采集復(fù)制別人的站點(diǎn)),所以我們現(xiàn)在的軟件的功能越做越多,但新用戶缺越來(lái)越不會(huì)用了。

我們現(xiàn)在有一批很忠實(shí)的會(huì)員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(zhǎng)還是要關(guān)注內(nèi)容,靠采集器采集的數(shù)據(jù)一樣要注意,前期只能做為一個(gè)數(shù)據(jù)填充,可以稍微大的。但時(shí)間長(zhǎng)了,目標(biāo)就要把垃圾數(shù)據(jù)也要變成精品,否則做不長(zhǎng)久

二、關(guān)于采集網(wǎng)站的經(jīng)驗(yàn)

火車(chē)頭:我們現(xiàn)在在更新這個(gè)采集器,在數(shù)據(jù)采集方面也積累了一些經(jīng)驗(yàn),增加更多功能以適應(yīng)新形式下的采集

1.別人經(jīng)常采的網(wǎng)站不要去采

2.太容易采的網(wǎng)站不要去采

3.不要一次性采集太多,一定要注意后期處理(后面詳續(xù))

4.做好關(guān)鍵詞,tag的采集分析

5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內(nèi)容

6.采集也要有持續(xù)性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布

后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應(yīng)該有很多SEO高手,那我不獻(xiàn)丑了。我說(shuō)下我們現(xiàn)在實(shí)現(xiàn)的功能,大家可以把這些混用,達(dá)到改變內(nèi)容偽原創(chuàng):

1.給標(biāo)題。內(nèi)容分詞

2.使用同義詞近義詞替換,排除敏感詞,不同的標(biāo)簽之間數(shù)據(jù)融合,指如標(biāo)題內(nèi)容之間數(shù)據(jù)的相互替換

3.給文章加上摘要

4.為文章標(biāo)題等生成拼音地址

5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉(zhuǎn)化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應(yīng)該可以算是原創(chuàng))

我們也發(fā)現(xiàn),高難度采集的網(wǎng)站一般內(nèi)容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè)趣的事情,需要你學(xué)習(xí)一些采集相關(guān)的知識(shí)。

三、關(guān)于防采集的方法

火車(chē)頭:下面講一些主要的防采集方法。可以說(shuō)是攻防對(duì)戰(zhàn)吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請(qǐng)求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè)原理,模擬http請(qǐng)求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對(duì)的防采集根本不存在,只是難度的高低。或者你認(rèn)為搜索引擎的搜錄也無(wú)所謂了。你可以用一些非常強(qiáng)大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。

普通的防采集方法有

1、來(lái)源判斷

2、登錄信息判斷 Cookie

3、請(qǐng)求次數(shù)判斷。如一段時(shí)間內(nèi)請(qǐng)求多少,非常規(guī)操作則封IP

4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請(qǐng)求內(nèi)容

舉例:

1.2不用說(shuō)了,論壇,下載站等。。

3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大

4、如一些招聘站,asp.net的分頁(yè),Web2.0站的ajax請(qǐng)求內(nèi)容

當(dāng)然我們后面還發(fā)現(xiàn)一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內(nèi)容需要防采集的朋友可以考慮試下

1、網(wǎng)頁(yè)默認(rèn)deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識(shí)別gzip,deflate輸出內(nèi)容

2、網(wǎng)頁(yè)內(nèi)容不定時(shí) /0 內(nèi)容自動(dòng)截?cái)啵@兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~

今天主要想要表達(dá)的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數(shù)據(jù)?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí)的接口程序自己入庫(kù)。我們偽原創(chuàng)做得再好,一樣有非常多的會(huì)員使用,那樣又不原創(chuàng)了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數(shù)據(jù),你才是唯一了。可能是我最為技術(shù)型人的一個(gè)通病,謝謝大家!

互動(dòng)環(huán)節(jié)

問(wèn):您剛才提到對(duì)采集有屏蔽,那對(duì)搜索引擎呢

答:采集和百度爬蟲(chóng)是一模一樣的原理 還有瀏覽器也是一樣的 所以沒(méi)有絕對(duì)的屏蔽,相反還會(huì)影響客戶體驗(yàn),你可以做一些不影響客戶體驗(yàn)和搜索引擎搜錄 而提高采集難度的嘗試

問(wèn):你剛才講的是網(wǎng)頁(yè)內(nèi)容采集,有沒(méi)有針對(duì)匹配關(guān)鍵詞的指定字段的高速采集,比如采集所有帶”IDC“的網(wǎng)頁(yè)的郵箱和電話號(hào)碼?用過(guò)一些,速度很慢,而且數(shù)據(jù)量明顯太少。

答:我們不做這樣批量的工具,其實(shí)比如做論壇發(fā)帖機(jī)之類的實(shí)現(xiàn)起來(lái)道理一樣,也很容易,其實(shí)實(shí)現(xiàn)起來(lái)也是可以,只是有更多的一些人工操作 ,我們里面有 正則匹配。。也就是你要的這種單一工具把這種正則都集成在里面了。而我們需要用戶自己去寫(xiě)

問(wèn):采集的復(fù)雜度應(yīng)該就在這吧?頁(yè)面規(guī)則的不規(guī)則性和多變性?

答:在軟件里面設(shè)置能夠匹配多種模板的正則表達(dá)式,一樣可以采集到多模板的網(wǎng)站,所謂“道高一尺,魔高一丈”。

問(wèn):火車(chē)頭,能不能說(shuō)一下怎么把phpcms的文章模塊下的第一級(jí)欄目顯示出來(lái)啊?

答:用的是 07 還是08版 07版有一個(gè)終極欄目的屬性 如果是,就不顯示。

問(wèn):火車(chē)頭,你覺(jué)得哪個(gè)CMS比較好用,你給大家推薦一個(gè)你最鐘意的CMS系統(tǒng)吧。

答:我現(xiàn)在是對(duì)phpcms更熟悉一些。選擇一個(gè)適合自己的就夠了。研究透一個(gè)。

問(wèn):有個(gè)采集工具 海納 號(hào)稱不要編寫(xiě)采集規(guī)則,不知道有沒(méi)有同學(xué)研究過(guò),想請(qǐng)教其原理?

答:你說(shuō)的這個(gè)是內(nèi)容主體識(shí)別的范疇了。也做過(guò),但只對(duì)一些新聞網(wǎng)站識(shí)別得比較好 ,這是一個(gè)自動(dòng)匹配形式的工具,就像百度新聞一樣,能自動(dòng)匹配到正文數(shù)據(jù)。對(duì)大數(shù)據(jù)量的提取有好處。但精度相對(duì)低點(diǎn)點(diǎn),因?yàn)槿斯げ豢煽亍?/p>

問(wèn):2008 版本能平滑升級(jí)到 2009嗎?我是免費(fèi)用戶,呵呵。

答:軟件升級(jí):請(qǐng)運(yùn)行程序目錄下的updateto2009.exe進(jìn)行升級(jí).支持3.2sp5及2008版到2009版的升級(jí),支持所有用戶

問(wèn):請(qǐng)問(wèn)偽原創(chuàng)的問(wèn)題怎么處理呢?

答:我們偽原創(chuàng)做得再好,一樣有非常多的會(huì)員使用,那樣又不原創(chuàng)了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數(shù)據(jù),你才是唯一了。比如我們有同義詞替換功能,這個(gè)詞庫(kù)就需要最好你自己去擴(kuò)充一個(gè)屬于自己的偽原創(chuàng)。 使用同義詞近義詞替換,排除敏感詞,不同的標(biāo)簽之間數(shù)據(jù)融合,指如標(biāo)題內(nèi)容之間數(shù)據(jù)的相互替換給標(biāo)題。內(nèi)容分詞。為文章標(biāo)題等生成拼音地址 給文章加上摘要。采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉(zhuǎn)化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應(yīng)該可以算是原創(chuàng))網(wǎng)民,默認(rèn)的我們能夠自動(dòng)識(shí)別網(wǎng)頁(yè)的編碼。但可能也會(huì)有出錯(cuò)的時(shí)候,這時(shí)候你需要在任務(wù)第四頁(yè)手工定義一下,比如是gb2312還是utf8等等。

最后總結(jié):本次講座是火車(chē)頭第一次對(duì)外的演講,由于時(shí)間和打字速度內(nèi)容不是很多,但是其精辟務(wù)實(shí)演講也讓本次講座取得了圓滿成功。而場(chǎng)面的熱情踴躍給了我們更多的動(dòng)力。我們也將繼續(xù)為各位站長(zhǎng)提供這樣精彩的學(xué)習(xí)機(jī)會(huì)。下期就是我們站長(zhǎng)講座開(kāi)辦以來(lái)的第十三期了,我們邀請(qǐng)到了國(guó)內(nèi)知名的SEOER實(shí)驗(yàn)室 SEO優(yōu)化專家 康軼文 來(lái)給廣大站長(zhǎng)講講關(guān)于SEO的相關(guān)知識(shí),絕對(duì)經(jīng)典不容錯(cuò)過(guò)有興趣的站長(zhǎng)可以參與互動(dòng),但是如果是發(fā)AD的就免了,感謝諸位的支持下期見(jiàn)。 目前講座群目前幾乎滿員,新開(kāi)設(shè)講座直播群:47744157 (可加),我們將永久免費(fèi)提供公益服務(wù),但是長(zhǎng)期不發(fā)言的會(huì)員一律被T。

特別鳴謝:本講座得到中國(guó)站長(zhǎng)站、站長(zhǎng)網(wǎng)、落伍者、草根網(wǎng)、中國(guó)站長(zhǎng)、中國(guó)建站、站長(zhǎng)中國(guó)、web開(kāi)發(fā)網(wǎng)、愛(ài)聚集、我拉網(wǎng)、站長(zhǎng)雜志多家知名站長(zhǎng)相關(guān)媒體的鼎力支持及炎黃網(wǎng)絡(luò)的技術(shù)支持。本次講座將會(huì)在上述站長(zhǎng)媒體同期發(fā)布,在此表示特別感謝。

關(guān)鍵詞:采集,火車(chē)頭

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉