時(shí)間:2022-07-26 00:00:02 | 來(lái)源:建站知識(shí)
時(shí)間:2022-07-26 00:00:02 來(lái)源:建站知識(shí)
影視劇情介紹方面的網(wǎng)站屬于數(shù)量泛濫,但是缺乏精品的一類。內(nèi)容原創(chuàng)的網(wǎng)站不多,更多是收集各地分散的影視資源加以匯總。尤其是電視劇介紹,經(jīng)常是分集連載方式,這就使得站長(zhǎng)需要不斷關(guān)注正在更新的劇集,一集一集補(bǔ)充上去,難以一步到位。維護(hù)影視劇情網(wǎng)站更是偷懶不得,必須保持更新,否則內(nèi)容很快過時(shí)。
本人運(yùn)行影視劇情站一段時(shí)間就遇到這個(gè)問題,一部電視劇的介紹前前后后更新多次,尤其是熱播劇,不斷追加內(nèi)容直至完整。
建站初期為了盡快充實(shí)全站內(nèi)容,需要收集整理大量的影視介紹文字,除了人工整理編輯之外,也嘗試過一點(diǎn)內(nèi)容采集,然后進(jìn)行二次編輯修改,這樣就可以為用戶提供足夠豐富完整的電影與電視劇內(nèi)容,這個(gè)過程也是費(fèi)了點(diǎn)頭腦,簡(jiǎn)要敘述一下吧。
瀏覽學(xué)習(xí)大量同類網(wǎng)站以后,發(fā)現(xiàn)tvmao在影視劇情搜索方面的排名非常好,畢竟是百度open的名站,內(nèi)容也相當(dāng)豐富,二話不說,先從tvmao借鑒些內(nèi)容。
tvmao的影視劇情部分算是比較容易采集,頁(yè)面模板固定、正文內(nèi)容沒有干擾,看起來(lái)沒有任何防采集處理。實(shí)際采集過程略微一波三折,總體說來(lái)采集障礙不大。
說下采集tvmao的經(jīng)過,我的網(wǎng)站使用美國(guó)空間,tvmao應(yīng)該是浙江電信的空間。第一階段我是直接在國(guó)外的空間上運(yùn)行采集工具(遠(yuǎn)程采集),最直接的采集然后數(shù)據(jù)入庫(kù),因?yàn)閲?guó)外連國(guó)內(nèi),速度不算很快,不過還比較穩(wěn),大約采集了一兩千部電視劇劇情,遭遇第一次杯具:服務(wù)器的IP被tvmao封了。
服務(wù)器IP被對(duì)方封禁以后遲遲不見解封,應(yīng)該是tvmao對(duì)這個(gè)IP永久屏蔽了,更換服務(wù)器IP肯定是行不通,總不能封一次換一個(gè),于是想到本地執(zhí)行采集,然后遠(yuǎn)程寫入服務(wù)器的數(shù)據(jù)庫(kù),前提是數(shù)據(jù)庫(kù)允許遠(yuǎn)程訪問。隨后的實(shí)踐證明這種采集(本地采集+遠(yuǎn)程入庫(kù))方案比較可行,但是也會(huì)有點(diǎn)遺憾,因?yàn)槲业姆?wù)器在國(guó)外,而我在國(guó)內(nèi)采集到的內(nèi)容要遠(yuǎn)程寫入國(guó)外的數(shù)據(jù)庫(kù),會(huì)發(fā)現(xiàn)遠(yuǎn)程寫入的速度比較慢,因?yàn)閷懭脒^程實(shí)際包括了查詢、插入、更新、刪除的多個(gè)數(shù)據(jù)庫(kù)操作過程,這些過程都通過遠(yuǎn)程訪問執(zhí)行就導(dǎo)致整個(gè)采集過程變慢。更嚴(yán)重的是遠(yuǎn)程操作數(shù)據(jù)庫(kù)過程中不定時(shí)出現(xiàn)數(shù)據(jù)庫(kù)連接進(jìn)程超時(shí)之類的問題,導(dǎo)致寫入失敗。
如果我的服務(wù)器在國(guó)內(nèi),訪問速度夠快,也許上述方案可行,先留作備用方案吧。
靜下心來(lái)又學(xué)了一點(diǎn)采集原理,實(shí)施了第三套方案(遠(yuǎn)程采集+http代理),還是在國(guó)外的服務(wù)器上執(zhí)行采集,只是對(duì)采集工具做了一點(diǎn)偽裝:使用http代理,偽造文件頭、訪問來(lái)路等等。隨后的采集過程中發(fā)現(xiàn),真正起作用的是http代理,在采集工具中設(shè)置http代理,選用電信IP的代理,因?yàn)閠vmao的網(wǎng)站使用電信空間,這樣采集下來(lái)發(fā)現(xiàn)速度比第一套無(wú)代理的采集更快,感覺真是痛快。
第三套方案采集一兩千部電視劇以后又發(fā)現(xiàn)問題,http代理的IP也會(huì)被tvmao屏蔽,但并非永久屏蔽,猜測(cè)應(yīng)該是tvmao的網(wǎng)站程序作了一些處理,就是發(fā)現(xiàn)一個(gè)IP短時(shí)間內(nèi)訪問的頁(yè)面太多,就會(huì)屏蔽一段時(shí)間,即使我采用了幾十個(gè)代理隨機(jī)輪換采集,仍然在一段時(shí)間以后會(huì)出現(xiàn)采集不到的情況。后來(lái)還不定時(shí)地發(fā)現(xiàn)采集內(nèi)容不完整,例如tvmao的電視劇分集介紹每頁(yè)3集,假設(shè)每集有十幾句話,實(shí)際采集到的只有每集一句話,暈,怎么會(huì)這樣????或者一部電視劇30集,采集回來(lái)發(fā)現(xiàn)漏掉好多集,給這部電視劇重新采集一遍,能夠彌補(bǔ)幾集,仍有遺漏。
所以第三套(遠(yuǎn)程采集+http代理)方案在采集tvmao的時(shí)候最終遭遇了不能完整采集頁(yè)面的問題,作為猜測(cè),或許是代理服務(wù)器的問題,也或許tvmao采取了一些反采集措施,首先tvmao不可能完全屏蔽這些代理服務(wù)器的IP,否則搜索引擎的爬蟲也會(huì)遭遇同樣問題,因此針對(duì)采集者IP返回不完整的頁(yè)面內(nèi)容,而這幾乎不影響搜索引擎對(duì)頁(yè)面基本內(nèi)容的抓取,因?yàn)閠vmao的權(quán)重很高,它的頁(yè)面只需要一個(gè)title,甚至不需要任何正文內(nèi)容,就能占據(jù)很好的搜索排名(這僅僅是猜測(cè),也許tvmao不會(huì)這么小氣)。
而且使用http代理的另一個(gè)問題是并非每個(gè)代理都100%可用,隨時(shí)可能不穩(wěn)定,同時(shí)我使用的并非匿名http代理,對(duì)方可以很容易查到我的服務(wù)器IP,還是比較容易被屏蔽或防范的。
實(shí)施第四套采集方案,本地采集+本地入庫(kù),然后在把本地庫(kù)打包上傳到網(wǎng)站空間,導(dǎo)入。這也是不得已的辦法,本地采集可以隨時(shí)更換本機(jī)IP,所以不擔(dān)心IP被封,實(shí)際操作時(shí)也發(fā)現(xiàn)這樣采集到的頁(yè)面內(nèi)容100%完整,不再出現(xiàn)上一方案丟三落四的情況(所以我始終不明白為什么遠(yuǎn)程+代理的采集會(huì)有時(shí)候采集不到完整內(nèi)容),而且采集速度最快。
最終就是通過第四套(本地采集+本地入庫(kù))的方式完成了tvmao影視劇情的采集,1萬(wàn)1千多部電視劇,接近20
萬(wàn)分集介紹,以及接近4萬(wàn)部電影的介紹,還有n多的演員表。
總結(jié)一下這段采集經(jīng)歷,
1,遠(yuǎn)程采集、無(wú)代理,這種方案最直接,適用于完全不設(shè)防的目標(biāo)網(wǎng)站;
2,本地采集+遠(yuǎn)程入庫(kù),勉強(qiáng)可行的方案,如果網(wǎng)站空間訪問速度夠快,比如國(guó)內(nèi)的空間,同時(shí)數(shù)據(jù)庫(kù)支持遠(yuǎn)程訪問,應(yīng)該也是非常好的辦法(本人沒有親測(cè))。
3,遠(yuǎn)程采集+http代理,可用于防采集措施相對(duì)簡(jiǎn)單的網(wǎng)站,實(shí)際上即使用了http代理,考慮到通常不是匿名代理,因此網(wǎng)站空間的真實(shí)IP仍然會(huì)被對(duì)方檢查到,略加技術(shù)處理就可以防采集。如果采集量不大、采集不是很頻繁,這種方式不錯(cuò)。
4,本地采集+本地入庫(kù),單單從采集速度與采集效果來(lái)看,這是針對(duì)tvmao采集的最好手段。因?yàn)椴杉俣瓤?,訪問目標(biāo)網(wǎng)站的頻率很高,如果目標(biāo)站嚴(yán)格限定同一IP的訪問頻率,例如10秒鐘訪問10張網(wǎng)頁(yè),99.9%的真實(shí)用戶訪問網(wǎng)頁(yè)不會(huì)這么快,所以快速采集實(shí)際上很容易被發(fā)現(xiàn)并且屏蔽。慶幸的是采集與搜索引擎的爬蟲機(jī)理相似,使得對(duì)方顧忌誤殺爬蟲所以就給了采集者機(jī)會(huì)??梢赃@么說,能夠被搜索引擎順利爬取的網(wǎng)站都比較容易采集。
網(wǎng)站內(nèi)容初步豐富以后就是后續(xù)不斷更新完善,電影部分比較簡(jiǎn)單,一次整理好就基本OK,電視劇部分需要關(guān)注一些尚未完整的劇集,做下記錄,定時(shí)進(jìn)行補(bǔ)充直至完善。
前段時(shí)間新聞一直在說國(guó)家大力促進(jìn)文化產(chǎn)業(yè)繁榮大發(fā)展,電影與電視劇行業(yè)必將發(fā)展更快,關(guān)注影視內(nèi)容的用戶將越來(lái)越多,希望我的劇情站能夠跟上這一波潮流從而獲得不錯(cuò)的人氣。
新站還說不上更多心得與經(jīng)驗(yàn),僅是一點(diǎn)分享,自我感覺水平非常有限,期待與更多有這方面愛好的朋友交流學(xué)習(xí),期望遇得高人指點(diǎn),本人qq 1559648233,希望與各位站長(zhǎng)朋友多多交流:-)
關(guān)鍵詞:劇情,體會(huì),建立
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。