點(diǎn)擊加入前端千人大群" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

首頁

15158846557 或

在線咨詢

所在位置：首頁 > 營銷資訊 > 網(wǎng)站運(yùn)營 > 如何利用js做個(gè)爬蟲獲取最新的娛樂新聞

如何利用js做個(gè)爬蟲獲取最新的娛樂新聞

時(shí)間：2023-07-06 05:30:01 | 來源：網(wǎng)站運(yùn)營

時(shí)間：2023-07-06 05:30:01 來源：網(wǎng)站運(yùn)營

如何利用js做個(gè)爬蟲獲取最新的娛樂新聞：

一、引言

最近娛樂圈比較的火的算是鄭爽事件了，作為一名程序猿如何能或者最新的娛樂熱點(diǎn)新聞呢？今天咱們就用js做一個(gè)網(wǎng)絡(luò)爬蟲，來爬取一個(gè)網(wǎng)站的新聞數(shù)據(jù)。

點(diǎn)擊加入前端千人大群交流學(xué)習(xí),更多課程視頻-源碼軟件安裝包免費(fèi)贈(zèng)送~

二、什么是爬蟲？

網(wǎng)絡(luò)爬蟲，又稱為網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機(jī)器人，意思是我們通過程序去搜集網(wǎng)絡(luò)上某些網(wǎng)站的數(shù)據(jù)。典型的通過爬蟲獲取數(shù)據(jù)的網(wǎng)站，比如百度、谷歌等搜索引擎。還有一些新聞聚合類網(wǎng)站，比如今日頭條等網(wǎng)站。之前淘寶的一淘，返利網(wǎng)等網(wǎng)站都是利用了爬蟲技術(shù)去獲取別人網(wǎng)站的一些信息。 ? 爬蟲也不能亂用，無限制的去爬取一個(gè)網(wǎng)站的信息，那樣會(huì)導(dǎo)致人家公司服務(wù)器壓力比較大。之前有句爬蟲界比較流行的話：爬蟲玩的好,監(jiān)獄進(jìn)的早;數(shù)據(jù)玩的溜,牢飯吃個(gè)夠！做技術(shù)的要有自己的底線，之前有程序員用爬蟲為公司做了一些工作，結(jié)果公司被訴訟，程序猿被帶走！

三、開始之前

為了防止出一些意外，首先我們可以訪問你要爬取的目標(biāo)網(wǎng)站的robots協(xié)議。 robots協(xié)議也叫robots.txt（統(tǒng)一小寫）是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件，它通常告訴網(wǎng)絡(luò)爬蟲：此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被爬蟲獲取的，哪些是可以被爬蟲獲取的。參考robots.txt去爬取數(shù)據(jù)，再設(shè)置一下間歇時(shí)間，不會(huì)有人在意的。

首先看一下我們今天要爬取網(wǎng)站的

紅色部分是關(guān)鍵，所有的網(wǎng)頁都不能被爬?。?！有句話不知當(dāng)講不當(dāng)講！

冷靜下來，文章還沒寫就要結(jié)束了嗎？我的kpi咋辦?。。?br>
看看我們的今天要爬取的網(wǎng)頁地址，我們今天要爬取的網(wǎng)頁后綴名不是html?。?！

不知道是不是網(wǎng)站的技術(shù)人員忽略了這樣的地址，哈哈哈。

四、正式開始

我們使用nodejs做爬蟲，要使用到兩個(gè)npm包，cheerio 和 axios

首先按照nodej，然后安裝axios和cheerio 。

五、安裝axios

axios是一個(gè)可以發(fā)起請(qǐng)求從而獲取網(wǎng)頁內(nèi)的包。

鍵盤上按win+r

輸入cmd 就打開了終端

終端中輸入

npm i aixos 就可以安裝axios

六、安裝cheerio

安裝cheerio cheerio 是一的用法跟jQuery的用法差不多。就是先將頁面的數(shù)據(jù)load進(jìn)來形成一個(gè)特定的數(shù)據(jù)格式，然后通過類似jq的語法，對(duì)數(shù)據(jù)進(jìn)行解析處理。終端中輸入

npm i cheerio

七、爬取數(shù)據(jù)

新建sp.js文件，寫入如下代碼

// 引入包const axios = require('axios')const cheerio = require('cheerio')// 要爬取頁面的地址let url ='https://bbs.hupu.com/4856'?// 請(qǐng)求頁面數(shù)據(jù)axios.get(url).then(res=>{    // res.data 就是頁面的數(shù)據(jù)    console.log(res.data);    // 將頁面數(shù)據(jù)轉(zhuǎn)為$對(duì)象    let $ = cheerio.load(res.data);    })?

執(zhí)行node sp.js 命令

網(wǎng)頁的數(shù)據(jù)已經(jīng)獲取到了，然后我們就可以使用jquery的語法獲取頁面中的數(shù)據(jù)了。下面我們分析一下頁面的結(jié)構(gòu)

可以看到頁面中所有的新聞標(biāo)題都在a標(biāo)簽中，類名是truetit。然后我們就可以使用jq的選擇器獲取頁面中所有類名為truetit的元素。

// 引入包const axios = require('axios')const cheerio = require('cheerio')// 要爬取頁面的地址let url ='https://bbs.hupu.com/4856'?// 請(qǐng)求頁面數(shù)據(jù)axios.get(url).then(res=>{    // res.data 就是頁面的數(shù)據(jù)    // console.log(res.data);    // 將頁面數(shù)據(jù)轉(zhuǎn)為$對(duì)象    let $ = cheerio.load(res.data);    let arr = []    // 將a標(biāo)簽的數(shù)據(jù)放到數(shù)組中    $('.truetit').each(function(i,v){        arr.push($(v).text())    })    console.log(arr);?})?

終端中結(jié)果

這樣每次執(zhí)行就可以獲取最新的娛樂新聞，不需要打開網(wǎng)頁就可以獲取到，當(dāng)然我們只是獲取了第一頁的數(shù)據(jù)，你也可以獲取第二頁、第三頁等其他頁面的數(shù)據(jù)。我們現(xiàn)在相當(dāng)于只獲取了一個(gè)網(wǎng)站的娛樂數(shù)據(jù)，如果你再分析一些其他的網(wǎng)站，獲取一些其他的網(wǎng)站的數(shù)據(jù)，然后把數(shù)據(jù)都存儲(chǔ)起來，自己就可以做一個(gè)只顯示娛樂新聞的網(wǎng)站了！

點(diǎn)擊加入前端千人大群交流學(xué)習(xí),更多課程視頻-源碼軟件安裝包免費(fèi)贈(zèng)送~

關(guān)鍵詞：娛樂,新聞,獲取,爬蟲,利用

網(wǎng)站
營銷
設(shè)計(jì)
運(yùn)營
優(yōu)化
效率
專注
電商
方案
推廣

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

微信公眾號(hào)

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果，本站不支持IE9及以下版本的瀏覽器，建議您使用谷歌Chrome瀏覽器。點(diǎn)擊下載Chrome瀏覽器

關(guān)閉

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

如何利用js做個(gè)爬蟲獲取最新的娛樂新聞

一、引言

二、什么是爬蟲？

三、開始之前

四、正式開始

五、安裝axios

六、安裝cheerio

七、爬取數(shù)據(jù)

如何選擇網(wǎng)站建設(shè)的空間？

焦作聯(lián)通助力反詐中心破獲網(wǎng)絡(luò)詐騙案

2021年22個(gè)學(xué)習(xí)資源網(wǎng)站推薦

恩施佳星誠教育科技有限公司被騙經(jīng)歷

網(wǎng)站數(shù)據(jù)庫和網(wǎng)站空間的區(qū)別

數(shù)字藏品交易平臺(tái)系統(tǒng)開發(fā)

5分鐘教會(huì)你22個(gè)網(wǎng)站SEO常規(guī)外鏈建設(shè)方法

外貿(mào)網(wǎng)絡(luò)推廣：這些渠道都做好，你還會(huì)愁沒有訂單？

開發(fā)信標(biāo)題！技巧+模板

教你如何做好高端網(wǎng)站建設(shè)？

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

如何利用js做個(gè)爬蟲獲取最新的娛樂新聞

一、引言

二、什么是爬蟲？

三、開始之前

四、正式開始

五、安裝axios

六、安裝cheerio

七、爬取數(shù)據(jù)

推薦文章

如何利用js做個(gè)爬蟲獲取最新的娛樂新聞

個(gè)人做新聞網(wǎng)站靠什么盈利?

數(shù)據(jù)新聞制作之秘笈

新聞傳播之網(wǎng)絡(luò)傳播如何制作h5頁面

一個(gè)新聞網(wǎng)站是如何做成的？

怎么在新聞網(wǎng)站發(fā)布自己文章，門戶網(wǎng)站新聞宣傳怎么做？

「懶人必學(xué)小技巧」利用VSCode編寫html和css時(shí)，一些便捷方法

如何利用網(wǎng)站做創(chuàng)業(yè)項(xiàng)目報(bào)告？

利用 Powershell 編寫簡單的瀏覽器腳本

輕松利用FrontPage做站內(nèi)搜索

如何選擇網(wǎng)站建設(shè)的空間？

焦作聯(lián)通助力反詐中心破獲網(wǎng)絡(luò)詐騙案

2021年22個(gè)學(xué)習(xí)資源網(wǎng)站推薦

恩施佳星誠教育科技有限公司被騙經(jīng)歷

網(wǎng)站數(shù)據(jù)庫和網(wǎng)站空間的區(qū)別

數(shù)字藏品交易平臺(tái)系統(tǒng)開發(fā)

5分鐘教會(huì)你22個(gè)網(wǎng)站SEO常規(guī)外鏈建設(shè)方法

外貿(mào)網(wǎng)絡(luò)推廣：這些渠道都做好，你還會(huì)愁沒有訂單？

開發(fā)信標(biāo)題！技巧+模板

教你如何做好高端網(wǎng)站建設(shè)？

一、引言

二、什么是爬蟲？

四、正式開始

五、安裝axios

六、安裝cheerio

七、爬取數(shù)據(jù)

一個(gè)新聞網(wǎng)站是如何做成的？

怎么在新聞網(wǎng)站發(fā)布自己文章，門戶網(wǎng)站新聞宣傳怎么做？

「懶人必學(xué)小技巧」利用VSCode編寫html和css時(shí)，一些便捷方法

如何選擇網(wǎng)站建設(shè)的空間？

外貿(mào)網(wǎng)絡(luò)推廣：這些渠道都做好，你還會(huì)愁沒有訂單？

開發(fā)信標(biāo)題！技巧+模板

教你如何做好高端網(wǎng)站建設(shè)？