如何利用js做個(gè)爬蟲獲取最新的娛樂新聞
時(shí)間:2023-07-06 05:30:01 | 來源:網(wǎng)站運(yùn)營
時(shí)間:2023-07-06 05:30:01 來源:網(wǎng)站運(yùn)營
如何利用js做個(gè)爬蟲獲取最新的娛樂新聞:
一、引言
最近娛樂圈比較的火的算是鄭爽事件了,作為一名程序猿如何能或者最新的娛樂熱點(diǎn)新聞呢? 今天咱們就用js做一個(gè)網(wǎng)絡(luò)爬蟲,來爬取一個(gè)網(wǎng)站的新聞數(shù)據(jù)。
點(diǎn)擊加入前端千人大群交流學(xué)習(xí),更多課程視頻-源碼軟件安裝包免費(fèi)贈(zèng)送~
二、什么是爬蟲?
網(wǎng)絡(luò)爬蟲,又稱為
網(wǎng)頁蜘蛛,
網(wǎng)絡(luò)機(jī)器人,意思是我們通過程序去搜集網(wǎng)絡(luò)上某些網(wǎng)站的數(shù)據(jù)。典型的通過爬蟲獲取數(shù)據(jù)的網(wǎng)站,比如百度、谷歌等搜索引擎。還有一些新聞聚合類網(wǎng)站,比如今日頭條等網(wǎng)站。之前淘寶的一淘,返利網(wǎng)等網(wǎng)站都是利用了爬蟲技術(shù)去獲取別人網(wǎng)站的一些信息。 ? 爬蟲也不能亂用,無限制的去爬取一個(gè)網(wǎng)站的信息,那樣會(huì)導(dǎo)致人家公司服務(wù)器壓力比較大。之前有句爬蟲界比較流行的話:
爬蟲玩的好,監(jiān)獄進(jìn)的早;數(shù)據(jù)玩的溜,牢飯吃個(gè)夠!做技術(shù)的要有自己的底線,之前有程序員用爬蟲為公司做了一些工作,結(jié)果公司被訴訟,程序猿被帶走!
三、開始之前
為了防止出一些意外,首先我們可以訪問你要爬取的目標(biāo)網(wǎng)站的robots協(xié)議。 robots協(xié)議也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)爬蟲:此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被爬蟲獲取的,哪些是可以被爬蟲獲取的。參考robots.txt去爬取數(shù)據(jù),再設(shè)置一下間歇時(shí)間,不會(huì)有人在意的。
首先看一下我們今天要爬取網(wǎng)站的
紅色部分是關(guān)鍵,所有的網(wǎng)頁都不能被爬?。?!有句話不知當(dāng)講不當(dāng)講!
冷靜下來,文章還沒寫就要結(jié)束了嗎?我的kpi咋辦?。。?br>
看看我們的今天要爬取的網(wǎng)頁地址,我們今天要爬取的網(wǎng)頁后綴名不是html?。?!
不知道是不是網(wǎng)站的技術(shù)人員忽略了這樣的地址,哈哈哈。
四、正式開始
我們使用nodejs做爬蟲,要使用到兩個(gè)npm包,cheerio 和 axios
首先按照nodej,然后安裝axios和cheerio 。
五、安裝axios
axios是一個(gè)可以發(fā)起請(qǐng)求從而獲取網(wǎng)頁內(nèi)的包。
鍵盤上按win+r
輸入cmd 就打開了終端
終端中輸入
npm i aixos
就可以安裝axios
六、安裝cheerio
安裝cheerio cheerio 是一的用法跟jQuery的用法差不多。 就是先將頁面的數(shù)據(jù)load進(jìn)來形成一個(gè)特定的數(shù)據(jù)格式,然后通過類似jq的語法,對(duì)數(shù)據(jù)進(jìn)行解析處理。 終端中輸入
npm i cheerio
七、爬取數(shù)據(jù)
新建sp.js文件,寫入如下代碼
// 引入包const axios = require('axios')const cheerio = require('cheerio')// 要爬取頁面的地址let url ='https://bbs.hupu.com/4856'?// 請(qǐng)求頁面數(shù)據(jù)axios.get(url).then(res=>{ // res.data 就是頁面的數(shù)據(jù) console.log(res.data); // 將頁面數(shù)據(jù)轉(zhuǎn)為$對(duì)象 let $ = cheerio.load(res.data); })?
執(zhí)行node sp.js 命令
網(wǎng)頁的數(shù)據(jù)已經(jīng)獲取到了,然后我們就可以使用jquery的語法獲取頁面中的數(shù)據(jù)了。 下面我們分析一下頁面的結(jié)構(gòu)
可以看到頁面中所有的新聞標(biāo)題都在a標(biāo)簽中,類名是truetit。然后我們就可以使用jq的選擇器獲取頁面中所有類名為truetit的元素。
// 引入包const axios = require('axios')const cheerio = require('cheerio')// 要爬取頁面的地址let url ='https://bbs.hupu.com/4856'?// 請(qǐng)求頁面數(shù)據(jù)axios.get(url).then(res=>{ // res.data 就是頁面的數(shù)據(jù) // console.log(res.data); // 將頁面數(shù)據(jù)轉(zhuǎn)為$對(duì)象 let $ = cheerio.load(res.data); let arr = [] // 將a標(biāo)簽的數(shù)據(jù)放到數(shù)組中 $('.truetit').each(function(i,v){ arr.push($(v).text()) }) console.log(arr);?})?
終端中結(jié)果
這樣每次執(zhí)行就可以獲取最新的娛樂新聞,不需要打開網(wǎng)頁就可以獲取到,當(dāng)然我們只是獲取了第一頁的數(shù)據(jù),你也可以獲取第二頁、第三頁等其他頁面的數(shù)據(jù)。 我們現(xiàn)在相當(dāng)于只獲取了一個(gè)網(wǎng)站的娛樂數(shù)據(jù),如果你再分析一些其他的網(wǎng)站,獲取一些其他的網(wǎng)站的數(shù)據(jù),然后把數(shù)據(jù)都存儲(chǔ)起來,自己就可以做一個(gè)只顯示娛樂新聞的網(wǎng)站了!
點(diǎn)擊加入前端千人大群交流學(xué)習(xí),更多課程視頻-源碼軟件安裝包免費(fèi)贈(zèng)送~