国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

首頁

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

15158846557 或

在線咨詢

所在位置：首頁 > 營銷資訊 > 網(wǎng)站運營 > 爬蟲系列教程五：動態(tài)網(wǎng)頁api分析實例之爬取dropbox上的pdf

爬蟲系列教程五：動態(tài)網(wǎng)頁api分析實例之爬取dropbox上的pdf

時間：2023-05-24 05:18:01 | 來源：網(wǎng)站運營

時間：2023-05-24 05:18:01 來源：網(wǎng)站運營

爬蟲系列教程五：動態(tài)網(wǎng)頁api分析實例之爬取dropbox上的pdf：

動態(tài)網(wǎng)頁api分析實例：爬取dropbox上的pdf

動態(tài)網(wǎng)頁api分析實例：爬取dropbox上的pdf
任務(wù)
分析
寫代碼和debug

今天老師讓我下載一個網(wǎng)課里面的pdf材料，pdf的數(shù)目比較多，一部分pdf是放在dropbox上面的，看了一下是一個動態(tài)網(wǎng)頁。想起來我的爬蟲教程好久沒填坑了，今天我就打算拿爬蟲來完成這個任務(wù)，順便寫個教程，我今天選擇的方式是分析api，下次再遇到動態(tài)網(wǎng)頁寫博客的時候，我就用js引擎（flag已經(jīng)立下了）。廢話不多說，下面開始。

任務(wù)

爬取的頁面：https://aisecure.github.io/TEACHING/cs598.html

具體爬取要求，根據(jù)時間創(chuàng)建文件夾，然后把當(dāng)天的所有pdf文件放在文件夾中；

分析

拿到任務(wù)后我首先分析了一下要爬取的文件：一類是論文，一類是幻燈片；論文比較好爬取，但是幻燈片是放在dropbox上面的，有一定難度；
這個主頁面是一個靜態(tài)的頁面，沒啥難度，拿到網(wǎng)頁信息后對網(wǎng)頁結(jié)構(gòu)解析后搜索一下，就能拿到我們需要爬取內(nèi)容。
其中論文部分的url比較好分析，直接從對應(yīng)元素的href屬性中拿到pdf的url：

大部分的論文是掛在了arxiv上，但是有的鏈接是直接指向pdf文件的，有的鏈接就沒有，需要+'.pdf'；

還有論文是在openreview上面的，把鏈接中的forum改成pdf就可以下載了；

其它的論文都通過鏈接可以直接下載；

dropbox上面的pdf文件的下載鏈接是放在動態(tài)網(wǎng)頁上的的，所以需要費點周折。本次采用的方式是分析api。首先抓一波包，發(fā)現(xiàn)點擊了立即下載的按鈕后，有兩個包比較重要

第一個包是下載pdf文件的包

攜帶參數(shù)

經(jīng)過觀察_download_id和request url兩部分是根據(jù)下載的pdf變化的
然后看到第二個包

它的responce里面有下載鏈接的一部分，

經(jīng)過觀察第一個包將第二個包的response和某些參數(shù)組合為它的request url，從而得到了pdf文件。
現(xiàn)在需要得到這個包的攜帶參數(shù)

經(jīng)過觀察，第一個參數(shù)is_xhr和第二個參數(shù)t都是固定的，第三個參數(shù)和這個pdf的url，所以這個api就分析完了

再返回來分析第一個包
現(xiàn)在第一個包就短_download_id未知了，推測是在js代碼里面生成的，所以觀察使用過的js函數(shù)

經(jīng)過閱讀和搜索找到了這個地方

原來就是個隨機數(shù)。。。分析到這個地方，我尬住了，原來還以為有個加密函數(shù)的，沒想到直接是隨機數(shù)，那你加這玩意干啥。上網(wǎng)一查，原來是為了每次的url不一樣避免緩存。

所以第一個包也就解決了，直接用一個固定的_download_id就可以

寫代碼和debug

注意事項

下面就是正常的寫代碼和debug環(huán)節(jié)了，這里列出了一些坑：
因為dropbox是國外的，需要掛代理
因為爬取的是pdf，需要用open方式保存到本地文件
在訪問第一個包的時候，需要添加cookies，否則會有403錯誤
爬取過程中發(fā)現(xiàn)有的資源丟失了，所以做了異常處理

2. 具體代碼

import requestsfrom bs4 import BeautifulSoupimport osimport re# use proxies to speed upproxies = {"http": "socks5://127.0.0.1:10808","https": "socks5://127.0.0.1:10808",}data = requests.get("https://aisecure.github.io/TEACHING/cs598.html")soup = BeautifulSoup(data.content, 'html.parser')entries = soup.find_all("tr")entries = list(entries)for k, i in enumerate(entries[1:]):    i = str(i)    entry_data = BeautifulSoup(i, 'html.parser')    date_and_sides = entry_data.find_all(class_="tg-0pky")    readings = entry_data.find_all(class_="tg-reading")    if date_and_sides!= []:        date_list = str.split(date_and_sides[0].string, '/')         print(date_list)        month = date_list[0]        day = date_list[1]        if len(month)==1:            month = '0'+month        if len(day)==1:            day = '0'+day        month_day = month+day        print(month_day)        if len(date_and_sides) == 2:        if not os.path.exists(month_day):            os.mkdir(month_day)        if readings!=[]:#readings            readings = str(readings[0])            readings = BeautifulSoup(readings, 'html.parser')            for link in readings.find_all('a'):                pdf_link = link.get('href')                if 'http' not in pdf_link:                    break                elif 'openreview' in pdf_link:                    pdf_link = pdf_link.replace('forum', 'pdf')                elif 'arxiv' in pdf_link and 'pdf' not in pdf_link:                    pdf_link = pdf_link + '.pdf'                print(pdf_link)                pdf_name = pdf_link.split('/')[-1]                if '.pdf' not in pdf_name:                    pdf_name = pdf_name.split('=')[-1]+'.pdf'                print(pdf_name)                pdf_data = requests.get(pdf_link, proxies=proxies)                f = open(month_day+'/'+pdf_name,'wb')                                      f.write(pdf_data.content)                                       f.close()        slides = date_and_sides[1]#slides        slides = str(slides)        slides = BeautifulSoup(slides, 'html.parser')        for link in slides.find_all('a'):            pdf_link = link.get('href')            print(pdf_link)            if 'dropbox' in pdf_link and k!=9 and k!=10:#k==9, slide file is in google driver, we don't have access to it;10 file not exits                url = 'https://www.dropbox.com/sharing/fetch_user_content_link'                cookies = {'__Host-ss':'bcD4Chza3M', 'locale':'zh_CN', 'gvc':'MTQxMzI3NDU0NjU2NzAyODExNDM4MzQ3NTk2NDExMjgyNjc2MzI2', 't':'-VB7vYgNnBuMG3LhS_GfEzTL', '__Host-js_csrf':'-VB7vYgNnBuMG3LhS_GfEzTL', 'seen-sl-signup-modal':'VHJ1ZQ%3D%3D', 'seen-sl-download-modal':'VHJ1ZQ%3D%3D'}                data={                    'is_xhr': 'true',                    't': '-VB7vYgNnBuMG3LhS_GfEzTL',                    'url': pdf_link                }                slide_data = requests.post(url, data=data, proxies = proxies, cookies = cookies)                middle_url = str(slide_data.content)                print(middle_url)                middle_url = middle_url.split('?')[0]                middle_url = middle_url[2:]                data_2={                    '_download_id':'013885563736029338651059959499724834269999834692877836324471532568',                    '_notify_domain':'www.dropbox.com',                    'dl':'1'                }                pdf_data = requests.get(middle_url, data=data_2, proxies = proxies)                pdf_name = pdf_link.split('/')[-1]                pdf_name = pdf_name.split('?')[0]                print(pdf_name)                f = open(month_day+'/'+pdf_name,'wb')                                      f.write(pdf_data.content)                                       f.close()    elif len(date_and_sides) == 1:        if not os.path.exists(month_day):            os.mkdir(month_day)        if readings!=[]:#readings            readings = str(readings[0])            readings = BeautifulSoup(readings, 'html.parser')            for link in readings.find_all('a'):                pdf_link = link.get('href')                if 'http' not in pdf_link:                    break                elif 'openreview' in pdf_link:                    pdf_link = pdf_link.replace('forum', 'pdf')                elif 'arxiv' in pdf_link and 'pdf' not in pdf_link:                    pdf_link = pdf_link + '.pdf'                print(pdf_link)                pdf_name = pdf_link.split('/')[-1]                if '.pdf' not in pdf_name:                    pdf_name = pdf_name.split('=')[-1]+'.pdf'                print(pdf_name)                pdf_data = requests.get(pdf_link, proxies=proxies)                f = open(month_day+'/'+pdf_name,'wb')                                      f.write(pdf_data.content)                                       f.close()        slides = date_and_sides[1]#slides        slides = str(slides)        slides = BeautifulSoup(slides, 'html.parser')        for link in slides.find_all('a'):            pdf_link = link.get('href')            print(pdf_link)            if 'dropbox' in pdf_link and k!=9 and k!=10:#k==9, slide file is in google driver, we don't have access to it;10 file not exits                url = 'https://www.dropbox.com/sharing/fetch_user_content_link'                cookies = {'__Host-ss':'bcD4Chza3M', 'locale':'zh_CN', 'gvc':'MTQxMzI3NDU0NjU2NzAyODExNDM4MzQ3NTk2NDExMjgyNjc2MzI2', 't':'-VB7vYgNnBuMG3LhS_GfEzTL', '__Host-js_csrf':'-VB7vYgNnBuMG3LhS_GfEzTL', 'seen-sl-signup-modal':'VHJ1ZQ%3D%3D', 'seen-sl-download-modal':'VHJ1ZQ%3D%3D'}                data={                    'is_xhr': 'true',                    't': '-VB7vYgNnBuMG3LhS_GfEzTL',                    'url': pdf_link                }                slide_data = requests.post(url, data=data, proxies = proxies, cookies = cookies)                middle_url = str(slide_data.content)                print(middle_url)                middle_url = middle_url.split('?')[0]                middle_url = middle_url[2:]                data_2={                    '_download_id':'013885563736029338651059959499724834269999834692877836324471532568',                    '_notify_domain':'www.dropbox.com',                    'dl':'1'                }                pdf_data = requests.get(middle_url, data=data_2, proxies = proxies)                pdf_name = pdf_link.split('/')[-1]                pdf_name = pdf_name.split('?')[0]                print(pdf_name)                f = open(month_day+'/'+pdf_name,'wb')                                      f.write(pdf_data.content)                                       f.close()

另外本站的編輯器實在太拉跨了，直接放md文檔還是有問題的，距離上一篇文章已經(jīng)一年了，這個問題還是沒有得到解決，這個專欄以后就在博客上寫了。

關(guān)鍵詞：實例,分析,教程,系列,動態(tài),爬蟲

網(wǎng)站
營銷
設(shè)計
運營
優(yōu)化
效率
專注
電商
方案
推廣

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

微信公眾號

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果，本站不支持IE9及以下版本的瀏覽器，建議您使用谷歌Chrome瀏覽器。點擊下載Chrome瀏覽器

關(guān)閉

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

爬蟲系列教程五：動態(tài)網(wǎng)頁api分析實例之爬取dropbox上的pdf

動態(tài)網(wǎng)頁api分析實例：爬取dropbox上的pdf

任務(wù)

分析

寫代碼和debug

哪些因素決定網(wǎng)站建設(shè)費用？

讓您的網(wǎng)絡(luò)安全萬無一失的 13 種策略

Web前端工程師必看的14本書籍

外貿(mào)人必備開發(fā)客戶網(wǎng)址大全，推薦收藏！

內(nèi)容取代位置成流量新入口，門戶網(wǎng)站也要內(nèi)容為王？

【景觀干貨】戶外仿石瓷磚

國際服傳奇4官網(wǎng)版2022手機正規(guī)版手游下載

非凡教育分享站長必知的SEO排名工具

小微企業(yè)注冊流程及費用

東莞企業(yè)網(wǎng)站建設(shè)哪家好

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

爬蟲系列教程五：動態(tài)網(wǎng)頁api分析實例之爬取dropbox上的pdf

動態(tài)網(wǎng)頁api分析實例：爬取dropbox上的pdf

任務(wù)

分析

寫代碼和debug

推薦文章

爬蟲系列教程五：動態(tài)網(wǎng)頁api分析實例之爬取dropbox上的pdf

想快速入門.NET的小伙伴，推薦下面教程案例，簡易度適中，非常適合剛剛

Ajax完整詳細(xì)教程（一）

動態(tài)評分低對淘寶店鋪有哪些影響 后果是什么

Python實用教程系列——VSCode Python 開發(fā)環(huán)境搭建

動態(tài)網(wǎng)頁靜態(tài)動態(tài)

電商網(wǎng)站開發(fā)建設(shè)功能分析

動態(tài)網(wǎng)頁基本介紹

淘寶標(biāo)題的診斷分析

微博廣告推廣策略分析

哪些因素決定網(wǎng)站建設(shè)費用？

讓您的網(wǎng)絡(luò)安全萬無一失的 13 種策略

Web前端工程師必看的14本書籍

外貿(mào)人必備開發(fā)客戶網(wǎng)址大全，推薦收藏！

內(nèi)容取代位置成流量新入口，門戶網(wǎng)站也要內(nèi)容為王？

【景觀干貨】戶外仿石瓷磚

國際服傳奇4官網(wǎng)版2022手機正規(guī)版手游下載

非凡教育分享站長必知的SEO排名工具

小微企業(yè)注冊流程及費用

東莞企業(yè)網(wǎng)站建設(shè)哪家好

想快速入門.NET的小伙伴，推薦下面教程案例，簡易度適中，非常適合剛剛

動態(tài)評分低對淘寶店鋪有哪些影響后果是什么

哪些因素決定網(wǎng)站建設(shè)費用？

外貿(mào)人必備開發(fā)客戶網(wǎng)址大全，推薦收藏！

內(nèi)容取代位置成流量新入口，門戶網(wǎng)站也要內(nèi)容為王？