工具使用開發(fā)環(huán)境：win10、python3.6

開發(fā)工具：pycharm

工具包：requests，re, time, random，tkinter

項(xiàng)目思路分析

1.網(wǎng)頁(yè)" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

首頁(yè)

解決方案&服務(wù)

客戶&案例

營(yíng)銷資訊

關(guān)于我們

15158846557 或

在線咨詢

所在位置：首頁(yè) > 營(yíng)銷資訊 > 網(wǎng)站運(yùn)營(yíng) > 用python爬取微博評(píng)論 ▏附源碼

用python爬取微博評(píng)論 ▏附源碼

時(shí)間：2023-05-14 22:27:01 | 來源：網(wǎng)站運(yùn)營(yíng)

時(shí)間：2023-05-14 22:27:01 來源：網(wǎng)站運(yùn)營(yíng)

用python爬取微博評(píng)論 ▏附源碼：

今天目標(biāo)

用python爬取微博任意博文的評(píng)論信息

工具使用

開發(fā)環(huán)境：win10、python3.6

開發(fā)工具：pycharm

工具包 ：requests，re, time, random，tkinter

項(xiàng)目思路分析

1.網(wǎng)頁(yè)版登錄拿回cookie值

2.選取要爬的博文評(píng)論信息的網(wǎng)頁(yè)版網(wǎng)址

3.根據(jù)網(wǎng)頁(yè)版的地址抓包拿回博文唯一的id值（weibo_id）

4.構(gòu)造博文手機(jī)版評(píng)論請(qǐng)求的地址

f’

5.發(fā)送請(qǐng)求拿回響應(yīng)的json數(shù)據(jù)

6.max_id和max_id_type的值確定

7.構(gòu)造data參數(shù)，下次翻頁(yè)請(qǐng)求要加上參數(shù)

"""構(gòu)造GET請(qǐng)求參數(shù)"""        data = {            'id': weibo_id,            'mid': weibo_id,            'max_id': max_id,            'max_id_type': max_id_type        }

8.max_id為上一個(gè)包的翻頁(yè)規(guī)律

9.然后繼續(xù)解析數(shù)據(jù)，獲取評(píng)論信息內(nèi)容，然后再翻頁(yè)，一直回調(diào)。

起始地址先進(jìn)行登錄

登錄之后點(diǎn)開一篇博文，點(diǎn)擊評(píng)論，點(diǎn)擊查看更多評(píng)論

本文以https://weibo.com/3167104922/Kkl7ar83T#comment為例

search搜索weibo_id，構(gòu)造headers里面的requests url，發(fā)送請(qǐng)求拿回weibo_id的值

進(jìn)入手機(jī)版模式進(jìn)行XHR抓包

翻頁(yè)用到data的參數(shù)

"""構(gòu)造GET請(qǐng)求參數(shù)"""        data = {            'id': weibo_id,            'mid': weibo_id,            'max_id': max_id,            'max_id_type': max_id_type        }

先來個(gè)代碼操作

本代碼需要準(zhǔn)備手機(jī)版登錄后的cookie和博文網(wǎng)頁(yè)版地址

源碼展示：

# !/usr/bin/nev python# -*-coding:utf8-*-from datetime import datetimefrom requests_html import HTMLSessionimport re, timeimport tkinter as tkimport urllib3                      # 解除警告urllib3.disable_warnings()session = HTMLSession()class WBSpider(object):    def __init__(self):        """定義可視化窗口，并設(shè)置窗口和主題大小布局"""        self.window = tk.Tk()        self.window.title('微博評(píng)論信息采集')        self.window.geometry('800x600')        """創(chuàng)建label_user按鈕，與說明書"""        self.label_user = tk.Label(self.window, text='請(qǐng)輸入要爬取的微博評(píng)論的地址：', font=('Arial', 12), width=30, height=2)        self.label_user.pack()        """創(chuàng)建label_user關(guān)聯(lián)輸入"""        self.entry_user = tk.Entry(self.window, show=None, font=('Arial', 14))        self.entry_user.pack(after=self.label_user)        """創(chuàng)建label_passwd按鈕，與說明書"""        self.label_passwd = tk.Label(self.window, text="請(qǐng)輸入登陸后的cookie：", font=('Arial', 12), width=30, height=2)        self.label_passwd.pack()        """創(chuàng)建label_passwd關(guān)聯(lián)輸入"""        self.entry_passwd = tk.Entry(self.window, show=None, font=('Arial', 14))        self.entry_passwd.pack(after=self.label_passwd)        """創(chuàng)建Text富文本框，用于按鈕操作結(jié)果的展示"""        self.text1 = tk.Text(self.window, font=('Arial', 12), width=85, height=22)        self.text1.pack()        """定義按鈕1，綁定觸發(fā)事件方法"""        self.button_1 = tk.Button(self.window, text='爬取', font=('Arial', 12), width=10, height=1,                                  command=self.parse_hit_click_1)        self.button_1.pack(before=self.text1)        """定義按鈕2，綁定觸發(fā)事件方法"""        self.button_2 = tk.Button(self.window, text='清除', font=('Arial', 12), width=10, height=1,                                  command=self.parse_hit_click_2)        self.button_2.pack(anchor="e")    def parse_hit_click_1(self):        """定義觸發(fā)事件1,調(diào)用main函數(shù)"""        user_url = self.entry_user.get()        pass_wd = self.entry_passwd.get()        self.main(user_url, pass_wd)    def main(self, user_url, pass_wd):        i = 1        headers_1 = {            'cookie': pass_wd,            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36'        }        headers_2 ={            "referer": "微博",            'cookie': pass_wd,            'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Mobile Safari/537.36'        }        uid_1 = re.findall('/(.*?)#', user_url)[0]        uid_2 = uid_1.split('/', 3)[3]        # print(uid_2)        url_1 = f'https://weibo.com/ajax/statuses/show?id={uid_2}'        prox = ''        response = session.get(url_1, proxies={'http': prox, 'https': prox}, headers=headers_1, verify=False).content.decode()        # print(response)        weibo_id = re.findall('"id":(.*?),"idstr"', response)[0]        # print(weibo_id)        # 構(gòu)造起始地址        start_url = f'https://m.weibo.cn/comments/hotflow?id={weibo_id}&mid={weibo_id}&max_id_type=0'        """                2.發(fā)送請(qǐng)求，獲取響應(yīng)： 解析起始的url地址                :return:                """        prox = ''        response = session.get(start_url, proxies={'http': prox, 'https': prox}, headers=headers_2, verify=False).json()        """提取翻頁(yè)的max_id"""        max_id = response['data']['max_id']        """提取翻頁(yè)的max_id_type"""        max_id_type = response['data']['max_id_type']        """構(gòu)造GET請(qǐng)求參數(shù)"""        data = {            'id': weibo_id,            'mid': weibo_id,            'max_id': max_id,            'max_id_type': max_id_type        }        """解析評(píng)論內(nèi)容"""        self.parse_response_data(response, i)        i+=1        """參數(shù)傳遞，方法回調(diào)"""        self.parse_page_func(data, weibo_id, headers_2, i)    def parse_page_func(self, data, weibo_id, headers_2, i):        """        :return:        """        start_url = '微博-出錯(cuò)了        prox = ''        response = session.get(start_url, proxies={'http': prox, 'https': prox}, headers=headers_2, params=data, verify=False).json()        """提取翻頁(yè)的max_id"""        max_id = response['data']['max_id']        """提取翻頁(yè)的max_id_type"""        max_id_type = response['data']['max_id_type']        """構(gòu)造GET請(qǐng)求參數(shù)"""        data = {            'id': weibo_id,            'mid': weibo_id,            'max_id': max_id,            'max_id_type': max_id_type        }        """解析評(píng)論內(nèi)容"""        self.parse_response_data(response, i)        i+=1        """遞歸回調(diào)"""        self.parse_page_func(data, weibo_id, headers_2, i)    def parse_response_data(self, response, i):        """        從響應(yīng)中提取評(píng)論內(nèi)容        :return:        """        """提取出評(píng)論大列表"""        data_list = response['data']['data']        # print(data_list)        for data_json_dict in data_list:            # 提取評(píng)論內(nèi)容            try:                texts_1 = data_json_dict['text']                """需要sub替換掉標(biāo)簽內(nèi)容"""                # 需要替換的內(nèi)容，替換之后的內(nèi)容，替換對(duì)象                alts = ''.join(re.findall(r'alt=(.*?) ', texts_1))                texts = re.sub("<span.*?</span>", alts, texts_1)                # 點(diǎn)贊量                like_counts = str(data_json_dict['like_count'])                # 評(píng)論時(shí)間   格林威治時(shí)間---需要轉(zhuǎn)化為杭州時(shí)間                created_at = data_json_dict['created_at']                std_transfer = '%a %b %d %H:%M:%S %z %Y'                std_create_times = str(datetime.strptime(created_at, std_transfer))                # 性別  提取出來的是  f                gender = data_json_dict['user']['gender']                genders = '女' if gender == 'f' else '男'                # 用戶名                screen_names = data_json_dict['user']['screen_name']                print(screen_names, genders, std_create_times, texts, like_counts)                print()            except Exception as e:                continue        print('*******************************************************************************************')        print()        print(f'*****第{i}頁(yè)評(píng)論打印完成*****')    def parse_hit_click_2(self):        """定義觸發(fā)事件2，刪除文本框中內(nèi)容"""        self.entry_user.delete(0, "end")        self.entry_passwd.delete(0, "end")        self.text1.delete("1.0", "end")    def center(self):        """創(chuàng)建窗口居中函數(shù)方法"""        ws = self.window.winfo_screenwidth()        hs = self.window.winfo_screenheight()        x = int((ws / 2) - (800 / 2))        y = int((hs / 2) - (600 / 2))        self.window.geometry('{}x{}+{}+{}'.format(800, 600, x, y))    def run_loop(self):        """禁止修改窗體大小規(guī)格"""        self.window.resizable(False, False)        """窗口居中"""        self.center()        """窗口維持--持久化"""        self.window.mainloop()if __name__ == '__main__':    w = WBSpider()    w.run_loop()

僅供學(xué)習(xí)，爬蟲使用須謹(jǐn)慎！

來源：CSDN博主「主打Python」

原文鏈接：

關(guān)鍵詞：評(píng)論

網(wǎng)站
營(yíng)銷
設(shè)計(jì)
運(yùn)營(yíng)
優(yōu)化
效率
專注
電商
方案
推廣

解決方案&服務(wù)

客戶&案例

營(yíng)銷資訊

關(guān)于我們

解決方案&服務(wù)

客戶&案例

營(yíng)銷資訊

關(guān)于我們

微信公眾號(hào)

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果，本站不支持IE9及以下版本的瀏覽器，建議您使用谷歌Chrome瀏覽器。點(diǎn)擊下載Chrome瀏覽器

關(guān)閉

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

用python爬取微博評(píng)論 ▏附源碼

今天目標(biāo)

工具使用

項(xiàng)目思路分析

起始地址先進(jìn)行登錄

網(wǎng)絡(luò)推廣費(fèi)用幫助網(wǎng)站提高排名的4個(gè)小細(xì)節(jié)！

優(yōu)秀的模板網(wǎng)站制作必須具備的7大要素

購(gòu)買阿里云域名和空間服務(wù)器實(shí)操

企業(yè)管理制度制定規(guī)范與最新實(shí)用范例（215頁(yè))

雍熙干貨分享 | 網(wǎng)站建設(shè)哪家好？如何選擇網(wǎng)站設(shè)計(jì)公司？

找工作必備，云南省企業(yè)100強(qiáng)名單

15個(gè)高端網(wǎng)站設(shè)計(jì)欣賞

微信 8.0 安卓版內(nèi)測(cè)地址

有絲：專業(yè)的微信社群營(yíng)銷平臺(tái)

電子商城網(wǎng)站建設(shè)該注意什么？角點(diǎn)科技告訴你主要是哪些？

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

用python爬取微博評(píng)論 ▏附源碼

今天目標(biāo)

工具使用

項(xiàng)目思路分析

起始地址先進(jìn)行登錄

推薦文章

網(wǎng)頁(yè)設(shè)計(jì)與制作實(shí)驗(yàn)教程第3版編輯推薦與評(píng)論：

香港政黨研究媒體評(píng)論

HTML5 CSS JavaScript深入學(xué)習(xí)實(shí)錄媒體評(píng)論

網(wǎng)頁(yè)設(shè)計(jì)與制作教程第四版編輯推薦與評(píng)論：

網(wǎng)頁(yè)制作技術(shù)第二版編輯推薦與評(píng)論

宮本武藏人物評(píng)論

瘋狂的站長(zhǎng)媒體評(píng)論

限貸令評(píng)論

凈網(wǎng)行動(dòng)社會(huì)評(píng)論

網(wǎng)站創(chuàng)富媒體評(píng)論

網(wǎng)絡(luò)推廣費(fèi)用幫助網(wǎng)站提高排名的4個(gè)小細(xì)節(jié)！

優(yōu)秀的模板網(wǎng)站制作必須具備的7大要素

購(gòu)買阿里云域名和空間服務(wù)器實(shí)操

企業(yè)管理制度制定規(guī)范與最新實(shí)用范例（215頁(yè))

雍熙干貨分享 | 網(wǎng)站建設(shè)哪家好？如何選擇網(wǎng)站設(shè)計(jì)公司？

找工作必備，云南省企業(yè)100強(qiáng)名單

15個(gè)高端網(wǎng)站設(shè)計(jì)欣賞

微信 8.0 安卓版內(nèi)測(cè)地址

有絲：專業(yè)的微信社群營(yíng)銷平臺(tái)

電子商城網(wǎng)站建設(shè)該注意什么？角點(diǎn)科技告訴你主要是哪些？

雍熙干貨分享 | 網(wǎng)站建設(shè)哪家好？如何選擇網(wǎng)站設(shè)計(jì)公司？

找工作必備，云南省企業(yè)100強(qiáng)名單

電子商城網(wǎng)站建設(shè)該注意什么？角點(diǎn)科技告訴你主要是哪些？