時間:2023-07-02 17:45:01 | 來源:網(wǎng)站運營
時間:2023-07-02 17:45:01 來源:網(wǎng)站運營
Python爬蟲之爬取情話網(wǎng)站并繪制詞云:import bs4import requests#摘要:根據(jù)傳入的url,爬取網(wǎng)站,如果有錯誤,則返回空字符#傳入:爬取的網(wǎng)址 string#返回:爬取的html stringdef getHtml(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: print('爬取失敗') return ''#摘要:分析html,找到需要的字符串#傳入:爬取的網(wǎng)站html string#返回:情話列表 listdef getQinghuaList(html): qList=[] soup=bs4.BeautifulSoup(html,"html.parser") for p in soup.find_all("p"): s=p.string s=str(s) s=s.split('、',1) finals=s[-1] qList.append(finals) return qListurl='http://www.1juzi.com/new/45856.html'html=getHtml(url)q=getQinghuaList(html)q
以下是爬取的部分情話['不是你愛我,我就要愛你,愛情不是交換,我也不想交換。', '我想觸動你的心,就像你觸動了我的心那樣。', '只為和你感觸那愛的射線,在你我眼中那一霎那的交融!', '有幸陪你從一而終,便是我此生最大的幸運。', '天涯供你選,我只負(fù)責(zé)陪你,東奔西走擋寒風(fēng)。', '我的所有心事,所有想法,過去,現(xiàn)在,將來,只歸結(jié)為一個聲音,一個語調(diào),如果它響起來,只能是:我愛你!', '在你抑郁的時候,我就是你的開心果。在你憂傷的時候,我愿作你的忘憂樹!', '你清風(fēng)白露守我百歲無憂,我鳳冠霞帔許你此生不渝。', '你就是我最困難時的那位永遠(yuǎn)支持我的人。', '一生算不算太久,有沒有盡頭,夠不夠帶我走。',………………………………………………………………'我沒有勇氣折斷我的翅膀,卻也飛不到任何地方。', '依依脈脈兩如何,細(xì)似柔絲渺似波。月不常圓花易落,一生惆悵為伊多。', '我的眼睛必定有問題,由于我的視線始終無奈從你的身旁移開。', '如果有一天,我無法繼續(xù)呼吸,那只是說明,我的世界缺少了空氣,或者,缺少了你。', '總是想念著你,雖然我們無法共同擁有每分每秒。', '在生活的激流里,我的船會永遠(yuǎn)追隨你,伴你一程又一程,平安駛向目的地,到達(dá)目標(biāo)后我會告訴你:一生不想離開你。', '當(dāng)我轉(zhuǎn)身時,你已不在了路口,是我回應(yīng)的太慢,還是你走的太快。', '曾經(jīng)有一份真摯得愛情擺在我面前,我沒有去珍惜。', '我學(xué)會了深夜把手機(jī)關(guān)機(jī)。然后塞到枕頭下面,沉沉睡去。', '愛之火,在我倆的心中燃起,從此我倆將被熔在一塊。', '你可不可以看著我的眼,就當(dāng)是我的奢望。']
#摘要:利用jieba中文分詞庫將情話分割成一個個詞匯#傳入:list情話列表#返回:srting情話字符串文本def splitList(l): fList=str() for s in l: sList=jieba.cut(s,cut_all=False) for i in sList: if i in [',','。','?','!','*','‘','’','“','”','、',';']: continue fList+=i fList+=' ' return fList#詞云背景顏色函數(shù)def random_color_func(word=None, font_size=None, position=None, orientation=None, font_path=None, random_state=None): h = random.randint(90,360) s = int(100.0 * 255.0 / 255.0) l = int(100.0 * float(random.randint(60, 120)) / 255.0) return "hsl({}, {}%, {}%)".format(h, s, l)word=splitList(q)back_color = np.array(imageio.imread('./1923.png_860.png'))#傳入愛心圖片,背景需設(shè)為透明#設(shè)置詞云wc = wordcloud.WordCloud( background_color='white',#背景色為白色 mask=back_color,#用上面?zhèn)魅氲膱D片繪制詞云 random_state=10,#設(shè)置有多少生成狀態(tài),即多少種詞的顏色 color_func=random_color_func,#上面的顏色控制函數(shù) font_path="C://Windows//Fonts//simkai.ttf"#中文字體的路徑 )wc.generate(word)#生成詞云wc.to_file('1900pro2.png')#導(dǎo)出詞云圖片plt.imshow(wc)#展示圖片plt.axis('off')#取消坐標(biāo)軸plt.show()
關(guān)鍵詞:繪制,爬蟲,情話
微信公眾號
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。