python爬取搞笑的段子,讓你笑到根本停步下來(lái),哈哈哈......
時(shí)間:2022-05-06 13:00:02 | 來(lái)源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-05-06 13:00:02 來(lái)源:行業(yè)動(dòng)態(tài)
今天小編轉(zhuǎn)換風(fēng)格,給大家講一個(gè)冷笑話,問(wèn)你們:
大家知道高速公路怎么來(lái)的嗎?
因?yàn)椤耙恢还?,它走著走著,越走越快,最后它變成了高速公?鹿)!!!!” 世界上最遠(yuǎn)的距離是啥?
“是兩個(gè)人到了邊境,你過(guò)去了,我護(hù)照忘帶了。。” 醫(yī)生:從X光片上看你的肋骨斷裂了。
患者:啊,那怎么辦?
醫(yī)生:沒(méi)關(guān)系,我已經(jīng)用Photoshop幫你修好了。
下班前的發(fā)給你: 客戶:“這個(gè)圖下班之前必須發(fā)給我!”
設(shè)計(jì)師:“好的!” 第二天清早。
客戶:“圖怎么還沒(méi)發(fā)過(guò)來(lái)?”
設(shè)計(jì)師:“我還沒(méi)下班呢…
我們經(jīng)常會(huì)在一些網(wǎng)站上看到冷笑話提問(wèn),然后網(wǎng)友們的回答真是令人叫絕,五花八門(mén),搭不上邊,但是仔細(xì)一品,還真有一些意猶未盡。
神奇的段子配上神回復(fù),這是在組cp嗎?簡(jiǎn)直就是笑死人,不償命。 還有很多很多冷笑話等你們?nèi)ネ诰?,一個(gè)一個(gè)去找,去看回復(fù),太麻煩了,我們年輕人應(yīng)該用簡(jiǎn)單粗暴的方法解決問(wèn)題,在這里小編就python編程整理一下,以知乎為例,接下來(lái)一起看看具體程序。
簡(jiǎn)單的兩個(gè)步驟就能實(shí)現(xiàn),第一步爬取知乎回答,第二部篩選回答。是不是很easy?如果你也有這個(gè)愛(ài)好,可以和小編一起來(lái)實(shí)現(xiàn)。 爬取知乎回答 我們都知道知乎的問(wèn)題和回答太多,去挑選是很麻煩的事,所以我們可以選定幾個(gè)話題,爬取這幾個(gè)話題里的內(nèi)容。
下面的函數(shù)用于爬取某一個(gè)指定話題的內(nèi)容:
def get_answers_by_page(topic_id, page_no):
offset = page_no * 10
url = topic_url # topic_url是這個(gè)話題對(duì)應(yīng)的url
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
}
r = requests.get(url, verify=False, headers=headers)
content = r.content.decode("utf-8")
data = json.loads(content)
is_end = data["paging"]["is_end"]
items = data["data"]
client = pymongo.MongoClient()
db = client["zhihu"]
if len(items) 0:
db.answers.insert_many(items)
db.saved_topics.insert({"topic_id": topic_id, "page_no": page_no})
return is_end
爬下來(lái)的內(nèi)容當(dāng)中有幾個(gè)需要注意的字段,下圖中用黃框高亮出來(lái)了:
這幾個(gè)字段的含義如下:
question.title:?jiǎn)栴}的標(biāo)題。 content:回答的內(nèi)容。 voteup_count:贊同的數(shù)量。 這些代碼含義要記住哦,下面的內(nèi)容還會(huì)用到的。
篩選回答: 既然你想要挖掘的話題已經(jīng)出來(lái)了,下面就要篩選回答,話不多說(shuō),上代碼: client = pymongo.MongoClient()
db = client["zhihu"]
items = db.answers.aggregate([
{"$match": {"target.type": "answer"}},
{"$match": {"target.voteup_count": {"$gte": 1000}}},
{"$addFields": {"answer_len": {"$strLenCP": "$target.content"}}},
{"$match": {"answer_len": {"$lte": 50}}},])
上面的代碼會(huì)篩選所有贊同大于 1000、字?jǐn)?shù)小于 50 的回答,篩選出來(lái)的結(jié)果就是短小精辟的神回復(fù)
以上就已經(jīng)完成了全部步驟,是不是簡(jiǎn)單不能再簡(jiǎn)單了,當(dāng)然也得讓大家看看最后的展示結(jié)果
注意接下來(lái)的話,你品,你細(xì)細(xì)品。 A:中國(guó)程序員是否偏愛(ài)「沖鋒衣 牛仔褲 運(yùn)動(dòng)鞋」的衣著?如果是,為何會(huì)形成這樣的潮流?
B:穿那么好看給程序看嗎? A:祈求代碼不出 bug 該拜哪個(gè)神仙?
B:拜雍正,專治八阿哥。 IT 工程師被叫「碼農(nóng)」時(shí)是否會(huì)不舒服?
A:計(jì)算機(jī)系的學(xué)生都有哪些口頭禪?
B:我電腦上運(yùn)行的好好的啊?? A:假如有一天所有的人都使用計(jì)算機(jī)語(yǔ)言說(shuō)話,會(huì)是怎樣的場(chǎng)景?
B:hello,world。燙燙燙燙燙燙燙?d}??R?0:?v??. A:計(jì)算機(jī)世界里有哪些經(jīng)典謠言?
B:我已閱讀并同意該條款。 除了這些神回復(fù),冷笑話也不能缺席: 01、一個(gè)程序員抽著煙,向空中吐著煙圈。他的女朋友對(duì)吸煙感到憤怒。
女朋友:“難道你不能看到煙盒上的警告嗎?吸煙有害健康!”
程序員回答說(shuō):“我是一名程序員。我一般不擔(dān)心警告,只擔(dān)心錯(cuò)誤?!?br>
02、街邊,一對(duì)情侶在吵架。
女孩對(duì)男孩說(shuō),“我們分手吧!”
女孩對(duì)男孩說(shuō),“我們分手吧!”
男孩沉默半天,開(kāi)口問(wèn)道,
“我能再說(shuō)最后一句話嗎?”
“說(shuō)吧,婆婆媽媽的?!?br>
“我會(huì)編程……”
“會(huì)編程有個(gè)屁用啊,現(xiàn)在到處都是會(huì)編程的人!”
男孩漲紅了臉,接著說(shuō)道,
“我會(huì)編程……我會(huì)變成……童話里,你愛(ài)的那個(gè)天使……”
03、某程序員致電客戶:“你好”
客戶:“你也好!你是?”
程序員:“我?我是程序員?!?br>
客戶:“哦,程先生。”?
程序員:“客氣,叫我序員就好。
還有好多好多,敬請(qǐng)期待
如果你想用python爬取到更多網(wǎng)站信息,歡迎關(guān)注小編,或者可以去“蟻小二”官網(wǎng)了解哦~