爬網(wǎng)頁、洗數(shù)據(jù)、創(chuàng)建海量數(shù)據(jù)集一條龍!英偉達工程師小姐姐開源工具庫
時間:2023-06-01 23:39:02 | 來源:網(wǎng)站運營
時間:2023-06-01 23:39:02 來源:網(wǎng)站運營
爬網(wǎng)頁、洗數(shù)據(jù)、創(chuàng)建海量數(shù)據(jù)集一條龍!英偉達工程師小姐姐開源工具庫:
乾明 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
想做研究,卻沒有足夠的數(shù)據(jù),著實讓人抓狂、苦惱。
現(xiàn)在,你可以自己動手創(chuàng)建數(shù)據(jù)集了。
英偉達工程師小姐姐Chip Huyen,在GitHub上開源了一個名為“l(fā)azynlp”的工具庫。
爬網(wǎng)頁、清洗數(shù)據(jù)、創(chuàng)建數(shù)據(jù)集都可以搞定。
她說,使用這個庫,你應(yīng)該能創(chuàng)建一個比大于40G的文本數(shù)據(jù)集,比OpenAI訓(xùn)練GPT-2時使用的還要大。
開源僅一天,項目在GitHub上就獲得了300多星,Twitter上獲得上千次點贊。fast.ai創(chuàng)始人Jeremy Howard等人也轉(zhuǎn)發(fā)推薦。
而且,用這個工具庫創(chuàng)建數(shù)據(jù)集的過程,也并不麻煩。
五步走,一條龍
第一步,獲取你想抓取的網(wǎng)頁的網(wǎng)址。小姐姐提供了三個你可以直接拿走使用的網(wǎng)址集合,分別來自Reddit、古騰堡計劃(電子書)、維基百科。
當(dāng)然,你也可以下載自己的。
第二步,刪除重復(fù)的網(wǎng)址。網(wǎng)址有很多,重復(fù)也在所難免。
這里提供了兩種方法,來刪除重復(fù)的網(wǎng)址。
第三步,下載網(wǎng)址內(nèi)容。這里提供了兩種方法,一種可以并行下載多個文件,另一種可以單獨下載網(wǎng)頁內(nèi)容。
如果網(wǎng)址數(shù)量比較大,可以將列表分成多個文件的,分別調(diào)用函數(shù)。
小姐姐說,自己能夠并行40個腳本,下載起來也更容易一些。
第四步,清理網(wǎng)頁。這一步有3個方法可以選擇,一是使用lazynlp/cleaner.py中的方法,二是直接調(diào)用命令行:
lazynlp.clean_page(page)
另外,也可以使用lazynlp.download_pages ( )函數(shù),同時爬網(wǎng)頁并清理。
第五步,刪除重復(fù)網(wǎng)頁。網(wǎng)站下載好了,該清理的東西都清理了,接下來需要去重。
不然就會有一些文本重復(fù)出現(xiàn),從而影響數(shù)據(jù)集的表現(xiàn)。
小姐姐提供了3個函數(shù),可以幫你完成步驟。
做完這些,你就有自己的NLP數(shù)據(jù)集了,想干什么就可以放手去做了。
如果你有想法,請收好下面的傳送門:
https://github.com/chiphuyen/lazynlp—
完 —
量子位 · QbitAI
?'?' ? 追蹤AI技術(shù)和產(chǎn)品新動態(tài)
戳右上角「+關(guān)注」獲取最新資訊↗↗
如果喜歡,請分享or點贊吧~比心?
關(guān)鍵詞:數(shù)據(jù),小姐,工程師,工具,創(chuàng)建,海量