github地址:

xtuhcy/geccoGecco是一款用java語(yǔ)言開(kāi)發(fā)的輕量化的易用的網(wǎng)絡(luò)爬蟲(chóng)。整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等框架,只需要配置一" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 網(wǎng)站運(yùn)營(yíng) > GitHub 上有哪些優(yōu)秀的 Java 爬蟲(chóng)項(xiàng)目?

GitHub 上有哪些優(yōu)秀的 Java 爬蟲(chóng)項(xiàng)目?

時(shí)間:2024-02-02 02:50:01 | 來(lái)源:網(wǎng)站運(yùn)營(yíng)

時(shí)間:2024-02-02 02:50:01 來(lái)源:網(wǎng)站運(yùn)營(yíng)

GitHub 上有哪些優(yōu)秀的 Java 爬蟲(chóng)項(xiàng)目?:1、Gecco

github地址:

xtuhcy/gecco
Gecco是一款用java語(yǔ)言開(kāi)發(fā)的輕量化的易用的網(wǎng)絡(luò)爬蟲(chóng)。整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等框架,只需要配置一些jquery風(fēng)格的選擇器就能很快的寫(xiě)出一個(gè)爬蟲(chóng)。Gecco框架有優(yōu)秀的可擴(kuò)展性,框架基于開(kāi)閉原則進(jìn)行設(shè)計(jì),對(duì)修改關(guān)閉、對(duì)擴(kuò)展開(kāi)放。

2、WebCollector

github地址:

CrawlScript/WebCollector
WebCollector是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的JAVA爬蟲(chóng)框架(內(nèi)核),它提供精簡(jiǎn)的的API,只需少量代碼即可實(shí)現(xiàn)一個(gè)功能強(qiáng)大的爬蟲(chóng)。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。

3、Spiderman

碼云地址:

l-weiwei/Spiderman2 - 碼云 - 開(kāi)源中國(guó)使用案例:

展現(xiàn)垂直爬蟲(chóng)的能力 - 像風(fēng)一樣自由
Spiderman 是一個(gè)基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡(luò)蜘蛛,它的目標(biāo)是通過(guò)簡(jiǎn)單的方法就能將復(fù)雜的目標(biāo)網(wǎng)頁(yè)信息抓取并解析為自己所需要的業(yè)務(wù)數(shù)據(jù)。

4、WebMagic

碼云地址:

flashsword20/webmagic - 碼云 - 開(kāi)源中國(guó)
webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現(xiàn)一個(gè)爬蟲(chóng)。webmagic采用完全模塊化的設(shè)計(jì),功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動(dòng)重試、自定義UA/cookie等功能。

5、Heritrix

github地址:

internetarchive/heritrix3
6、crawler4j

github地址:

yasserg/crawler4j · GitHub
crawler4j是Java實(shí)現(xiàn)的開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)。提供了簡(jiǎn)單易用的接口,可以在幾分鐘內(nèi)創(chuàng)建一個(gè)多線程網(wǎng)絡(luò)爬蟲(chóng)。

關(guān)鍵詞:爬蟲(chóng),項(xiàng)目,優(yōu)秀

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉