openEA周刊第55期 | 本期推薦:可用來抓數(shù)據(jù)的開源爬蟲軟件工具
時間:2023-03-20 08:28:02 | 來源:電子商務
時間:2023-03-20 08:28:02 來源:電子商務
摘要:世界上已經(jīng)成型的爬蟲軟件多達上百種,本文對較為知名及常見的開源爬蟲軟件進行梳理,按開發(fā)語言進行匯總。
openEA開源社區(qū)(ID:openEA)| 出品
小夕 | 編輯
周刊目錄新聞資訊
蘋果因不帶充電器被罰款200萬美元;楊笠代言英特爾被抵制,品牌方連夜下架;Linux考慮加入對Rust的支持
開源工具
可用來抓數(shù)據(jù)的開源爬蟲軟件工具
深度干貨
CTO 說了,還在用 Java Calendar 類處理時間的直接開除
人工智能
百度頭條紛紛高調入局!AI芯片到底是什么?
每周一書
《零基礎入門學習Python(第2版)》
新聞資訊
◇ 蘋果因不帶充電器被罰款200萬美元;楊笠代言英特爾被抵制,品牌方連夜下架;Linux考慮加入對Rust的支持(點擊閱讀全文)
來源 | CSDN
01一分鐘速覽新聞點!
騰訊副總裁姚星離職創(chuàng)業(yè),曾一手籌建騰訊 AI Lab
華為鴻蒙OS 2.0 手機更新官方適配計劃曝光:支持 Mate X2/Mate 40/P40 系列等,聯(lián)發(fā)科天璣機型可能無緣
發(fā)現(xiàn)抵用券漏洞,兩人瘋狂 “薅羊毛”獲利 770 余萬元,被警方采取刑事強制措施
楊笠代言英特爾被男網(wǎng)友抵制,品牌方連夜下架
蘋果同意在俄羅斯預裝政府批準的應用
馬斯克:正考慮建立機器人編程大學
蘋果因不帶充電器被罰款 200 萬美元
Google 準備發(fā)布 Fuchsia 的首個開發(fā)者版本
Linux:如果沒有人站出來維護 WiMAX 代碼,將刪除 WiMAX
紅旗 Linux 社區(qū)升級改版,并啟用全新域名
http://linuxsir.cnLinux-Next 加入對 Rust 的初步支持
?
02國內要聞
上海哈嘍單車再漲價目前,哈啰單車在上海的收費規(guī)則為前 15 分鐘 1.5 元,之后每 15 分鐘 1 元,相當于 4.5 元/時。而之前,哈啰單車的收費規(guī)則是前 30 分鐘 1.5 元,之后每 15 分鐘 1 元,相當于 3 元/時。
小米造車有望 4 月立項,由王川負責有記者從接近雷軍的投資方和車企高管等知情人士處獲悉,小米集團正在快速推進造車事項,最快有望在 1-2 個月內立項,初步討論的品牌定位與小鵬汽車類似,主打強科技屬性的中高端市場。該計劃的直接負責人為小米老將王川?!叭ツ暌荒辏醮ń?jīng)常往理想汽車跑,如果小米造車的 1 號負責人是雷軍, 2 號負責人就是王川。”知情人士表示。
華為鴻蒙OS 2.0 手機更新官方適配計劃曝光:支持 Mate X2/Mate 40/P40 系列等,聯(lián)發(fā)科天璣機型可能無緣據(jù)微博博主 @菊廠影業(yè) Fans 消息,鴻蒙系統(tǒng)的升級計劃內部消息來了。第一批升級名單是 Mate X2、Mate 40 系列、P40 系列。
此前爆料稱,首批升級名單中有 Mate X2、P50 系列、新平板系列隨后是 Mate 40 系列與 P40 系列。后來由于 P50 系列延期,改為直接搭載,而新平板系列也會直接搭載。
目前已知的聯(lián)發(fā)科天璣芯片暫時不在升級范圍內,但是后續(xù)會不會升級還是要看官方安排。
騰訊副總裁姚星離職創(chuàng)業(yè),曾一手籌建騰訊 AI Lab
3 月 19 日報道,騰訊集團副總裁、騰訊人工智能實驗室 AI LAB 院長姚星現(xiàn)從騰訊離職,姚星離職后,創(chuàng)立元象唯思控股(深圳)有限公司。
在就職騰訊期間,姚星主要負責技術工程事業(yè)群的基礎技術平臺、搜索技術平臺和人工智能研發(fā)的團隊管理和項目開發(fā)工作,有著豐富的服務架構方面技術經(jīng)驗,并使用該技術為微信、QQ 和 QQ 空間服務。同時也,他從事計算機視覺、語音識別、自然語言處理、機器學習等AI相關領域的研究工作。
發(fā)現(xiàn)抵用券漏洞,兩人瘋狂 “薅羊毛”獲利 770 余萬元,被警方采取刑事強制措施
近日在上海,派出所接報案稱,他們在定期對公司所運營的 App 后臺進行梳理時,發(fā)現(xiàn) 2020 年 11 月至 12 月期間,有約 1600 筆利用公司發(fā)售的抵用券進行購買的記錄存在異常,經(jīng)后臺比對,發(fā)現(xiàn)有 2 個客戶反復使用同一抵用券進行刷單。
報道稱,客戶可以利用支付時間差等方式來鉆空子,比如,抵用券價值 800 元,他們只要下一個 1000 元的訂單,自己支付 200 元的實際費用,就可以拿到 1000 元的貨物,再將這 1000 元的貨進行轉賣或者二手倒賣,就能賺取中間的差價。犯罪嫌疑人朱某、李某利用系統(tǒng)漏洞分別騙取該公司 640 萬元、130 萬價值的貨物。目前,犯罪嫌疑人朱某、李某因涉嫌詐騙罪已被青浦警方依法采取刑事強制措施,案件正在進一步偵辦中。
03國際要聞
楊笠代言 Intel 被男網(wǎng)友抵制,品牌方連夜下架
3 月 18 日,英特爾官方微博@英特爾芯品匯 放出了脫口秀演員楊笠的代言宣傳片,宣傳片中楊笠說道:“英特爾的眼光太高了,比我挑對象的眼光都高?!贝饲?,楊笠就因挑撥男女對立而飽受爭議,她那句“他明明那么普通卻那么自信”更是惹怒了很多男網(wǎng)友。在網(wǎng)上出現(xiàn)了大量的負面討論后,英特爾意識到氣氛不對,官方微博連夜下架了該代言內容,同時,英特爾官方淘寶店也撤下了與楊笠相關的宣傳海報。
蘋果同意在俄羅斯預裝政府批準的應用
據(jù)報道,蘋果同意俄羅斯用戶首次配置設備時將彈出提示預裝政府批準的一組應用。此舉旨在遵守俄羅斯最近通過的一項新法律。俄羅斯用戶可以拒絕安裝其中的特定應用。俄羅斯消費者保護法律 On Consumer Protection 的修正案要求在俄羅斯銷售的設備必須預裝政府批準的應用,該法律適用于智能手機、平板、筆記本、臺式機和智能電視。預裝的應用包括殺毒軟件、地圖、社交媒體、“公共服務”類應用。蘋果據(jù)報道將從 4 月 1 日執(zhí)行這一規(guī)定。
馬斯克:正考慮建立機器人編程大學
3 月 20 日,特斯拉公司首席執(zhí)行官伊隆·馬斯克與中國科學院院士、南方科技大學校長薛其坤在中國發(fā)展高層論壇 2021 上進行了對話。馬斯克稱,特斯拉未來或許也將嘗試企業(yè)大學的形式,比如機器人編程方面,把教育和產(chǎn)業(yè)發(fā)展結合起來。
蘋果因不帶充電器被罰款 200 萬美元
Tilt 和 MacRumors 報告稱,巴西消費者保護機構 Procon-SP 將對蘋果處以 1055 萬雷亞爾(約合 200 萬美元)的罰款,原因是該產(chǎn)品從 iPhone 12 家族中移除了電源適配器,并且更新了舊版 iPhone 的生產(chǎn)。據(jù)監(jiān)管機構稱,蘋果的舉動違反了該國的《消費者保護法》。
開源工具
◇ 可用來抓數(shù)據(jù)的開源爬蟲軟件工具(點擊閱讀全文)
來源 | openEA_wiki
前言
要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。
爬蟲,即網(wǎng)絡爬蟲,是一種自動獲取網(wǎng)頁內容的程序。是搜索引擎的重要組成部分,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲而做出的優(yōu)化。
網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。
世界上已經(jīng)成型的爬蟲軟件多達上百種,本文對較為知名及常見的開源爬蟲軟件進行梳理,按開發(fā)語言進行匯總。雖然搜索引擎也有爬蟲,但本次我匯總的只是爬蟲軟件,而非大型、復雜的搜索引擎,因為很多兄弟只是想爬取數(shù)據(jù),而非運營一個搜索引擎。
Java爬蟲
01Arachnid
Arachnid是一個基于Java的web spider框架.它包含一個簡單的HTML剖析器能夠分析包含HTML內容的輸入流.通過實現(xiàn)Arachnid的子類就能夠開發(fā)一個簡單的Web spiders并能夠在Web站上的每個頁面被解析之后增加幾行代碼調用。Arachnid的下載包中包含兩個spider應用程序例子用于演示如何使用該框架。
特點:微型爬蟲框架,含有一個小型HTML解析器
許可證:GPL
02crawlzilla
crawlzilla 是一個幫你輕松建立搜索引擎的自由軟件,有了它,你就不用依靠商業(yè)公司的搜索引擎,也不用再煩惱公司內部網(wǎng)站資料索引的問題。
由 nutch 專案為核心,并整合更多相關套件,并卡發(fā)設計安裝與管理UI,讓使用者更方便上手。crawlzilla 除了爬取基本的 html 外,還能分析網(wǎng)頁上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁搜索引擎,而是網(wǎng)站的完整資料索引庫。
擁有中文分詞能力,讓你的搜索更精準。
crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜索平臺。
授權協(xié)議:Apache License 2
開發(fā)語言:Java JavaScript SHELL
操作系統(tǒng):Linux
項目主頁:
https://github.com/shunfa/crawlzilla下載地址:
http://sourceforge.net/projects/crawlzilla/特點:安裝簡易,擁有中文分詞功能
03Ex-Crawler
Ex-Crawler 是一個網(wǎng)頁爬蟲,采用 Java 開發(fā),該項目分成兩部分,一個是守護進程,另外一個是靈活可配置的 Web 爬蟲。使用數(shù)據(jù)庫存儲網(wǎng)頁信息。
授權協(xié)議:GPLv3
開發(fā)語言:Java
操作系統(tǒng):跨平臺
特點:由守護進程執(zhí)行,使用數(shù)據(jù)庫存儲網(wǎng)頁信息
Heritrix
Heritrix 是一個由 java 開發(fā)的、開源的網(wǎng)絡爬蟲,用戶可以使用它來從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶實現(xiàn)自己的抓取邏輯。
Heritrix采用的是模塊化的設計,各個模塊由一個控制器類(CrawlController類)來協(xié)調,控制器是整體的核心。
代碼托管:
https://github.com/internetarchive/heritrix3授權協(xié)議:Apache
開發(fā)語言:Java
操作系統(tǒng):跨平臺
特點:嚴格遵照robots文件的排除指示和META robots標簽
04heyDr
heyDr是一款基于java的輕量級開源多線程垂直檢索爬蟲框架,遵循GNU GPL V3協(xié)議。
用戶可以通過heyDr構建自己的垂直資源爬蟲,用于搭建垂直搜索引擎前期的數(shù)據(jù)準備。
授權協(xié)議:GPLv3
開發(fā)語言:Java
操作系統(tǒng):跨平臺
特點:輕量級開源多線程垂直檢索爬蟲框架
ItSucks
ItSucks是一個java web spider(web機器人,爬蟲)開源項目。支持通過下載模板和正則表達式來定義下載規(guī)則。提供一個swing GUI操作界面。
特點:提供swing GUI操作界面
jcrawl
jcrawl是一款小巧性能優(yōu)良的的web爬蟲,它可以從網(wǎng)頁抓取各種類型的文件,基于用戶定義的符號,比如email,qq.
授權協(xié)議:Apache
開發(fā)語言:Java
操作系統(tǒng):跨平臺
特點:輕量、性能優(yōu)良,可以從網(wǎng)頁抓取各種類型的文件
深度干貨
◇ CTO 說了,還在用 Java Calendar 類處理時間的直接開除(點擊閱讀全文)
來源 | 碼匠筆記
Java 8 已經(jīng)普遍使用了,可是還在有人用 Java Calendar 處理時間和日期,不僅僅性能差,很切代碼很冗余,就不能用 Java 8 提供的新 API 嗎?所以 CTO 強制了,必須用 Java 8 處理日期,否則一律開除。下面是整理的 18 種處理日期的方式,可以收藏起來,一定有用。
Java處理日期、日歷和時間的方式一直為社區(qū)所詬病,將 java.util.Date設定為可變類型,以及SimpleDateFormat的非線程安全使其應用非常受限。
新API基于ISO標準日歷系統(tǒng),java.time包下的所有類都是不可變類型而且線程安全。
人工智能
◇ 百度頭條紛紛高調入局!AI芯片到底是什么?(點擊閱讀全文)
來源 | AI人工智能產(chǎn)業(yè)研究
今年央視3·15晚會格外“熱鬧”,商家濫用AI(人工智能)人臉識別、儲存面部信息的惡劣行為曝光,引起輿論嘩然。
有網(wǎng)友戲稱商家點歪了“科技樹”。一些商家會利用這樣的AI技術,識別出哪些是新客戶、哪些是高消費老客戶,甚至誰是暗訪的記者、誰是便衣的監(jiān)管。
AI技術飛速發(fā)展,但這樣被濫用引發(fā)社會思考:我們是不是應該放慢腳步、重新審視AI?
在AI在人臉技術、語音識別等方向的應用被重新審視的同時,另一邊AI芯片開發(fā)端腳步卻沒有慢下來,各種技術路線全面開花,全球技術大神火力全開加速研發(fā)。
大家為什么對AI芯片這么癡迷?它又將如何改變科技和生活?
字節(jié)火速入場,百度昆侖獨立融資
3月16日,有媒體發(fā)現(xiàn)字節(jié)跳動正在招聘多個芯片研發(fā)崗工程師,并報道字節(jié)正在向云端AI芯片和Arm服務器芯片的自主研發(fā)等方向探索。
同一天,字節(jié)跳動大方承認“是在組建相關團隊,在AI芯片領域做一些探索”。
那廂,百度也加緊了AI芯片業(yè)務的步伐。路透社也報道稱,“All in AI”、準備在港第二上市的百度旗下AI芯片部門“昆侖”最近完成了一輪獨立融資,這部分業(yè)務估值約為20億美元。
百度也高調回應,昆侖芯片業(yè)務近期確實已經(jīng)完成獨立融資。
百度的AI芯片率先進入到量產(chǎn)階段。2021年2月,李彥宏在百度全員信里提到昆侖1代已在搜索引擎、智能云生態(tài)伙伴等具體的業(yè)務場景得到部署,性能繼續(xù)提高的昆侖2代將采用7nm制程技術,也即將投入量產(chǎn)。
阿里、騰訊自然也沒有缺席這場角逐。阿里含光800 AI芯片于2020年9月面市,騰訊通過股權投資燧原科技的方式切入賽道。還有寒武紀、地平線,在AI芯片領域也是國產(chǎn)企業(yè)里的佼佼者。
巨頭們都大張旗鼓入場將寶押在這小小的芯片,讓巨頭們癡迷的AI芯片究竟是什么?
AI芯片究竟是什么?將會用在哪里?
AI芯片可不是利用AI技術來研發(fā)或制造芯片,而是為了AI計算而生的芯片,擁有更強的大數(shù)據(jù)計算能力,可以理解為“AI大腦”。
當下信息時代,社會每天都在產(chǎn)生大量的數(shù)據(jù),并且數(shù)據(jù)量在未來幾年還會快速攀升。而如何才能更好地處理這些海量數(shù)據(jù),成為首要問題。
軟件方面工程師們不斷鉆研更先進的算法,硬件方面AI芯片首當其沖。
我們不是有芯片么?為什么還需要單弄出來個AI芯片?這是因為AI有海量的數(shù)據(jù)需要處理,如果用傳統(tǒng)的CPU或者GPU去計算,會遇到功耗過大、計算效率低下的瓶頸。專注于大數(shù)據(jù)分析計算的AI芯片是專攻突破這一瓶頸的神器。
全球科技巨頭齊頭并進,做大了的AI芯片市場。艾瑞咨詢預測,2022年AI芯片市場空間有望超過500億美元,可謂一片藍海。
AI芯片將會用在哪里呢?我們將AI芯片分成兩類,便于理解。
一類“看得見摸得著”,是用在終端的AI芯片,比如我們的汽車、智能手環(huán)等。它們具有低功耗、高性能的特點,不斷收集最新的數(shù)據(jù)、更新最新的算法,來更好地服務。
另一類“看不見摸不著”,是部署在服務器云端的AI芯片,它們擁有非凡的計算能力,可以將無數(shù)終端AI芯片收集來的數(shù)據(jù)進行分析,進化成為“更強大腦”。
評價AI芯片的好壞,工程師們會從同步性、通用性、成本功耗等多個方面去研究。
站在投資者的視角,則需要注意的是,AI芯片雖然可以“顛覆性”提高計算性能,背后卻是高昂的研發(fā)投入和長達多年的研發(fā)周期,相對應的風險也是極高的。
另外目前AI芯片有CPUs、GPUs、ASICs、FPGAs、仿生芯片、量子芯片等多種技術路線,每一家企業(yè)只能押寶其中一條進行探索,未來被淘汰的技術路線勢將會面臨全盤皆輸。
反過來講,突圍的龍頭企業(yè)將擁有較高的技術壁壘,利潤前景豐厚。
英偉達領先,AI芯片競爭格局風起云涌
最后,我們再來把目光投向全球,看看AI芯片賽道的角逐情況。
目前Google、Intel、IBM等國際巨頭已經(jīng)全部入場AI芯片的研發(fā),處于領先地位的是英偉達。早在2010年,英偉達就“賭對了”GPU路線并推出一套名為CUDA的計算架構。
CUDA因為極好的適配性被迅速在各個細分領域應用,積累了很多算法和數(shù)據(jù),帶英偉達完成了從瀕臨破產(chǎn)到稱霸行業(yè)的華麗轉身。
不過就像上文說的,在數(shù)據(jù)爆發(fā)的時代里,計算需求也呈現(xiàn)爆發(fā)式增長,AI芯片還是藍海一片。資本已經(jīng)對這一領域表現(xiàn)出濃厚興趣,必將加速后來者的追趕速度,彎道超車的可能性非常大。
再加上中國市場擁有數(shù)據(jù)量大這一天然優(yōu)勢,百度、頭條們入場,能否在AI芯片領域向國際巨頭發(fā)起挑戰(zhàn)?等著我們的將會是一場好戲。
每周一書
◇ 《零基礎入門學習Python(第2版)》(點擊閱讀全文)
前言時光荏苒,一晃間,距離《零基礎入門學習Python》出版(2016年11月)已經(jīng)過去兩年多了,在這段時間里,Python逐步走入了大家的視野,這門語言因其簡潔的語法風格,在云計算、金融分析、人工智能、科學運算和自動化運維等領域上都有很好的應用,所以被越來越多的人所認識和接受,其使用率得到了大幅度的提升。
《零基礎入門學習Python》一經(jīng)出版便受到了廣大讀者的歡迎,累計銷售13萬冊,在出版后兩年多的時間里,收到了很多讀者朋友們的反饋,大部分的讀者朋友給予了很高的評價,小甲魚在此由衷地感謝大家。同時,也注意到朋友們提出的一些疑問、意見和建議。因此,在第2版中,小甲魚對所使用的Python版本進行了更新(Python 3.7);對書中存在的不足進行了彌補;引入了更多有趣的案例;添加了更多實用的模塊講解等。
本書特色(1)所有案例均使用Python 3.7版本代替了原來的Python 3.3,改寫了大部分知識點的例子,使讀者學習起來更富有趣味性。
(2)考慮到現(xiàn)實中的開發(fā)場景,增加了一些案例:
· 在爬蟲案例部分引入了流行的Request模塊;
· 增加了“爬取豆瓣Top250電影排行榜”和“爬取網(wǎng)易云音樂的熱門評論”案例;
· Scrapy爬蟲框架部分,采用了Anaconda來安裝Scrapy,使用Scrapy 1.5.0版本進行演示。
(3)考慮到“正則表達式”和“Scrapy爬蟲框架”在實際開發(fā)中的應用非常廣泛,將其從第1版中的第14章(論一只爬蟲的自我修養(yǎng))中獨立出來,添加了更多的示例,使得內容更為翔實、豐富。
(4)修改了第1版中的一些差錯,在此要再次感謝各位讀者提出的疑問,使 小甲魚能夠發(fā)現(xiàn)書中的不足之處。
精彩書評j***3:
這本書用通俗易懂、詼諧幽默的語言為枯燥的編程語言穿上了新衣,讓你在一個個小游戲開發(fā)設計中學會Python的數(shù)據(jù)類型、while語句、循環(huán)結構等基礎內容,真正做到了在實踐中掌握知識,在實踐中獲得編程的快樂和成就感。
j***1
簡單易學,條理清晰,語句輕松詼諧,把枯燥的編程語言,像講故事一樣娓娓道來,值得買。
G***0:
之前一直想要學習Python,卻不知道從哪里入手,看到了小甲魚的這本書就想先買回來試試看能不能學懂,沒想到書中的內容淺顯易懂,小甲魚以詼諧幽默的方式將知識傳遞給讀者,每節(jié)課還有視頻課程可以學習,并且之后能在論壇當中找到作業(yè)的解答對于自己不懂的問題在論壇中也會有其他好心人幫助你,對于入門學習Python的小白來說真的是非常棒了!
W***巨:
程序書原來還可以這么寫,語言生動、有趣,比看國外翻譯回來的那些書可讀性強多了,作者更加明白入門者想要什么,堪稱入門經(jīng)典。
尐***髙:
非常,非常,非常有意思的一本入門書,如果我買的一本書不是這本書,可能我根本就學不進去Python,十分感謝作者。
u***e:
非常適合零基礎,語句通俗、易懂且幽默、風趣,讓你愛不釋手,廢寢忘食,總想著一口氣讀完。再配上小甲魚的視頻教學,絕了。
小貼士:目前openEA應用市場已經(jīng)上線啦,如果你手頭上剛好有開源項目,歡迎到我們這里展示!
同時周刊已增設開源工具欄目,歡迎聯(lián)系開源君投稿哦~
開源社區(qū)福利多多,歡迎登陸
http://openea.net注冊會員哦!
?
/openEA
開源社區(qū)統(tǒng)一認證方案(上)——CAS與LDAP的搭建與集成
/企業(yè)應用
讓復雜的差旅費用報銷簡單起來
掃碼關注公眾號
新浪微博:@openEA開源社區(qū)
關鍵詞:數(shù)據(jù),爬蟲,工具,周刊,推薦