某頭部互聯(lián)網(wǎng)公司被攻陷,攻擊者利用爬蟲獲取 11.8 億條數(shù)據(jù),所獲數(shù)據(jù)皆被銷
時(shí)間:2023-05-28 05:54:01 | 來源:網(wǎng)站運(yùn)營(yíng)
時(shí)間:2023-05-28 05:54:01 來源:網(wǎng)站運(yùn)營(yíng)
某頭部互聯(lián)網(wǎng)公司被攻陷,攻擊者利用爬蟲獲取 11.8 億條數(shù)據(jù),所獲數(shù)據(jù)皆被銷毀:
經(jīng)查,涉事兩名攻擊者非法獲取某互聯(lián)網(wǎng)公司客戶信息共計(jì) 11.8 億條,
在 8 個(gè)月的時(shí)間里利用該信息經(jīng)營(yíng)共獲利 34 萬余元。最終,二人因侵犯公民個(gè)人信息罪,
分別被判處有期徒刑三年六個(gè)月,有期徒刑三年三個(gè)月。
某頂級(jí)互聯(lián)網(wǎng)公司十億余條信息被外泄
6 月 9 日,網(wǎng)傳某頂級(jí)互聯(lián)網(wǎng)公司被攻陷,十億余條信息外泄。
中國(guó)裁判文書網(wǎng)的一則判決書證實(shí)了該傳聞。
據(jù)中國(guó)裁判文書網(wǎng)發(fā)布的《逯某、黎某侵犯公民個(gè)人信息一審刑事判決書》顯示,2020 年 8 月 14 日,某互聯(lián)網(wǎng)公司報(bào)稱警,在 2020 年 7 月 6 日到 2020 年 7 月 13 日時(shí),有黑產(chǎn)通過 mtop 訂單評(píng)價(jià)接口繞過平臺(tái)風(fēng)控批量爬取加密數(shù)據(jù),爬取字段量巨大,7 月 6 日至 7 月 13 日之間平均每天爬取數(shù)量 500 萬,爬取內(nèi)容包括買家用戶昵稱,用戶評(píng)價(jià)內(nèi)容,昵稱等敏感字段。
經(jīng)該公司網(wǎng)站排查發(fā)現(xiàn),逯某有重大作案嫌疑,作案地點(diǎn)河南省商丘市睢陽(yáng)區(qū)新城街道長(zhǎng)江路民政局家屬院,立為刑事案件。
經(jīng)審理查明,被告人黎某在湖南省瀏陽(yáng)市成立了瀏陽(yáng)市泰創(chuàng)網(wǎng)絡(luò)科技有限公司(自然人獨(dú)資),該公司設(shè)有返利部、客服部、招商部等部門。
據(jù)悉,該公司主要是做優(yōu)惠券返利的,主要利用用戶的手機(jī)號(hào)加對(duì)方微信好友進(jìn)行推廣商品,讓用戶領(lǐng)取優(yōu)惠券,對(duì)方使用優(yōu)惠券成功購(gòu)買商品,該公司會(huì)獲得返利。
被告人逯某受雇于被告人黎某,作為公司技術(shù)員,每月工資一萬元。
自 2019 年 11 月,被告人逯某在商丘市睢陽(yáng)區(qū)其家中利用自己開發(fā)的爬蟲軟件,通過某互聯(lián)網(wǎng)公司電商網(wǎng)站網(wǎng)頁(yè)接口爬取客戶的信息,并將其中客戶的手機(jī)號(hào)碼提供給被告人黎某,用于瀏陽(yáng)市泰創(chuàng)網(wǎng)絡(luò)科技有限公司用于經(jīng)營(yíng)活動(dòng),該公司自 2019 年 11 月份至 2020 年 7 月份利用該信息經(jīng)營(yíng)共獲利 340187.68 元。
經(jīng)司法鑒定,被告人逯某通過其開發(fā)的軟件爬取某互聯(lián)網(wǎng)公司電商網(wǎng)站客戶的數(shù)字 ID、昵稱、手機(jī)號(hào)碼等客戶信息共計(jì) 1180738048 條,被告人逯某將其爬取信息中的客戶手機(jī)號(hào)碼通過微信文件的形式發(fā)送給被告人黎某使用共計(jì) 19712611 條。
涉事互聯(lián)網(wǎng)公司安全風(fēng)控員發(fā)現(xiàn)黑產(chǎn)行為
被告人逯某,因涉嫌非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)、非法控制計(jì)算機(jī)信息系統(tǒng)罪,于 2020 年 8 月 15 日被商丘市公安局新城分局刑事拘留,2020 年 9 月 22 日被逮捕。
被告人黎某,因涉嫌侵犯公民個(gè)人信息罪,2020 年 8 月 21 日被抓獲,于 2020 年 8 月 22 日被商丘市公安局新城分局刑事拘留,同年 9 月 22 日被逮捕。
被告人逯某辯稱,只采集了五千萬條,十一億八千萬條不是我采集的,是從其它地方下載的,我采集的信息沒有傳播,只有電話號(hào)碼,沒有身份信息,沒有聯(lián)系任何一個(gè)用戶,沒有得到利潤(rùn)。獲利只有六七萬或七八萬元。
被告人黎某辯稱,逯某給我發(fā)的信息只是一個(gè)單純的手機(jī)號(hào)碼,沒有拿這些信息做違法犯罪的事情,返利部的獲利是利用該信息,其他部獲利與該信息無關(guān),愿意退出 37 萬元的違法所得。
證人馬某證言證實(shí),其系某互聯(lián)網(wǎng)公司安全風(fēng)控員,2020 年 7 月 13 日,其在工作中發(fā)現(xiàn),平臺(tái)的評(píng)價(jià)接口存在異常流量行為,經(jīng)排查后發(fā)現(xiàn)有黑產(chǎn)通過破解接口的形式進(jìn)行加密數(shù)據(jù)的爬取,在 2020 年 7 月 13 日至 2020 年 7 月 20 日之間爬取了 3500 萬條數(shù)據(jù)。
該互聯(lián)網(wǎng)公司公司派工作人員前往商丘市公安局犯罪偵查支隊(duì)直屬二大隊(duì)協(xié)查調(diào)查,通過嫌疑人逯某的電腦硬盤信息分析統(tǒng)計(jì),共計(jì) 12 億條手機(jī)號(hào)、user_nick 等加密相關(guān)信息。
國(guó)家林業(yè)局森林公安司法鑒定中心物證檢驗(yàn)報(bào)告證實(shí),對(duì)逯某、黎某手機(jī)數(shù)據(jù)恢復(fù)、提取、鑒定。情況說明證實(shí),(調(diào)取逯某電腦數(shù)據(jù)庫(kù)中數(shù)據(jù)的真實(shí)性說明)逯某數(shù)據(jù)庫(kù)數(shù)據(jù)統(tǒng)計(jì),共有 12 億條數(shù)據(jù),據(jù)抽樣 1W 條數(shù)據(jù)進(jìn)行排查屬正確關(guān)系對(duì)數(shù)據(jù)。主要字段包含 user_id,user_nick,手機(jī)號(hào),注冊(cè)時(shí)間等屬于某互聯(lián)網(wǎng)公司實(shí)際認(rèn)證的真實(shí)信息。
判決:黎某獲刑三年六個(gè)月;逯某獲刑三年三個(gè)月
商丘市睢陽(yáng)區(qū)人民檢察院認(rèn)為,被告人逯某受雇于被告人黎某,二人違反國(guó)家規(guī)定,非法獲取公民個(gè)人信息,情節(jié)特別嚴(yán)重,其行為均已構(gòu)成侵犯公民個(gè)人信息罪。公訴機(jī)關(guān)指控罪名成立。且系共同犯罪,被告人逯某、黎某有坦白情節(jié),且認(rèn)罪認(rèn)罰,對(duì)其均可從輕處罰。
綜合其犯罪情節(jié)及社會(huì)危害性,依照《中華人民共和國(guó)刑法》第二百五十三條之一、第二十五條第一款、第六十七條第三款、第五十二條、第五十三條、第六十四條之規(guī)定,判決如下:
一、被告人黎某犯侵犯公民個(gè)人信息罪,判處有期徒刑三年六個(gè)月,并處罰金人民幣三十五萬元。
二、被告人逯某犯侵犯公民個(gè)人信息罪,判處有期徒刑三年三個(gè)月,并處罰金人民幣十萬元。
三、被告人黎某、逯某違法所得依法繼續(xù)予以追繳上繳國(guó)庫(kù)。
四、依法扣押的作案工具逯某電腦主機(jī) 5 臺(tái)、電腦顯示器 3 臺(tái)和手機(jī) 5 個(gè),由扣押機(jī)關(guān)依法處理。
矛盾的爬蟲技術(shù)
這起案件中,被告人的主要“作案工具”之一是爬蟲技術(shù),其非法爬取了某互聯(lián)網(wǎng)公司的十億余條數(shù)信息。
在一些場(chǎng)景,爬蟲技術(shù)很容易游走在違法邊緣。尤其在一些金融大數(shù)據(jù)公司中,爬蟲業(yè)務(wù)被廣泛應(yīng)用。2019 年下半年,一場(chǎng)嚴(yán)厲的監(jiān)管風(fēng)暴下,多家金融大數(shù)據(jù)公司接連被查,被查原因中多涉及違規(guī)利用爬蟲技術(shù)的問題。
業(yè)內(nèi)有這樣一種說法,爬蟲貢獻(xiàn)了互聯(lián)網(wǎng) 50% 的流量,它對(duì)于互聯(lián)網(wǎng)的繁榮功不可沒。但該技術(shù)同時(shí)也因“用途”而充滿爭(zhēng)議。爬蟲是一項(xiàng)見不得“陽(yáng)光”的技術(shù),它廣泛運(yùn)用,卻少有人愿意承認(rèn)在使用它。因?yàn)樗31挥米鞣欠ㄊ占畔⒌墓ぞ?,站上?shù)據(jù)隱私、數(shù)據(jù)安全的對(duì)立面。
“爬蟲技術(shù)本身并無對(duì)錯(cuò),但要看怎么用,用錯(cuò)了肯定違法啊”,一位程序員向 AI 前線表示,“技術(shù)無罪,關(guān)鍵在于人”。
網(wǎng)絡(luò)爬蟲是非常普遍的一種數(shù)據(jù)挖掘技術(shù),它是一種按照一定的規(guī)則,自動(dòng)地抓取網(wǎng)絡(luò)信息的程序或者腳本。爬蟲技術(shù)最早主要運(yùn)用在搜索引擎中,它滿足了人們的數(shù)據(jù)獲取、分析需求。早在 1995 年,為了不越“邊界”,互聯(lián)網(wǎng)搜索引擎與網(wǎng)頁(yè)持有者之間達(dá)成了一項(xiàng)“君子協(xié)定”— robot 協(xié)議,該協(xié)議規(guī)定了哪些信息該爬,哪些信息不該爬,20 多年來,該協(xié)議一直沿用至今。
在遵循 robot 協(xié)議的前提下使用爬蟲技術(shù)是沒有任何風(fēng)險(xiǎn)的。但往往有些“作惡者”試圖越過紅線,一些大數(shù)據(jù)公司打著“大數(shù)據(jù)分析”的名頭違規(guī)違法爬取任何網(wǎng)頁(yè)及訪問用戶的數(shù)據(jù),致使“蟲災(zāi)”泛濫。
現(xiàn)在的爬蟲似乎無所不能,只要有賬號(hào)密碼都可以爬,包括電商平臺(tái)、外賣平臺(tái)、地圖、旅行網(wǎng)站、共享單車、等平臺(tái)的個(gè)人信息,用戶的通訊錄、上網(wǎng)地址、收貨地址、聊天記錄、搜索記錄、支付記錄,甚至央行的征信報(bào)告...總之,一切皆可爬,還可進(jìn)行定制化爬取。
爬蟲也是一項(xiàng)“矛盾”的技術(shù)。爬與反爬的“斗爭(zhēng)”每天都在上演,力量此消彼長(zhǎng)。
據(jù)一位資深程序員介紹,現(xiàn)在比較常見的反爬蟲技術(shù)手段主要有,檢測(cè) Header 信息;設(shè)置 IP 訪問頻率,分析同一 IP 或同一設(shè)備在短時(shí)間內(nèi)多次訪問同一頁(yè)面或進(jìn)行相同操作;識(shí)別 UA、通過動(dòng)態(tài)頁(yè)面增加爬取難度等方式。
這幾年,隨著隨著 AI 的發(fā)展,一些機(jī)器學(xué)習(xí)、canvas 指紋等智能反爬蟲技術(shù)也被運(yùn)用起來。例如,騰訊云網(wǎng)站管家 WAF 就將 AI 檢測(cè)引擎能力,運(yùn)用到了爬蟲 Bot 程序檢測(cè)的環(huán)節(jié)上,AI 引擎能夠?qū)φ军c(diǎn)訪問流量的會(huì)話進(jìn)行追蹤,通過流量畫像,匹配行為模型及行為標(biāo)簽進(jìn)行識(shí)別,進(jìn)而識(shí)別出爬蟲 Bot 程序流量行為。
2019 年 5 月,被稱為“中國(guó)版 GDPR”的《數(shù)據(jù)安全管理辦法》征求意見稿發(fā)布,第 16 條規(guī)定,網(wǎng)絡(luò)運(yùn)營(yíng)者采取自動(dòng)化手段訪問收集網(wǎng)站數(shù)據(jù),不得妨礙網(wǎng)站正常運(yùn)行;如自動(dòng)化訪問收集流量超過網(wǎng)站日均流量三分之一,網(wǎng)站要求停止自動(dòng)化訪問收集時(shí),應(yīng)當(dāng)停止。
一位業(yè)內(nèi)人士認(rèn)為,技術(shù)只是工具,在獲取數(shù)據(jù)時(shí)需要考慮數(shù)據(jù)到底有沒有獲得授權(quán),需要幾方授權(quán),在拿到用戶授權(quán)的情況下,有沒有拿到網(wǎng)站等數(shù)據(jù)來源方的授權(quán),這其中涉及到的權(quán)責(zé)邊界應(yīng)該更明確。
隨著監(jiān)管越來越嚴(yán)格,爬蟲技術(shù)的使用邊界也將更加明晰?;ヂ?lián)網(wǎng)從業(yè)者應(yīng)當(dāng)懷有敬畏之心,要時(shí)時(shí)注意不要觸碰邊界,畢竟,爬蟲只是技術(shù),灰色的是“助惡者”。
黑產(chǎn)猖獗,AI 風(fēng)控來“智”斗
近年來,黑產(chǎn)分子欺詐的手段也是“道高一尺、魔高一丈”,人機(jī)對(duì)話、網(wǎng)絡(luò)詐騙等新興欺詐手段增多,詐騙方法也漸趨智能化。據(jù)統(tǒng)計(jì),網(wǎng)絡(luò)黑產(chǎn)的從業(yè)人員超過 200 萬,市場(chǎng)規(guī)模高達(dá)千億級(jí)別。
例如在電商場(chǎng)景中,每逢節(jié)日大促,商家和平臺(tái)會(huì)推出滿減、優(yōu)惠券、紅包、積分抵現(xiàn)金等多種多樣的促銷,但消費(fèi)者經(jīng)常遇到失去到手的戰(zhàn)利品和優(yōu)惠券的情況,實(shí)際上,這很大可能是網(wǎng)絡(luò)黑產(chǎn)們?cè)诒澈髣?dòng)了這些原本屬于消費(fèi)者的奶酪。
通常情況下,在官方發(fā)布促銷活動(dòng)之前,黑產(chǎn)會(huì)通過暗網(wǎng)、QQ 群、微信群、黑產(chǎn)論壇等渠道來及時(shí)獲取相關(guān)活動(dòng)信息,以不法渠道購(gòu)買大批量 IP、手機(jī)號(hào)和設(shè)備資源等基礎(chǔ)資源來注冊(cè)、登錄電商平臺(tái),并通過自動(dòng)化操作工具以及自動(dòng) / 人工打碼平臺(tái)來提升作惡效率。
在很多電商業(yè)務(wù)場(chǎng)景中,黑產(chǎn)會(huì)專門研究對(duì)應(yīng)的業(yè)務(wù)流程并從中挖掘出存在的漏洞,再與自有核心資源和基礎(chǔ)工具進(jìn)行整合,從而把整個(gè)行為鏈條編寫成可以自動(dòng)執(zhí)行的業(yè)務(wù)工具,開始全自動(dòng)、大批量的進(jìn)行作惡,從而獲取高額利潤(rùn)。
依法打擊黑產(chǎn)不僅需要監(jiān)管部門、平臺(tái)和商家的協(xié)作,更需要技術(shù)手段的介入。目前,很多行業(yè)如電商、金融、游戲、醫(yī)療等行業(yè)的很多企業(yè)和機(jī)構(gòu)開始運(yùn)用 AI 來加強(qiáng)大數(shù)據(jù)風(fēng)控。
與傳統(tǒng)的人工風(fēng)控方式相比,AI 風(fēng)控能夠解決很多歷史痛點(diǎn)問題。首先是人工效率的問題,傳統(tǒng)體系中,人為干預(yù)因素較多,但每個(gè)人工作時(shí)間有上限。但 AI 的工作時(shí)間不會(huì)受到限制,可以 24 小時(shí)工作。
其次,AI 技術(shù)對(duì)細(xì)化客戶分層的顆粒度及實(shí)現(xiàn)精細(xì)化管理助力頗多。AI 能夠代替人工處理,能精準(zhǔn)用戶畫像,提高風(fēng)險(xiǎn)識(shí)別能力。特別是處理大規(guī)模的客戶方面,例如針對(duì)百萬級(jí)、千萬級(jí)、上億的客戶,如此大量的客戶不能完全靠一個(gè)風(fēng)控團(tuán)隊(duì)去處理,必須要借助 AI 技術(shù)進(jìn)行這種大量級(jí)客戶的風(fēng)險(xiǎn)識(shí)別工作。
關(guān)鍵詞:數(shù)據(jù),獲取,爬蟲,利用,攻擊