有哪些「神奇」的數(shù)據(jù)獲取方式?
時間:2023-11-20 05:00:01 | 來源:網(wǎng)站運營
時間:2023-11-20 05:00:01 來源:網(wǎng)站運營
有哪些「神奇」的數(shù)據(jù)獲取方式?:大數(shù)據(jù)時代,用數(shù)據(jù)做出理性分析顯然更為有力。做數(shù)據(jù)分析前,能夠找到合適的的數(shù)據(jù)源是一件非常重要的事情,獲取數(shù)據(jù)的方式有很多種,不必局限。下面將從公開的數(shù)據(jù)集、爬蟲、數(shù)據(jù)采集工具、付費API等等介紹。給大家推薦一些能夠用得上的數(shù)據(jù)獲取方式,后續(xù)也會不斷補充、更新。
一、公開數(shù)據(jù)庫
1.常用數(shù)據(jù)公開網(wǎng)站UCI:經(jīng)典的機器學習、數(shù)據(jù)挖掘數(shù)據(jù)集,包含分類、聚類、回歸等問題下的多個數(shù)據(jù)集。很經(jīng)典也比較古老,但依然活躍在科研學者的視線中。
國家數(shù)據(jù):數(shù)據(jù)來源中華人民共和國國家統(tǒng)計局,包含了我國經(jīng)濟民生等多個方面的數(shù)據(jù),并且在月度、季度、年度都有覆蓋,全面又權威。
CEIC:最完整的一套超過128個國家的經(jīng)濟數(shù)據(jù),能夠精確查找GDP、CPI、進口、出口、外資直接投資、零售、銷售以及國際利率等深度數(shù)據(jù)。其中的“中國經(jīng)濟數(shù)據(jù)庫”收編了300,000多條時間序列數(shù)據(jù),數(shù)據(jù)內容涵蓋宏觀經(jīng)濟數(shù)據(jù)、行業(yè)經(jīng)濟數(shù)據(jù)和地區(qū)經(jīng)濟數(shù)據(jù)。
萬得:簡要介紹:被譽為中國的Bloomberg,在金融業(yè)有著全面的數(shù)據(jù)覆蓋,金融數(shù)據(jù)的類目更新非???,據(jù)說很受國內的商業(yè)分析者和投資人的親睞。
搜數(shù)網(wǎng):已加載到搜數(shù)網(wǎng)站的統(tǒng)計資料達到7,874本,涵蓋1,761,009張統(tǒng)計表格和364,580,479個統(tǒng)計數(shù)據(jù),匯集了中國資訊行自92年以來收集的所有統(tǒng)計和調查數(shù)據(jù),并提供多樣化的搜索功能。
中國統(tǒng)計信息網(wǎng):國家統(tǒng)計局的官方網(wǎng)站,匯集了海量的全國各級政府各年度的國民經(jīng)濟和社會發(fā)展統(tǒng)計信息,建立了以統(tǒng)計公報為主,統(tǒng)計年鑒、階段發(fā)展數(shù)據(jù)、統(tǒng)計分析、經(jīng)濟新聞、主要統(tǒng)計指標排行等。
亞馬遜:來自亞馬遜的跨科學云數(shù)據(jù)平臺,包含化學、生物、經(jīng)濟等多個領域的數(shù)據(jù)集。
figshare:研究成果共享平臺,在這里可以找到來自世界的大牛們的研究成果分享,獲取其中的研究數(shù)據(jù)。
github:一個非常全面的數(shù)據(jù)獲取渠道,包含各個細分領域的數(shù)據(jù)庫資源,自然科學和社會科學的覆蓋都很全面,適合做研究和數(shù)據(jù)分析的人員。
2.政府開放數(shù)據(jù)杭州市政務數(shù)據(jù)資源網(wǎng):包含競技、交通、醫(yī)療、天氣等數(shù)據(jù)。
杭州市政府數(shù)據(jù)開放平臺:交通、文娛、就業(yè)、基礎設施等數(shù)據(jù)。
杭州市政務數(shù)據(jù)服務網(wǎng):覆蓋經(jīng)濟建設、文化科技、信用服務、交通出行等12個重點領域數(shù)據(jù)。
浙江省政府數(shù)據(jù)開放平臺:浙江省在政務數(shù)據(jù)開放方面做的確實不錯。
Data.gov:美國政府開放數(shù)據(jù),包含氣候、教育、能源金融等各領域數(shù)據(jù)。
3.數(shù)據(jù)競賽網(wǎng)站競賽的數(shù)據(jù)集通常干凈且科研究性非常高。
DataCastle:專業(yè)的數(shù)據(jù)科學競賽平臺。
Kaggle:全球最大的數(shù)據(jù)競賽平臺。
天池:阿里旗下數(shù)據(jù)科學競賽平臺。
Datafountain:CCF制定大數(shù)據(jù)競賽平臺。
二、利用爬蟲可以獲得有價值數(shù)據(jù)
這里給出了一些網(wǎng)站平臺,我們可以使用爬蟲爬取網(wǎng)站上的數(shù)據(jù),某些網(wǎng)站上也給出獲取數(shù)據(jù)的API接口,但需要付費。
1.財經(jīng)數(shù)據(jù)(1)新浪財經(jīng):免費提供接口,這篇博客教授了如何在新浪財經(jīng)上獲取獲取歷史和實時股票數(shù)據(jù)。
(2)東方財富網(wǎng):可以查看財務指標或者根據(jù)財務指標選股。
(3)中財網(wǎng):提供各類財經(jīng)數(shù)據(jù)。
(4)黃金頭條:各種財經(jīng)資訊。
(5)StockQ:國際股市指數(shù)行情。
(6)Quandl:金融數(shù)據(jù)界的維基百科。
(7)Investing:投資數(shù)據(jù)。
(8)整合的96個股票API合集。
(9)Market Data Feed and API:提供大量數(shù)據(jù),付費,有試用期。
2.網(wǎng)貸數(shù)據(jù)(1)網(wǎng)貸之家:包含各大網(wǎng)貸平臺不同時間段的放貸數(shù)據(jù)。
(2)零壹數(shù)據(jù):各大平臺的放貸數(shù)據(jù)。
(4)網(wǎng)貸天眼:網(wǎng)貸平臺、行業(yè)數(shù)據(jù)。
(5)76676互聯(lián)網(wǎng)金融門戶:網(wǎng)貸、P2P、理財?shù)然ソ饠?shù)據(jù)。
3.公司年報(1)巨潮資訊:各種股市咨詢,公司股票、財務信息。
(2)SEC.gov:美國證券交易數(shù)據(jù)
(3)HKEx news披露易:年度業(yè)績報告和年報。
4.創(chuàng)投數(shù)據(jù)(1)36氪:最新的投資資訊。
(2)投資潮:投資資訊、上市公司信息。
(3)IT桔子:各種創(chuàng)投數(shù)據(jù)。
5.社交平臺(1)新浪微博:評論、輿情數(shù)據(jù),社交關系數(shù)據(jù)。
(2)Twitter:輿情數(shù)據(jù),社交關系數(shù)據(jù)。
(3)本站:優(yōu)質問答、用戶數(shù)據(jù)。
(4)微信公眾號:公眾號運營數(shù)據(jù)。
(5)百度貼吧:輿情數(shù)據(jù)
(6)Tumblr:各種福利圖片、視頻。
6.就業(yè)招聘(1)拉勾:互聯(lián)網(wǎng)行業(yè)人才需求數(shù)據(jù)。
(2)中華英才網(wǎng):招聘信息數(shù)據(jù)。
(3)智聯(lián)招聘:招聘信息數(shù)據(jù)。
(4)獵聘網(wǎng):高端職位招聘數(shù)據(jù)。
7.餐飲食品(1)美團外賣:區(qū)域商家、銷量、評論數(shù)據(jù)。
(2)百度外賣:區(qū)域商家、銷量、評論數(shù)據(jù)。
(3)餓了么:區(qū)域商家、銷量、評論數(shù)據(jù)。
(4)大眾點評:點評、輿情數(shù)據(jù)。
8.交通旅游(1)12306:鐵路運行數(shù)據(jù)。
(2)攜程:景點、路線、機票、酒店等數(shù)據(jù)。
(3)去哪兒:景點、路線、機票、酒店等數(shù)據(jù)。
(4)途牛:景點、路線、機票、酒店等數(shù)據(jù)。
(5)貓途鷹:世界各地旅游景點數(shù)據(jù),來自全球旅行者的真實點評。
類似的還有同程、驢媽媽、途家等
9.電商平臺(1)亞馬遜:商品、銷量、折扣、點評等數(shù)據(jù)
(2)淘寶:商品、銷量、折扣、點評等數(shù)據(jù)
(3)天貓:商品、銷量、折扣、點評等數(shù)據(jù)
(4)京東:3C產(chǎn)品為主的商品信息、銷量、折扣、點評等數(shù)據(jù)
(5)當當:圖書信息、銷量、點評數(shù)據(jù)。
類似的唯品會、聚美優(yōu)品、1號店等。
10.影音數(shù)據(jù)(1)豆瓣電影:國內最受歡迎的電影信息、評分、評論數(shù)據(jù)。
(2)時光網(wǎng):最全的影視資料庫,評分、影評數(shù)據(jù)。
(3)貓眼電影專業(yè)版:實時票房數(shù)據(jù),電影票房排行。
(4)網(wǎng)易云音樂:音樂歌單、歌手信息、音樂評論數(shù)據(jù)。
11.房屋信息(1)58同城房產(chǎn):二手房數(shù)據(jù)。
(2)安居客:新房和二手房數(shù)據(jù)。
(3)Q房網(wǎng):新房信息、銷售數(shù)據(jù)。
(4)房天下:新房、二手房、租房數(shù)據(jù)。
(5)小豬短租:短租房源數(shù)據(jù)。
12.購車租車(1)網(wǎng)易汽車:汽車資訊、汽車數(shù)據(jù)。
(2)人人車:二手車信息、交易數(shù)據(jù)。
(3)中國汽車工業(yè)協(xié)會:汽車制造商產(chǎn)量、銷量數(shù)據(jù)。
13.新媒體數(shù)據(jù)新榜:新媒體平臺運營數(shù)據(jù)。
清博大數(shù)據(jù):微信公眾號運營榜單及輿情數(shù)據(jù)。
微問數(shù)據(jù):一個針對微信的數(shù)據(jù)網(wǎng)站。
知微傳播分析:微博傳播數(shù)據(jù)。
14.分類信息(1)58同城:豐富的同城分類信息。
(2)趕集網(wǎng):豐富的同城分類信息。
如果你是小白,想通過爬蟲獲得有價值的數(shù)據(jù),推薦我們的體系課程——Python爬蟲:入門+進階
三、數(shù)據(jù)交易平臺
由于現(xiàn)在數(shù)據(jù)的需求很大,也催生了很多做數(shù)據(jù)交易的平臺,當然,出去付費購買的數(shù)據(jù),在這些平臺,也有很多免費的數(shù)據(jù)可以獲取。
優(yōu)易數(shù)據(jù):由國家信息中心發(fā)起,擁有國家級信息資源的數(shù)據(jù)平臺,國內領先的數(shù)據(jù)交易平臺。平臺有B2B、B2C兩種交易模式,包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的數(shù)據(jù)資源。
數(shù)據(jù)堂:專注于互聯(lián)網(wǎng)綜合數(shù)據(jù)交易,提供數(shù)據(jù)交易、處理和數(shù)據(jù)API服務,包含語音識別、醫(yī)療健康、交通地理、電子商務、社交網(wǎng)絡、圖像識別等方面的數(shù)據(jù)。
四、網(wǎng)絡指數(shù)
百度指數(shù):指數(shù)查詢平臺,可以根據(jù)指數(shù)的變化查看某個主題在各個時間段受關注的情況,進行趨勢分析、輿情預測有很好的指導作用。除了關注趨勢之外,還有需求分析、人群畫像等精準分析的工具,對于市場調研來說具有很好的參考意義。同樣的另外兩個搜索引擎搜狗、360也有類似的產(chǎn)品,都可以作為參考。
阿里指數(shù):國內權威的商品交易分析工具,可以按地域、按行業(yè)查看商品搜索和交易數(shù)據(jù),基于淘寶、天貓和1688平臺的交易數(shù)據(jù)基本能夠看出國內商品交易的概況,對于趨勢分析、行業(yè)觀察意義不小。
友盟指數(shù):友盟在移動互聯(lián)網(wǎng)應用數(shù)據(jù)統(tǒng)計和分析具有較為全面的統(tǒng)計和分析,對于研究移動端產(chǎn)品、做市場調研、用戶行為分析很有幫助。除了友盟指數(shù),友盟的互聯(lián)網(wǎng)報告同樣是了解互聯(lián)網(wǎng)趨勢的優(yōu)秀讀物。
愛奇藝指數(shù):愛奇藝指數(shù)是專門針對視頻的播放行為、趨勢的分析平臺,對于互聯(lián)網(wǎng)視頻的播放有著全面的統(tǒng)計和分析,涉及到播放趨勢、播放設備、用戶畫像、地域分布、等多個方面。由于愛奇藝龐大的用戶基數(shù),該指數(shù)基本可以說明實際情況。
微指數(shù):微指數(shù)是新浪微博的數(shù)據(jù)分析工具,微指數(shù)通過關鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來反映微博輿情或賬號的發(fā)展走勢。分為熱詞指數(shù)和影響力指數(shù)兩大模塊,此外,還可以查看熱議人群及各類賬號的地域分布情況。
除了以上指數(shù)外,還有谷歌趨勢、搜狗指數(shù)、360趨勢、艾漫指數(shù)等等。
五、網(wǎng)絡采集器
網(wǎng)絡采集器是通過軟件的形式實現(xiàn)簡單快捷地采集網(wǎng)絡上分散的內容,具有很好的內容收集作用,而且不需要技術成本,被很多用戶作為初級的采集工具。
造數(shù):新一代智能云爬蟲。爬蟲工具中最快的,比其他同類產(chǎn)品快9倍。擁有千萬IP,可以輕松發(fā)起無數(shù)請求,數(shù)據(jù)保存在云端,安全方便、簡單快捷。
火車采集器:一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息。
八爪魚:簡單實用的采集器,功能齊全,操作簡單,不用寫規(guī)則。特有的云采集,關機也可以在云服務器上運行采集任務。
——————————
關注公眾號(datacastle2016),獲取更多數(shù)據(jù)分析干貨。