有哪些微博數(shù)據(jù)分析工具可以推薦?
時間:2023-11-23 23:18:02 | 來源:網(wǎng)站運營
時間:2023-11-23 23:18:02 來源:網(wǎng)站運營
有哪些微博數(shù)據(jù)分析工具可以推薦?: 近年來,對社媒的分析,首選Facebook、推特、微博等社交平臺的數(shù)據(jù)切入,在我身邊,說到對微博數(shù)據(jù)的挖掘分析,躍躍欲試,但著手開始,問題撲面而來。一是論文方向確定的煩惱,二是確定后足夠的樣本數(shù)據(jù)的獲取問題,三就是真正分析了,結(jié)果是沒有結(jié)論,再試沒有結(jié)論,最后還是沒有結(jié)論,這樣對研究者來說是極其痛苦的,同時也很容易陷入為了分析而分析的窘境。
互聯(lián)網(wǎng)不乏一些對微博數(shù)據(jù)分析的工具,比如:
- 知微傳播分析-WeiboReach,微博傳播分析、社會網(wǎng)絡(luò)分析。
- 孔明社會化媒體管理平臺2.0,內(nèi)容運營、客戶管理、數(shù)據(jù)分析(傳播分析、賬號分析、行業(yè)報告)、輿情分析等。
… …
百度一搜一籮筐,但真正符合我需求的還沒有,不是挑剔,是實話實說。
按我的理解,這些微博數(shù)據(jù)分析工具相當于是一個已經(jīng)確定分析模型與算法的輸出工具,輸入微博或是網(wǎng)址之后,諸如用戶情感值、粉絲質(zhì)量、水軍分析、傳播視圖等分析報告新鮮出爐,作為一名比較死磕的研究僧,結(jié)論很重要,但過程更重要。所以,先選好論文方向,再建立分析模型,最后得出結(jié)論。
結(jié)合自己的經(jīng)歷,下面說說微博論文方向和用到的工具。
(1)論文方向 搜搜知網(wǎng),微博數(shù)據(jù)挖掘的研究方向五花八門,中國對微博最早的研究出現(xiàn)在2009年,不過對微博數(shù)據(jù)的挖掘,是從10年才開始熱起來的,這要結(jié)合當時微博的發(fā)展背景,一個產(chǎn)品,使用人數(shù)多到一定的程度便會引起更多的人去關(guān)注。
抓了在知網(wǎng)上有收錄的快兩千篇微博數(shù)據(jù)挖掘的論文信息,對研究主題進行分類統(tǒng)計,大概可以看出:
- 社會網(wǎng)絡(luò)關(guān)系分析12.8%
- 輿情分析6.0%
- 信息檢索和推薦6.8%
- 用戶情感分析7.2%
- 信息管理、組織等13.7%
- 信息傳播12.6%
- 影響力分析5.5%
- 話題事件分析9.8%
- 文本挖掘8.8%
- 其他16.7%
研究方向萬花筒般,本人的研究方向傾向于文本挖掘,曾經(jīng)參加過微博的一個商業(yè)項目(給XX公司做手機人群研究),由發(fā)布終端來判斷用戶的手機型號,從這些用戶的博文中挖掘不同手機用戶群體的差異。
以目標手機為關(guān)鍵詞,高級搜索出博文,提出無效樣本博文后,將這些樣本數(shù)據(jù)進行分詞打標,然后對不同機型的用戶博文差異詞進行分類匹配,統(tǒng)計不同機型的匹配度樣本數(shù)占比,標簽詞對哪種機型較為匹配,則通過匹配度距離來衡量。
沒有用到復(fù)雜的分析工具,明確分析思路后建立分析框架就較為順手了,最后從中可以看到一些有趣的結(jié)論,XX手機的用戶相對XX手機的用戶具有更寬泛的話題(營銷傳播觸達難度更大),XX手機用戶討論的更多的是時政話題,而XX手機用戶較為關(guān)注網(wǎng)絡(luò)購物,又或者是XX手機用戶相對XX手機更為年輕等等。因為涉及到商業(yè)協(xié)議,具體的分析結(jié)論不貼出了。
明確研究方向很重要,只是一個大概的方向還不行,這樣很容易像無頭的蒼蠅樣亂飛亂撞。
(2)工具 對于微博的挖掘分析,研究者首先最需要的應(yīng)該是微博的原始數(shù)據(jù)。
程序員出生的話,自己動手寫寫爬蟲,當作編程作業(yè),抓成后還可以收獲滿滿的成就感。不過也有像我同學(xué)一樣接近畢業(yè)著急趕論文耗不起搗鼓程序或者是對編程門外漢的朋友,這種情況就要借助于一些數(shù)據(jù)獲取工具,對爬蟲術(shù)業(yè)有專攻的一些大牛研發(fā)的工具足夠解決微博的數(shù)據(jù)獲取問題了,所以不妨借助它們。
- PKUVIS(杭州大學(xué) PKUVIS 微博可視分析工具),傳播分析,可以抓取微博數(shù)據(jù),好像也可以對接API接口。
這個工具本站上也有人做過推薦,本著沒有使用就沒有發(fā)言權(quán)的原則,對于這個微博可視化分析工具不多做說明,有興趣的可以試試,我主要講下下面一個微博數(shù)據(jù)抓取工具箱。
因為我有自己的研究模型,所以在研究階段最讓我頭疼的應(yīng)該是原始數(shù)據(jù)的獲取了,這個工具確實幫了大忙。
微博對抓取數(shù)據(jù)量和頻率做了限制,自己寫過爬蟲的人來說應(yīng)該深有體會,采集的數(shù)據(jù)多了,必定會被封賬號,被封后還得清緩沖換ID換賬號,最終抓到的數(shù)據(jù)也不一定全。
GooSeeker集微庫微博數(shù)據(jù)采集工具,測試之后,效果還好,能夠獲取微博的原始數(shù)據(jù),適合論文分析使用,不會編程,那就試試,它不需要任何一點程序知識。
測試可以先指定了一個明星的微博賬號,鄧超學(xué)霸~
鄧超學(xué)霸發(fā)了729條微博,它這個工具抓了大概10分鐘。
最后導(dǎo)出數(shù)據(jù)后是這樣的,有651條數(shù)據(jù),雖然沒有729條但比我自己寫爬蟲抓的要全。
工具箱有5個小工具,分別是
- 博主主頁內(nèi)容采集
- 關(guān)鍵詞搜索結(jié)果
- 熱門在博文轉(zhuǎn)/評信息
- 話題廣場輿論
- TA的粉絲與關(guān)注者
基本上覆蓋微博的所有數(shù)據(jù),這個工具箱對需要微博數(shù)據(jù)的研究僧算是福音了。
或者你有沒有想過(這是我看到的一個知友提過的想法):
從指定用戶開始,抓取他所有的微博信息及每條微博下面評論、轉(zhuǎn)發(fā)、點贊用戶的相關(guān)屬性信息(包括id、用戶名、所在地、粉絲數(shù)、關(guān)注數(shù)、標簽等等),然后進行迭代,抓取剛才抓到用戶(即剛才評論、轉(zhuǎn)發(fā)、點贊的所有用戶)的所發(fā)布的所有(可以自己設(shè)置抓取頁數(shù))微博信息,在抓他每條微博下面評論、轉(zhuǎn)發(fā)、點贊用戶的相關(guān)屬性信息,以此類推…
你有興趣的話,可以試試。
關(guān)鍵詞:工具,推薦,分析,數(shù)據(jù)