基于微博數(shù)據(jù) 研究分析客家文化
時(shí)間:2023-05-18 08:36:01 | 來源:網(wǎng)站運(yùn)營(yíng)
時(shí)間:2023-05-18 08:36:01 來源:網(wǎng)站運(yùn)營(yíng)
基于微博數(shù)據(jù) 研究分析客家文化:每到畢業(yè)季,給大學(xué)生們提供網(wǎng)絡(luò)爬蟲工具的技術(shù)指導(dǎo),教會(huì)他們用數(shù)據(jù)采集和內(nèi)容分析軟件工具完成畢業(yè)設(shè)計(jì)和論文,是我們的一項(xiàng)重要工具。在此過程中,我們也接觸和觀察到很多有意義的研究課題和研究過程,本文即為一例。
1,研究案例:微博上研究客家文化
某高校大學(xué)生用內(nèi)容分析法研究客家文化,樣本來自于新浪微博,量化分析微博上關(guān)于客家文化的內(nèi)容呈現(xiàn),并利用轉(zhuǎn)發(fā)和評(píng)論數(shù)據(jù)進(jìn)行傳播分析。
微博因?yàn)樾畔⒇S富、多樣且開放,是最佳的數(shù)據(jù)渠道,已經(jīng)產(chǎn)生了大量的微博場(chǎng)域的傳統(tǒng)文化數(shù)字化生存狀態(tài)的研究。
2,多種呈現(xiàn)方式的數(shù)據(jù)采集
GooSeeker有一套微博采集工具箱
[1],專門面向不希望編寫網(wǎng)絡(luò)爬蟲程序的研究者設(shè)計(jì)的。
例如,可以先從微博關(guān)鍵詞搜索入口,把涉及“客家”的微博內(nèi)容采集下來,微博的內(nèi)容呈現(xiàn)方式很豐富,文字、圖片、視頻都有。這些內(nèi)容都可以采集下來,分別進(jìn)行分析。例如,將視頻采集下來以后抽取關(guān)鍵幀圖片,利用圖片分析方法進(jìn)行分析。
針對(duì)重點(diǎn)的微博內(nèi)容,可以深入采集轉(zhuǎn)發(fā)和評(píng)論,轉(zhuǎn)發(fā)者和評(píng)論者,可分析和描述轉(zhuǎn)發(fā)者和評(píng)論者的傳播者特征。還可以根據(jù)博主的粉絲數(shù)計(jì)算傳播的量化特征。
GooSeeker微博工具箱里有多個(gè)微博采集工具,匹配高校師生從不同角度、不同傳播路徑、不同內(nèi)容呈現(xiàn)采集數(shù)據(jù)的需求。同樣也適用于公共領(lǐng)域和民間輿論場(chǎng)分析,市場(chǎng)和商業(yè)環(huán)境分析等。
3,怎樣采集更多數(shù)據(jù)
在這個(gè)客家文化相關(guān)內(nèi)容的研究過程中,研究者發(fā)現(xiàn)采集到的數(shù)據(jù)很少,經(jīng)過分析發(fā)現(xiàn),微博網(wǎng)站改版了,新版內(nèi)容呈現(xiàn)方式變了,大量采用瀑布流。鼠標(biāo)往下滾動(dòng)才有新內(nèi)容加載出來,不再有翻頁(yè)了。
而老版很多是翻頁(yè)方式,網(wǎng)絡(luò)爬蟲會(huì)逐頁(yè)翻頁(yè)爬取微博內(nèi)容,而瀑布流方式,網(wǎng)絡(luò)爬蟲需要自動(dòng)滾鼠標(biāo),新加載的內(nèi)容都顯示在當(dāng)前網(wǎng)頁(yè)上,網(wǎng)頁(yè)會(huì)變得很長(zhǎng),占用太多內(nèi)存,終究會(huì)受限。
下圖展示了進(jìn)入新版的方法,如果在網(wǎng)絡(luò)爬蟲瀏覽器打開新版的微博網(wǎng)頁(yè),那么GooSeeker微博采集工具箱就會(huì)失效。
所以,在網(wǎng)絡(luò)爬蟲的瀏覽器中,要預(yù)先把微博界面設(shè)置成老版本,如下圖返回老版本
4,文本分詞和自然語(yǔ)言處理
內(nèi)容分析作為一種量化分析手段,首先要把被分析的內(nèi)容切成某種分析單元。以詞作為分析單元是最常見的,因?yàn)榉衷~技術(shù)很成熟,可以自動(dòng)化完成。當(dāng)然,根據(jù)研究目的,也許以句子或者段落或者篇章作為分析單元更合適。
GooSeeker分詞和文本挖掘工具
[2]是特別適合高校師生使用的一個(gè)文本分析工具。只需把采集到的微博內(nèi)容以excel格式導(dǎo)入到該工具,就可導(dǎo)出詞頻詞性表。下圖羅列了常見的導(dǎo)出表。除此之外,還可以導(dǎo)出文本分類表和情感分類表。
還能生成可視化圖,例如,詞云圖和社交關(guān)系圖(下圖是另外一個(gè)研究題目的詞云的社交關(guān)系圖)
參考
- ^Gooseeker微博工具箱?https://www.gooseeker.com/land/weibo.html
- ^Gooseeker分詞和文本分析工具?https://www.gooseeker.com/res/softdetail_13.html
關(guān)鍵詞:分析,文化,研究,數(shù)據(jù),客家