時間:2023-03-26 10:36:01 | 來源:電子商務
時間:2023-03-26 10:36:01 來源:電子商務
官網(wǎng)更多只是一個數(shù)據(jù)的提供和展示,分析和研判必須自己有觀點和視角,并且通過回歸分析等得出預見性的結(jié)論,數(shù)據(jù)爬取困難,同時免費。我的看法:
企業(yè)官網(wǎng)大多是強調(diào)專業(yè)性,需要收費,分析文章有既定的框架,視角。
加強對于基礎分析框架的學習,逐步通過一般性數(shù)據(jù)進行分析,得出自己的結(jié)論,通過其他人的觀點,豐富自己的視野,提高判斷,認知。
這三個操作,在實際工作應用中經(jīng)常遇到,都是很重要的Python知識點,我們將它們應用到一個實戰(zhàn)案例中講解,學習起來會事半功倍。1.doc文章格式轉(zhuǎn)換為docx格式:
PS:不要單純只學習某個知識點,帶著應用學習;
1.涉及os,time,win32com等庫2.func處理3.參數(shù)為path
2. python-docx讀取word文檔內(nèi)容:這里其實和我好物控項目的是一樣的,都是將多個句子或者段落拼接成一個長句:字符串text,然后進行分析。只是這里多了一步要讀取word文檔。3. jieba中文分詞庫的應用:
這個案例可以多少讓我知道jieba庫的一些統(tǒng)計功能,之前都是直接生成圖片,不利于我進行篩選,反復迭代,找到定價的位置。所需要的庫:
import jiebafrom wordcloud import WordCloudimport pandas as pdimport matplotlib.pyplot as pltfrom imageio import imreadimport warningswarnings.filterwarnings("ignore")
② 使用jieba庫中的lcut()方法進行分詞
短短的一行代碼,很簡單。
text_list = list(jieba.cut(text))
在進行分詞之前,我們可以動態(tài)修改詞典
,讓某些特定詞語不被強制性分開。我這里介紹一下,大家下去自己學習。
jieba.add_word()方法,只能一個個動態(tài)添加詞語;
假如我們需要動態(tài)添加多個詞語的時候,就需要使用jieba.load_userdict()方法。也就是說:將所有的自定義詞語,放到一個文本中,然后使用該方法,一次性動態(tài)修改詞典集;
③ 讀取停用詞,添加額外停用詞,并去除停用詞
讀取停用詞,采用split()函數(shù)切分后,會得到一個停用詞列表
。接著,采用+號
將額外停用詞,添加到列表中即可。
with open(r"stoplist.txt",encoding="utf-8") as f:
stop = f.read()
stop = stop.split()
stop = [" "] + stop
final_text = [i for i in text_list if i not in stop]
④ 詞頻統(tǒng)計
這里使用Pandas
庫中series序列的value_counts()函數(shù),進行詞頻統(tǒng)計。
word_count = pd.Series(final_text).value_counts()[:30]
做一個收藏記錄,主要是記錄如何統(tǒng)計詞頻。
另外,繪制詞云圖的圖形的設計和輸出上,文章也給出了不同的圖案,比好物控的要更加有心思一些。
⑤ 詞云圖的繪制
# 1、讀取背景圖片back_picture = imread(r"aixin.jpg")# 2、設置詞云參數(shù):這些參數(shù),大家看英文單詞的含義,應該可以猜出來!wc = WordCloud(font_path="simhei.ttf", background_color="white", max_words=2000, mask=back_picture, max_font_size=200, random_state=42 )wc2 = wc.fit_words(word_count)# 3、繪制詞云圖plt.figure(figsize=(16,8))plt.imshow(wc2)plt.axis("off")plt.show()wc.to_file("ciyun.png")
本文總的來講,學習到了一下幾個知識點:
1.正確讀取docx文檔,防止報錯
2.重新熟悉了jieba,進而了解到jieba統(tǒng)計,繪圖設置的功能。
對于好物控項目來講,多迭代,生成多次詞云圖,為產(chǎn)品的推出增添了說服力,很好的把握商家命名產(chǎn)品以及消費者的真實訴求,同時又優(yōu)化了詞庫。
choice()
、choices()
鑒于筆者一開始就做過Python的彩票中獎小項目,就只做個記錄就好了。
關鍵詞:經(jīng)濟,統(tǒng)計,觀點,函數(shù),資料,數(shù)據(jù),整理
微信公眾號
版權所有? 億企邦 1997-2025 保留一切法律許可權利。