數據初步了解
(head出現,意味著只出現前5行,如果只出現后面幾行就是tail)?
info?
shape?
?describe
?
數據清洗
重復值處理
????????這個重復值是否去掉要看實際情況,比如說:昨天賣了5瓶七喜,今天賣了5瓶七喜,同樣的數量,這種重復值就不能刪除,要有一個合理的解釋去說明刪除的是無效重復數據。
?缺失值處理?
?
存在的缺失值很可能意味著售出的數量為0或者評論的數量為0,所以我們用0來填補缺失值
數據挖掘尋找新的特征?
????????街道庫(jieba)的使用方法,包括精確模式、全模式和搜索引擎模式的不同應用場景。
給出各個關鍵詞的分類類別?
????????創建主類別和子類別,并通過關鍵詞進行標簽化
由title新生成兩列類別
????????通過中文分詞技術對title列進行處理,將其分為大類和小類,便于后續數據分析。
對是否是男性專用進行分析并新增一列
對每個產品總銷量新增銷售額這一列?
數據分析及可視化
????????使用Python進行數據可視化,包括繪制柱形圖和餅圖
????????通過代碼實現數據的排序和分組,并生成相應的圖表
通過圖表不難看出以下幾點:
????????悅詩風吟的商品數量遙遙領先,然而其商品銷量只排在第三位,總銷售額只排在第五位。
SKII,玉蘭油,植村秀商品數量大概都在500-1500的范圍,而銷量為0。
????????相宜本草商品數量也只屬于中游,但其銷量銷售額均排在第一位,由于其銷量是第二名的大約兩倍,而銷售額遠不到兩倍,所以銷售額/銷量,也就是每一單的均價也是一個值得研究的新指標。????????
????????通過加入平均每單單價之后,觀察銷售額較高的幾個品牌相宜本草,歐萊雅,佰草集,悅詩風吟,雅詩蘭黛。
????????其中相宜本草,悅詩風吟,歐萊雅都是平均單價200元以下的,佰草集為200-300元區間,雅詩蘭黛為大于500元區間。是否能夠判斷價格親民的品牌的銷售額會相對來說更高?下面根據這里的數據先把平均單價分為幾個區間,其中0-100元記為A類,100-200元記為B類,200-300元記為C類,300元及以上記為D類。
(分析各品牌商品數、銷量和總銷售額,以及平均每單單價。
按價格區間將商品分為A、B、C、D四類,分析性價比。
細化品類分析,包括底妝、口紅、化妝水等。)