想要深入学习数据分析,第一步是要进行Python实战,然后需要对业务进行深入的理解,建立指标体系和思路,因为脱离了业务的数据分析基本上就是瞎胡闹。
这里我就不谈业务了,先演示一下如何利用Python做一次真正的、完整的数据分析实操。
————————Python实操正文————————
比如说,我想要研究亚马逊上Top100的细分品类——女式内衣的销售情况。(还有点不好意思)
需要爬取的具体字段:排名(Rank),商品名(item_name),商品详情页链接(item_link)、商品图片链接(img_src)。
2、在商品详情页爬取更多商品信息
星级、评论标签
核心:
构建函数来获取单个商品的详细信息;利用for循环,遍历商品详情页链接列表,来获取每个商品的详细信息3、爬取评论
2、以商家维度处理数据
获取所需的数据:商家的星级、评论数总和、评论数均值、最低价均值、最高价均值、价格均值、商品数量、占比。针对星级、评论数均值、价格均值、商品数量做标准化处理,并计算加权分。
平均星级达4.15分,高于平均分的商家超过一半(17/32)Top1的LALAVAVA高达4.9分,紧随其后也有5家达到4.5分。倒数第一N-pearI只有3.2分让我看看LALAVAVA长什么样。亚马逊上的商品,看上去就是普通泳衣,米国人还是很保守的嘛~
首先平均评论数只有193条,而且高于平均线的只有不到三成(12/32),想想淘宝动辄上万,我们的人口优势让米国人羡慕呀;再来看星级Top1的LALAVAVA,评论数少得可怜,那么对其商品真实质量就要存疑了;而星级倒数的N-pear I,同样评论数很少,那大概率其商品其实不咋地;反观评论数Top1的Garmol,其星级评价4.4,口碑佳评论也多,看来是不错的商品;紧随其后的几家,其星级分数就低于平均分了那么,亚马逊的星级评价难道就只受评论数的几颗星比例影响吗?我查阅了网上的一些资料,发现亚马逊评价星级评定的三个重要因素:评论距离现在的时间,评论被买家投票采纳数,评论是否有verified purchase标志(意指真实买家)。此外,评论的字符数,被点击次数等因素也可能会对评论星级有影响。
看来,亚马逊对评论的监控和管理是非常严格而复杂的!当然,最重要的还是看看评论第一名的Garmol长什么样:
从图上来看,明显ELOVER锁定的是高端市场,定价区间在49刀左右;相反,Goddessvan定价仅0.39刀,还只有一款,猜测可能是亏本冲量,提高商家曝光,抢夺低端市场从均价来看,基本分布在10-20刀间,说明这是情趣内衣市场的主要价格区间;但20-40刀区间居然没有任何商家,可以在这一块深入研究,看能不能找到证据说明该区间是蓝海,有更大的市场潜力而从每个商家的价格区间来看,大多数都是采取多颜色或款式的策略,一方面为用户提供更多选择,另一方面也体现了商家的上新能力;而仅有少数几家采取了单一爆款的策略最奢华的ELOVER看上去果然比较女神,缩略图都比别家更用心。
在Top100的商品占比中,Avidlove以28%的巨大优势称霸而其他商家基本都是个位数的占比,没有很明显的优劣势Avidlove的内衣是酷酷风的,我喜欢。
将星级、平均评论数、商品均价、商品数量进行标准化处理后,因为不好拍定加权的比例,便将4项的归一化结果x10后直接累加得到总分,并制作成条形堆积图。
而每个商家的4项指标的占比,则侧面反映其自身的优劣势。
Avidlove,刚刚的酷酷风内衣,在其他三项中规中矩的情况下,以商品数量优势夺得综合分第一,有种农村包围城市的感觉Garmol,主要依靠口碑(星级、平均评论数)的优势,夺得了第二名ELOVER,主要依靠精准切分高端市场,夺得了第三名N-pearI,没有任何优势,不出意料的光荣垫底口碑最差的N-pearI,能搜到的商品也最少,不过图很劲爆,emm……然而不是我的菜
利用价格均值和星级均值,将图切分为四个象限:
①左上象限:实惠好评的商家
②右上象限:有点贵,但一分钱一分货的商家
③右下象限:贵,但质量不咋地的商家
④左下象限:便宜没好货的商家
所以借助这张散点图,挑商家买东西就容易多啦:
追求性价比,可选择Avidlove,而且商品多,任君挑选 ;追求高端,可选择ELOVER,它贵有它的道理 ;追求大众,可选择Garmol,评论数最多,而且好评居多 。顾客可以根据自己的喜好挑选合适的商家,那么作为商家如何改进自己呢?
6、词频分析
快夸我底图选得好!
最直观的,仍然是跟“是否合身”以及质量或款式有关。那么我们就从顾客购买商品的Size&Color继续分析
这里,Size&Color的词频数据存在几点问题:1、数据量较少,仅有约6000条2、Size&Color无法较好的区分开,因此一起分析3、商家的命名规则不同,比如同样是黑色款,有个商家会命名black,而有的可能是style1(所以一些奇怪的数字编号其实是商家的款式编号)4、有些奇怪的字眼如trim可能是爬虫时爬错了或者导出csv时的格式错乱