选用阿里巴巴天池数据,进行数据分析。电商数据集都会有用户,商品,以及时间字段。不同的字段进行组合可以带来其他有用信息的呈现。
二 理解数据
数据集是关于婴儿商品,包含有以下的数据字段:
商品表格字段:
商品销售总数量;单月销售数量,周一至周天平均销售数量;月销售量的波动性。
1,分析商品销量的走势,预测下年销量
2,商品购买用户的年龄分布,找出商品受众最普遍年龄
本次提取的数据较为规范,没有需要重命名或补齐缺失值的部分,对8位数字的时间列进行分列后的时间格式的转换,变成可被系统识别的时间格式。
数字格式 时间格式
生成新的统计列:通过宝宝的出生时间计算出新的统计列--年龄
跨表查询:对有用户信息的购买者,在商品销售表格中查找,并筛选。
通过vlookup函数,对比ID,查找出年龄,使用相对定位。
六 数据分析结果
按年销售的统计数据
从每年的销售业绩看,销量呈增长趋势,因此可以推测,2015年销量会高于2014年
用户年龄分布:
购买群体的年龄分布
商品销售量和用户年龄以及时间的分布
商品销量与性别的分布
经过对数据的分析,发现商品销量是一个按月增长的过程,市场前景不错,商品针对用户群体是0-3岁的小朋友。女婴儿用户高于男婴儿用户。
通过一个简单的数据集分析,主要目的是熟悉数据清洗的流程:
1 选择子集
2 列的重命名
3 删除重复值
4 缺失值处理
5 一致化处理
6 数据排序
7 异常值处理